基于Python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計與實現(xiàn)
本文關(guān)鍵詞:搜索引擎用戶行為與用戶滿意度的關(guān)聯(lián)研究,,由筆耕文化傳播整理發(fā)布。
《燕山大學》 2015年
基于Python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計與實現(xiàn)
耿大偉
【摘要】:隨著數(shù)字校園的發(fā)展,校園網(wǎng)絡(luò)信息呈現(xiàn)爆炸式的增長,信息的查找和定位變得更為困難,目前一般采用通用搜索引擎的站內(nèi)搜索來進行信息的查找,但是由于通用搜索引擎往往不能及時收錄最新發(fā)布的消息,并且校園網(wǎng)內(nèi)有些使用二級域名或者直接使用IP地址訪問的網(wǎng)站不容易被通用搜索引擎收錄,所以使用傳統(tǒng)的通用搜索引擎來搜索校園網(wǎng)的信息,越來越不方便。針對上述問題,本文以燕山大學校園網(wǎng)為研究對象,在分析了網(wǎng)絡(luò)搜索引擎的原理、核心模塊和運行流程的基礎(chǔ)上,探索性地研究并實現(xiàn)了一個在Linux平臺下基于Python技術(shù)的面向校園網(wǎng)的原型搜索引擎。首先,本文給出了搜索引擎的簡要工作流程,介紹搜索引擎中的一些關(guān)鍵的技術(shù),并著重分析了目前廣泛運用的BM25搜索引擎檢索模型。其次,通過使用基于Python語言的Scrapy開源爬蟲框架,Beautiful Soup網(wǎng)頁解析庫,對搜索引擎的爬蟲模塊進行開發(fā),指出了Scrapy框架原有的URL去重方法會導致針對大規(guī)模網(wǎng)站抓取時,內(nèi)存耗費過大的問題,并提出了一種使用布隆過濾器對Scrapy爬蟲框架的URL去重功能進行改進的方案。同時,根據(jù)實際經(jīng)驗,提出了兩種防止爬蟲被ban的策略。再次,利用基于Python語言的Whoosh索引檢索庫,對本系統(tǒng)索引檢索模塊進行開發(fā)。針對Whoosh對中文分詞效果不好的問題,提出了使用jieba開源分詞組件來對Whoosh的中文分詞功能進行改進。通過使用基于Python語言的Flask框架,來實現(xiàn)用戶界面,使用戶可以通過網(wǎng)頁端使用本校園搜索引擎系統(tǒng)。最后,對原型系統(tǒng)進行測試,并與谷歌、百度兩大通用搜索引擎的站內(nèi)搜索結(jié)果做比較,測試證明,本原型系統(tǒng)的搜索結(jié)果,要略好一些。
【關(guān)鍵詞】:
【學位授予單位】:燕山大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.3;TP393.18
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉健;劉奕群;馬少平;張敏;茹立云;張闊;;搜索引擎用戶行為與用戶滿意度的關(guān)聯(lián)研究[J];中文信息學報;2014年01期
2 史寶明;賀元香;吳崇正;;主題搜索引擎中爬蟲搜索策略的研究[J];計算機工程與應(yīng)用;2014年02期
3 高家利;廖曉峰;;改進的Bloom Filter算法及其性能分析[J];計算機工程與設(shè)計;2009年03期
4 李志義;梁士金;;國內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書情報工作;2011年07期
5 韓如冰;葉得學;;基于VSM的權(quán)重改進文檔相似度算法研究[J];軟件;2012年10期
6 閆俊伢;;基于MD5的網(wǎng)頁去重算法的設(shè)計與研究[J];實驗室研究與探索;2013年12期
7 徐娜;劉四維;汪翔;倪衛(wèi)明;;基于Bloom Filter的網(wǎng)頁去重算法[J];微型電腦應(yīng)用;2011年03期
8 許劍穎;;搜索引擎發(fā)展趨勢研究[J];現(xiàn)代情報;2011年09期
9 李志義;;網(wǎng)絡(luò)爬蟲的優(yōu)化策略探略[J];現(xiàn)代情報;2011年10期
10 林美娜;蘇玉;張紅艷;;基于VSM的個性化信息過濾算法的研究[J];微型機與應(yīng)用;2012年21期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 武昊;廖安平;何超英;侯東陽;;基于主題相關(guān)度的地理信息Web服務(wù)爬蟲研究[J];地理與地理信息科學;2012年02期
2 程芃森;安俊秀;;基于特征詞群的新聞類重復網(wǎng)頁和近似網(wǎng)頁識別算法[J];成都信息工程學院學報;2012年04期
3 王飛紅;丁澤發(fā);;基于Lucene的垂直搜索引擎設(shè)計與實現(xiàn)[J];電子技術(shù)與軟件工程;2014年05期
4 沈平;桂志鵬;游蘭;胡凱;吳華意;;一種主動發(fā)現(xiàn)網(wǎng)絡(luò)地理信息服務(wù)的主題爬蟲[J];地球信息科學學報;2015年02期
5 徐芳;;搜索引擎的信息組織方式淺析[J];科技情報開發(fā)與經(jīng)濟;2012年07期
6 劉雪君;王魯燕;楊學紅;;有關(guān)搜索引擎的文獻增長規(guī)律研究[J];農(nóng)業(yè)圖書情報學刊;2012年05期
7 周遠超;葉楓;高依旻;張雪潔;;水利垂直搜索引擎的研究[J];計算機與數(shù)字工程;2012年10期
8 孫戰(zhàn)彪;;非結(jié)構(gòu)化P2P網(wǎng)絡(luò)資源搜索算法研究[J];科技信息;2013年10期
9 王沐心;;門戶網(wǎng)站保密檢查系統(tǒng)[J];計算機與現(xiàn)代化;2013年10期
10 盧靜;唐先富;陳淑娟;;搜索引擎與信息導航的發(fā)展研究[J];內(nèi)蒙古科技與經(jīng)濟;2013年24期
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 張偉男;社區(qū)型問答中問句檢索關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學;2014年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 欒艷;基于段落指紋的大規(guī)模近似網(wǎng)頁檢測算法研究[D];南京理工大學;2012年
2 湯偉;Android應(yīng)用程序框架安全機制研究及改進[D];寧波大學;2012年
3 金梅;網(wǎng)絡(luò)爬蟲性能提升與功能拓展的研究與實現(xiàn)[D];吉林大學;2012年
4 齊文龍;基于爬蟲技術(shù)的基金信息采集系統(tǒng)的設(shè)計與實現(xiàn)[D];天津大學;2012年
5 張芳;校園網(wǎng)搜索引擎中網(wǎng)頁去重技術(shù)的研究[D];內(nèi)蒙古科技大學;2012年
6 勾智楠;垂直搜索引擎的研究與實現(xiàn)[D];河北科技大學;2012年
7 呂舜;基于人工標注的搜索引擎評估方法與實現(xiàn)[D];大連理工大學;2013年
8 黃濤;布隆過濾器在網(wǎng)頁去重中的研究與應(yīng)用[D];大連海事大學;2013年
9 徐顯煉;分布式在線旅游搜索爬蟲系統(tǒng)設(shè)計與實現(xiàn)[D];北京郵電大學;2013年
10 韓露;基于用戶興趣模型的個性化搜索系統(tǒng)的研究[D];西南大學;2013年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 郭彥秋;;淺析百度與谷歌兩搜索引擎的比較與分析[J];才智;2012年06期
2 尚冬娟;張敏;;信息過濾系統(tǒng)中的混合式過濾算法[J];重慶工學院學報(自然科學版);2008年01期
3 吳祐昕;順風;;網(wǎng)絡(luò)搜索引擎的發(fā)展趨勢分析[J];當代傳播;2007年03期
4 王春紅;張敏;楊秀榮;;基于Web的信息過濾系統(tǒng)的設(shè)計與實現(xiàn)[J];電子科技大學學報;2009年S1期
5 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁正文信息抽取新方法[J];大連理工大學學報;2009年04期
6 閻亞杰;;網(wǎng)頁去重方法研究[J];電腦開發(fā)與應(yīng)用;2008年08期
7 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期
8 王建勇,謝正茂,雷鳴,李曉明;近似鏡像網(wǎng)頁檢測算法的研究與評價[J];電子學報;2000年S1期
9 韓正服;楊喜權(quán);張一鳴;叢榮華;;基于特征碼的大規(guī)模XML文檔去重研究[J];中國管理信息化(綜合版);2006年07期
10 周小平;黃家裕;劉連芳;梁一平;申文明;;基于網(wǎng)頁正文主題和摘要的網(wǎng)頁去重算法[J];廣西科學院學報;2009年04期
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學;2008年
中國碩士學位論文全文數(shù)據(jù)庫 前3條
1 連浩;基于布爾模型的網(wǎng)頁查重算法研究[D];中國科學院研究生院(計算技術(shù)研究所);2006年
2 姚漫;基于文本聚類的網(wǎng)頁消重算法研究[D];北京交通大學;2008年
3 李憲雷;元搜索關(guān)鍵技術(shù)研究與實現(xiàn)[D];北京工業(yè)大學;2008年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李愛寧;唐勇;孫曉輝;劉昕彤;;基于Python語言的3DES算法優(yōu)化[J];計算機系統(tǒng)應(yīng)用;2011年08期
2 江岸;;基于Python的網(wǎng)絡(luò)游戲腳本系統(tǒng)的設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2013年09期
3 ;Python正在取代R成為數(shù)據(jù)科學界新寵[J];電腦編程技巧與維護;2014年01期
4 ;Guido van Rossum[J];程序員;2002年03期
5 羅霄,任勇,山秀明;基于Python的混合語言編程及其實現(xiàn)[J];計算機應(yīng)用與軟件;2004年12期
6 張志艷;劉萬軍;王艷娟;;基于Python的行為型模式設(shè)計[J];遼寧工程技術(shù)大學學報;2004年S1期
7 胡守超;;基于Python語言的音頻捕獲及頻譜分析設(shè)計[J];電腦編程技巧與維護;2009年09期
8 胡守超;;基于Python語言的音頻捕獲及頻譜分析程序設(shè)計[J];微型電腦應(yīng)用;2009年04期
9 何惠英;付少波;安居;付蘭芳;;用Python語言分析銀行自助設(shè)備交易流水文件[J];現(xiàn)代電子技術(shù);2010年05期
10 彭樹林;;Python在嵌入式項目中的輔助開發(fā)[J];信息系統(tǒng)工程;2010年07期
中國重要會議論文全文數(shù)據(jù)庫 前6條
1 ;Development of Python-based ArcGIS Tools for Spatially Balanced Forest Sampling Design[A];Information Technology and Computer Science—Proceedings of 2012 National Conference on Information Technology and Computer Science[C];2012年
2 伊鵬躍;于哲峰;汪海;;基于Abaqus/Python的三維復合材料層壓板有限元建模參數(shù)化開發(fā)[A];第17屆全國復合材料學術(shù)會議(復合材料結(jié)構(gòu)設(shè)計與性能表征分論壇)論文集[C];2012年
3 黃佳聰;高俊峰;;基于Python編程語言的空間動態(tài)模型集成[A];自然地理學與生態(tài)安全學術(shù)論文摘要集[C];2012年
4 于文麗;;基于Python的空間自相關(guān)模式研究[A];中國地理學會百年慶典學術(shù)論文摘要集[C];2009年
5 郭霞;關(guān)志東;劉遂;陳萍;劉佳;王欣晶;邱太文;;基于Python的Abaqus二次開發(fā)在層壓板修理模擬中的應(yīng)用[A];計算機輔助工程及其理論研討會2013(CAETS2013)論文集[C];2013年
6 李森;付莉;;英語及相關(guān)日耳曼語言詞頻與詞長的對比研究[A];語言與文化研究(第四輯)[C];2009年
中國重要報紙全文數(shù)據(jù)庫 前6條
1 高壽福;[N];中華讀書報;2001年
2 ·特約作者 鄒肇輝;[N];電腦報;2005年
3 易水;[N];計算機世界;2004年
4 本報記者 蒙克;[N];網(wǎng)絡(luò)世界;2009年
5 ;[N];計算機世界;2006年
6 周蓉蓉;[N];計算機世界;2006年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 胡忠?guī)?基于Python的企業(yè)安全漏洞管理方法研究[D];北京郵電大學;2015年
2 王國強;基于Python的SDG-HAZOP軟件中推理規(guī)則問題的研究[D];北京化工大學;2009年
3 李悅;基于Python+Tkinter的Linux GUI輔助管理工具的設(shè)計與實現(xiàn)[D];吉林大學;2009年
4 王健;Python插件在CG制作管理中的應(yīng)用[D];南京理工大學;2008年
5 李鑫;基于Python的軟件測試自動化平臺[D];太原科技大學;2014年
6 劉麗媛;基于Python的半導體測試軟件系統(tǒng)的設(shè)計與實現(xiàn)[D];北京交通大學;2013年
7 周一丁;基于面向服務(wù)并行計算的Python計算網(wǎng)格[D];上海交通大學;2008年
8 雷雨;基于Python腳本的電力規(guī)約通用測試技術(shù)研究[D];電子科技大學;2012年
9 孟繁超;基于Python的嵌入式開發(fā)工具的設(shè)計與實現(xiàn)[D];鄭州大學;2014年
10 倪志嘉;基于Python的CRM系統(tǒng)接口自動化測試設(shè)計與實現(xiàn)[D];上海交通大學;2012年
本文關(guān)鍵詞:搜索引擎用戶行為與用戶滿意度的關(guān)聯(lián)研究,由筆耕文化傳播整理發(fā)布。
本文編號:195131
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/195131.html