基于Python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:搜索引擎用戶行為與用戶滿意度的關(guān)聯(lián)研究,,由筆耕文化傳播整理發(fā)布。
《燕山大學(xué)》 2015年
基于Python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
耿大偉
【摘要】:隨著數(shù)字校園的發(fā)展,校園網(wǎng)絡(luò)信息呈現(xiàn)爆炸式的增長(zhǎng),信息的查找和定位變得更為困難,目前一般采用通用搜索引擎的站內(nèi)搜索來(lái)進(jìn)行信息的查找,但是由于通用搜索引擎往往不能及時(shí)收錄最新發(fā)布的消息,并且校園網(wǎng)內(nèi)有些使用二級(jí)域名或者直接使用IP地址訪問(wèn)的網(wǎng)站不容易被通用搜索引擎收錄,所以使用傳統(tǒng)的通用搜索引擎來(lái)搜索校園網(wǎng)的信息,越來(lái)越不方便。針對(duì)上述問(wèn)題,本文以燕山大學(xué)校園網(wǎng)為研究對(duì)象,在分析了網(wǎng)絡(luò)搜索引擎的原理、核心模塊和運(yùn)行流程的基礎(chǔ)上,探索性地研究并實(shí)現(xiàn)了一個(gè)在Linux平臺(tái)下基于Python技術(shù)的面向校園網(wǎng)的原型搜索引擎。首先,本文給出了搜索引擎的簡(jiǎn)要工作流程,介紹搜索引擎中的一些關(guān)鍵的技術(shù),并著重分析了目前廣泛運(yùn)用的BM25搜索引擎檢索模型。其次,通過(guò)使用基于Python語(yǔ)言的Scrapy開(kāi)源爬蟲框架,Beautiful Soup網(wǎng)頁(yè)解析庫(kù),對(duì)搜索引擎的爬蟲模塊進(jìn)行開(kāi)發(fā),指出了Scrapy框架原有的URL去重方法會(huì)導(dǎo)致針對(duì)大規(guī)模網(wǎng)站抓取時(shí),內(nèi)存耗費(fèi)過(guò)大的問(wèn)題,并提出了一種使用布隆過(guò)濾器對(duì)Scrapy爬蟲框架的URL去重功能進(jìn)行改進(jìn)的方案。同時(shí),根據(jù)實(shí)際經(jīng)驗(yàn),提出了兩種防止爬蟲被ban的策略。再次,利用基于Python語(yǔ)言的Whoosh索引檢索庫(kù),對(duì)本系統(tǒng)索引檢索模塊進(jìn)行開(kāi)發(fā)。針對(duì)Whoosh對(duì)中文分詞效果不好的問(wèn)題,提出了使用jieba開(kāi)源分詞組件來(lái)對(duì)Whoosh的中文分詞功能進(jìn)行改進(jìn)。通過(guò)使用基于Python語(yǔ)言的Flask框架,來(lái)實(shí)現(xiàn)用戶界面,使用戶可以通過(guò)網(wǎng)頁(yè)端使用本校園搜索引擎系統(tǒng)。最后,對(duì)原型系統(tǒng)進(jìn)行測(cè)試,并與谷歌、百度兩大通用搜索引擎的站內(nèi)搜索結(jié)果做比較,測(cè)試證明,本原型系統(tǒng)的搜索結(jié)果,要略好一些。
【關(guān)鍵詞】:
【學(xué)位授予單位】:燕山大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3;TP393.18
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購(gòu)買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 劉健;劉奕群;馬少平;張敏;茹立云;張闊;;搜索引擎用戶行為與用戶滿意度的關(guān)聯(lián)研究[J];中文信息學(xué)報(bào);2014年01期
2 史寶明;賀元香;吳崇正;;主題搜索引擎中爬蟲搜索策略的研究[J];計(jì)算機(jī)工程與應(yīng)用;2014年02期
3 高家利;廖曉峰;;改進(jìn)的Bloom Filter算法及其性能分析[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年03期
4 李志義;梁士金;;國(guó)內(nèi)網(wǎng)頁(yè)去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書情報(bào)工作;2011年07期
5 韓如冰;葉得學(xué);;基于VSM的權(quán)重改進(jìn)文檔相似度算法研究[J];軟件;2012年10期
6 閆俊伢;;基于MD5的網(wǎng)頁(yè)去重算法的設(shè)計(jì)與研究[J];實(shí)驗(yàn)室研究與探索;2013年12期
7 徐娜;劉四維;汪翔;倪衛(wèi)明;;基于Bloom Filter的網(wǎng)頁(yè)去重算法[J];微型電腦應(yīng)用;2011年03期
8 許劍穎;;搜索引擎發(fā)展趨勢(shì)研究[J];現(xiàn)代情報(bào);2011年09期
9 李志義;;網(wǎng)絡(luò)爬蟲的優(yōu)化策略探略[J];現(xiàn)代情報(bào);2011年10期
10 林美娜;蘇玉;張紅艷;;基于VSM的個(gè)性化信息過(guò)濾算法的研究[J];微型機(jī)與應(yīng)用;2012年21期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 武昊;廖安平;何超英;侯東陽(yáng);;基于主題相關(guān)度的地理信息Web服務(wù)爬蟲研究[J];地理與地理信息科學(xué);2012年02期
2 程芃森;安俊秀;;基于特征詞群的新聞?lì)愔貜?fù)網(wǎng)頁(yè)和近似網(wǎng)頁(yè)識(shí)別算法[J];成都信息工程學(xué)院學(xué)報(bào);2012年04期
3 王飛紅;丁澤發(fā);;基于Lucene的垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[J];電子技術(shù)與軟件工程;2014年05期
4 沈平;桂志鵬;游蘭;胡凱;吳華意;;一種主動(dòng)發(fā)現(xiàn)網(wǎng)絡(luò)地理信息服務(wù)的主題爬蟲[J];地球信息科學(xué)學(xué)報(bào);2015年02期
5 徐芳;;搜索引擎的信息組織方式淺析[J];科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì);2012年07期
6 劉雪君;王魯燕;楊學(xué)紅;;有關(guān)搜索引擎的文獻(xiàn)增長(zhǎng)規(guī)律研究[J];農(nóng)業(yè)圖書情報(bào)學(xué)刊;2012年05期
7 周遠(yuǎn)超;葉楓;高依旻;張雪潔;;水利垂直搜索引擎的研究[J];計(jì)算機(jī)與數(shù)字工程;2012年10期
8 孫戰(zhàn)彪;;非結(jié)構(gòu)化P2P網(wǎng)絡(luò)資源搜索算法研究[J];科技信息;2013年10期
9 王沐心;;門戶網(wǎng)站保密檢查系統(tǒng)[J];計(jì)算機(jī)與現(xiàn)代化;2013年10期
10 盧靜;唐先富;陳淑娟;;搜索引擎與信息導(dǎo)航的發(fā)展研究[J];內(nèi)蒙古科技與經(jīng)濟(jì);2013年24期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 張偉男;社區(qū)型問(wèn)答中問(wèn)句檢索關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2014年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 欒艷;基于段落指紋的大規(guī)模近似網(wǎng)頁(yè)檢測(cè)算法研究[D];南京理工大學(xué);2012年
2 湯偉;Android應(yīng)用程序框架安全機(jī)制研究及改進(jìn)[D];寧波大學(xué);2012年
3 金梅;網(wǎng)絡(luò)爬蟲性能提升與功能拓展的研究與實(shí)現(xiàn)[D];吉林大學(xué);2012年
4 齊文龍;基于爬蟲技術(shù)的基金信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];天津大學(xué);2012年
5 張芳;校園網(wǎng)搜索引擎中網(wǎng)頁(yè)去重技術(shù)的研究[D];內(nèi)蒙古科技大學(xué);2012年
6 勾智楠;垂直搜索引擎的研究與實(shí)現(xiàn)[D];河北科技大學(xué);2012年
7 呂舜;基于人工標(biāo)注的搜索引擎評(píng)估方法與實(shí)現(xiàn)[D];大連理工大學(xué);2013年
8 黃濤;布隆過(guò)濾器在網(wǎng)頁(yè)去重中的研究與應(yīng)用[D];大連海事大學(xué);2013年
9 徐顯煉;分布式在線旅游搜索爬蟲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2013年
10 韓露;基于用戶興趣模型的個(gè)性化搜索系統(tǒng)的研究[D];西南大學(xué);2013年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 郭彥秋;;淺析百度與谷歌兩搜索引擎的比較與分析[J];才智;2012年06期
2 尚冬娟;張敏;;信息過(guò)濾系統(tǒng)中的混合式過(guò)濾算法[J];重慶工學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年01期
3 吳祐昕;順風(fēng);;網(wǎng)絡(luò)搜索引擎的發(fā)展趨勢(shì)分析[J];當(dāng)代傳播;2007年03期
4 王春紅;張敏;楊秀榮;;基于Web的信息過(guò)濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電子科技大學(xué)學(xué)報(bào);2009年S1期
5 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁(yè)正文信息抽取新方法[J];大連理工大學(xué)學(xué)報(bào);2009年04期
6 閻亞杰;;網(wǎng)頁(yè)去重方法研究[J];電腦開(kāi)發(fā)與應(yīng)用;2008年08期
7 孫立偉;何國(guó)輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識(shí)與技術(shù);2010年15期
8 王建勇,謝正茂,雷鳴,李曉明;近似鏡像網(wǎng)頁(yè)檢測(cè)算法的研究與評(píng)價(jià)[J];電子學(xué)報(bào);2000年S1期
9 韓正服;楊喜權(quán);張一鳴;叢榮華;;基于特征碼的大規(guī)模XML文檔去重研究[J];中國(guó)管理信息化(綜合版);2006年07期
10 周小平;黃家裕;劉連芳;梁一平;申文明;;基于網(wǎng)頁(yè)正文主題和摘要的網(wǎng)頁(yè)去重算法[J];廣西科學(xué)院學(xué)報(bào);2009年04期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 連浩;基于布爾模型的網(wǎng)頁(yè)查重算法研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2006年
2 姚漫;基于文本聚類的網(wǎng)頁(yè)消重算法研究[D];北京交通大學(xué);2008年
3 李憲雷;元搜索關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2008年
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 李愛(ài)寧;唐勇;孫曉輝;劉昕彤;;基于Python語(yǔ)言的3DES算法優(yōu)化[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2011年08期
2 江岸;;基于Python的網(wǎng)絡(luò)游戲腳本系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2013年09期
3 ;Python正在取代R成為數(shù)據(jù)科學(xué)界新寵[J];電腦編程技巧與維護(hù);2014年01期
4 ;Guido van Rossum[J];程序員;2002年03期
5 羅霄,任勇,山秀明;基于Python的混合語(yǔ)言編程及其實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2004年12期
6 張志艷;劉萬(wàn)軍;王艷娟;;基于Python的行為型模式設(shè)計(jì)[J];遼寧工程技術(shù)大學(xué)學(xué)報(bào);2004年S1期
7 胡守超;;基于Python語(yǔ)言的音頻捕獲及頻譜分析設(shè)計(jì)[J];電腦編程技巧與維護(hù);2009年09期
8 胡守超;;基于Python語(yǔ)言的音頻捕獲及頻譜分析程序設(shè)計(jì)[J];微型電腦應(yīng)用;2009年04期
9 何惠英;付少波;安居;付蘭芳;;用Python語(yǔ)言分析銀行自助設(shè)備交易流水文件[J];現(xiàn)代電子技術(shù);2010年05期
10 彭樹(shù)林;;Python在嵌入式項(xiàng)目中的輔助開(kāi)發(fā)[J];信息系統(tǒng)工程;2010年07期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前6條
1 ;Development of Python-based ArcGIS Tools for Spatially Balanced Forest Sampling Design[A];Information Technology and Computer Science—Proceedings of 2012 National Conference on Information Technology and Computer Science[C];2012年
2 伊鵬躍;于哲峰;汪海;;基于Abaqus/Python的三維復(fù)合材料層壓板有限元建模參數(shù)化開(kāi)發(fā)[A];第17屆全國(guó)復(fù)合材料學(xué)術(shù)會(huì)議(復(fù)合材料結(jié)構(gòu)設(shè)計(jì)與性能表征分論壇)論文集[C];2012年
3 黃佳聰;高俊峰;;基于Python編程語(yǔ)言的空間動(dòng)態(tài)模型集成[A];自然地理學(xué)與生態(tài)安全學(xué)術(shù)論文摘要集[C];2012年
4 于文麗;;基于Python的空間自相關(guān)模式研究[A];中國(guó)地理學(xué)會(huì)百年慶典學(xué)術(shù)論文摘要集[C];2009年
5 郭霞;關(guān)志東;劉遂;陳萍;劉佳;王欣晶;邱太文;;基于Python的Abaqus二次開(kāi)發(fā)在層壓板修理模擬中的應(yīng)用[A];計(jì)算機(jī)輔助工程及其理論研討會(huì)2013(CAETS2013)論文集[C];2013年
6 李森;付莉;;英語(yǔ)及相關(guān)日耳曼語(yǔ)言詞頻與詞長(zhǎng)的對(duì)比研究[A];語(yǔ)言與文化研究(第四輯)[C];2009年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前6條
1 高壽福;[N];中華讀書報(bào);2001年
2 ·特約作者 鄒肇輝;[N];電腦報(bào);2005年
3 易水;[N];計(jì)算機(jī)世界;2004年
4 本報(bào)記者 蒙克;[N];網(wǎng)絡(luò)世界;2009年
5 ;[N];計(jì)算機(jī)世界;2006年
6 周蓉蓉;[N];計(jì)算機(jī)世界;2006年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 胡忠?guī)?基于Python的企業(yè)安全漏洞管理方法研究[D];北京郵電大學(xué);2015年
2 王國(guó)強(qiáng);基于Python的SDG-HAZOP軟件中推理規(guī)則問(wèn)題的研究[D];北京化工大學(xué);2009年
3 李悅;基于Python+Tkinter的Linux GUI輔助管理工具的設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2009年
4 王健;Python插件在CG制作管理中的應(yīng)用[D];南京理工大學(xué);2008年
5 李鑫;基于Python的軟件測(cè)試自動(dòng)化平臺(tái)[D];太原科技大學(xué);2014年
6 劉麗媛;基于Python的半導(dǎo)體測(cè)試軟件系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京交通大學(xué);2013年
7 周一丁;基于面向服務(wù)并行計(jì)算的Python計(jì)算網(wǎng)格[D];上海交通大學(xué);2008年
8 雷雨;基于Python腳本的電力規(guī)約通用測(cè)試技術(shù)研究[D];電子科技大學(xué);2012年
9 孟繁超;基于Python的嵌入式開(kāi)發(fā)工具的設(shè)計(jì)與實(shí)現(xiàn)[D];鄭州大學(xué);2014年
10 倪志嘉;基于Python的CRM系統(tǒng)接口自動(dòng)化測(cè)試設(shè)計(jì)與實(shí)現(xiàn)[D];上海交通大學(xué);2012年
本文關(guān)鍵詞:搜索引擎用戶行為與用戶滿意度的關(guān)聯(lián)研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):195131
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/195131.html