垂直搜索引擎網(wǎng)絡(luò)爬蟲的研究與設(shè)計(jì)
本文關(guān)鍵詞:垂直搜索引擎網(wǎng)絡(luò)爬蟲的研究與設(shè)計(jì),,由筆耕文化傳播整理發(fā)布。
《北京郵電大學(xué)》 2015年
垂直搜索引擎網(wǎng)絡(luò)爬蟲的研究與設(shè)計(jì)
杜雷
【摘要】:近幾年來,互聯(lián)網(wǎng)飛速發(fā)展,相關(guān)技術(shù)和產(chǎn)品日益成熟,并逐漸成為一個開放的全球性資源,它集中了海量的以網(wǎng)頁文本、音樂、圖片等等形式存儲的信息。面對如此海量的信息,使用傳統(tǒng)搜索引擎難以快速、精確地從海量信息里提取出有用的資源。為了解決以上問題,垂直搜索引擎發(fā)展起來了。 面對特定主題的垂直搜索引擎,能夠提高查詢的精度、深度和廣度,大大提高了人們的工作和生活效率。本文首先對垂直搜索引擎做了需求與分析,之后詳細(xì)的研究和設(shè)計(jì)了垂直搜索引擎中涉及到的各種技術(shù),并編寫代碼實(shí)現(xiàn)了部分模塊功能,最后設(shè)計(jì)和實(shí)現(xiàn)了一個面向博客領(lǐng)域的垂直搜索引擎。 本文的主要工作主要包括以下幾個方面: 1)對垂直搜索引擎的部分模塊進(jìn)行了研究和編碼實(shí)現(xiàn) 以HTML結(jié)構(gòu)和概率模型為基礎(chǔ),編寫了網(wǎng)頁結(jié)構(gòu)化抽取模塊。然后使用開源分詞結(jié)巴分詞的API,實(shí)現(xiàn)了四種中文分詞方法,分別為最大概率法、隱式馬爾科夫模型、混合模型和使用詞典的混合模型。在URL判重模塊方面做了應(yīng)用創(chuàng)新,沒有使用經(jīng)典的布隆過濾器算法,而是實(shí)現(xiàn)了此模塊,每個URL占用1bit的內(nèi)存地址,算法的復(fù)雜度為O(n),雖然比布隆過濾器總體占用內(nèi)存要多些,但是判重正確率可以達(dá)到100%。最后研究和設(shè)計(jì)了倒排索引的建立。 2)對面向博客領(lǐng)域的垂直搜索引擎進(jìn)行了詳細(xì)設(shè)計(jì)和實(shí)現(xiàn) 在網(wǎng)頁爬蟲的抓取方面,以高質(zhì)量網(wǎng)頁Set為基礎(chǔ),使用概率法來獲取網(wǎng)頁中的下一步要抓取的高質(zhì)量鏈接地址,并使用了改進(jìn)的向量空間模型來做主題判斷。在獲取博客feed地址時,做了創(chuàng)新,使用了一種數(shù)學(xué)打分方法,當(dāng)含有噪音時,就減分,這樣得分最高的就是真實(shí)的feed地址,并且編程實(shí)現(xiàn)了RSS解析模塊。在網(wǎng)頁排序方面,以HITS為基礎(chǔ),結(jié)合PageRank和博客更新時間,賦予每個網(wǎng)頁的HITS、PageRank以及博文更新時間不同的權(quán)值,設(shè)計(jì)了一套適合博客搜索類的排序算法。網(wǎng)頁去重模塊,使用了SimHash算法實(shí)現(xiàn)了網(wǎng)頁去重功能,在海明距離判斷模塊,實(shí)現(xiàn)了一個時間復(fù)雜度為O(n)的程序。因?yàn)殛P(guān)系型數(shù)據(jù)庫MySQL并發(fā)性不夠高,選擇使用了內(nèi)存數(shù)據(jù)庫MongoDB,并設(shè)計(jì)了緩存系統(tǒng)模塊,提高了用戶的查詢和訪問速度。
【關(guān)鍵詞】:
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092;TP391.3
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 楊堅(jiān)爭;李朝平;;垂直搜索引擎及其應(yīng)用[J];電子商務(wù);2006年10期
2 羅寧;徐俊剛;郭洪韜;;基于Lucene的中文分詞模塊的設(shè)計(jì)和實(shí)現(xiàn)[J];電子技術(shù);2012年09期
3 丁允超;范小花;;SQL注入攻擊原理及其防范措施[J];重慶科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2012年05期
4 陶林;諶超;強(qiáng)保華;王勇;;基于Hadoop的Nutch網(wǎng)頁排序算法研究與實(shí)現(xiàn)[J];桂林電子科技大學(xué)學(xué)報(bào);2013年02期
5 張浩;;網(wǎng)絡(luò)主題爬蟲技術(shù)初探[J];電子制作;2013年23期
6 胥桂仙,許建潮,連遠(yuǎn)鋒,李昱翠;文本挖掘中的特征表示及聚類方法[J];吉林工學(xué)院學(xué)報(bào)(自然科學(xué)版);2002年03期
7 彭賡;范明鈺;;基于改進(jìn)網(wǎng)絡(luò)爬蟲技術(shù)的SQL注入漏洞檢測[J];計(jì)算機(jī)應(yīng)用研究;2010年07期
8 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J];中文信息學(xué)報(bào);2012年02期
9 丁晴;郭晨;;淺談半結(jié)構(gòu)化數(shù)據(jù)在公安信息化中的應(yīng)用[J];警察技術(shù);2010年06期
10 鄒嵩;趙詩陽;周新志;;垂直搜索引擎中分詞技術(shù)的算法研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2012年02期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 朱學(xué)芳;馮曦曦;;面向農(nóng)業(yè)主題搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[J];安徽農(nóng)業(yè)科學(xué);2011年35期
2 鄭凱明;;垂直搜索引擎應(yīng)用研究[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年02期
3 祝偉華;李嘉毅;劉斌斌;;二手汽車交易信息垂直搜索網(wǎng)的設(shè)計(jì)[J];重慶工學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年08期
4 李敏;趙君;;垂直搜索引擎爬蟲系統(tǒng)的設(shè)計(jì)[J];長江大學(xué)學(xué)報(bào)(自然科學(xué)版)理工卷;2010年03期
5 畢建濤;霍云福;;垂直搜索引擎贏利模式探討[J];大連大學(xué)學(xué)報(bào);2008年03期
6 孟時;王彥;;larbin網(wǎng)絡(luò)爬蟲的體系結(jié)構(gòu)[J];電腦學(xué)習(xí);2010年04期
7 贠曉晴;;基于.NET 3.5的網(wǎng)絡(luò)信息采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];電腦編程技巧與維護(hù);2010年16期
8 陳洪猛;;基于垂直搜索技術(shù)的搜索引擎解決方案[J];電腦應(yīng)用技術(shù);2008年01期
9 趙曉峰;;基于Web的網(wǎng)站信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識與技術(shù);2008年16期
10 曹忠;趙文靜;;一種優(yōu)化的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識與技術(shù);2008年35期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會、河北省計(jì)算機(jī)學(xué)會、河北省自動化學(xué)會、河北省人工智能學(xué)會、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會、河北省軟件行業(yè)協(xié)會聯(lián)合學(xué)術(shù)年會論文集[C];2007年
2 劉源;詹舒波;;基于Solr的行業(yè)垂直搜索平臺的研究[A];2008通信理論與技術(shù)新進(jìn)展——第十三屆全國青年通信學(xué)術(shù)會議論文集(上)[C];2008年
3 鄒永斌;陳興蜀;王文賢;;一個高性能Web資源收集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
4 單鐵城;張安妮;馬德輝;;基于爬蟲改進(jìn)算法的個性化搜索引擎應(yīng)用研究[A];戰(zhàn)略性新興產(chǎn)業(yè)與科技支撐——2012年山東省科協(xié)學(xué)術(shù)年會論文集[C];2012年
5 喬媛媛;劉芳;凌艷;尹勁松;;云計(jì)算環(huán)境下MapReduce的資源建模與性能預(yù)測[A];2013年全國通信軟件學(xué)術(shù)會議論文集[C];2013年
6 周利民;童珉;陳燕雙;;面向互聯(lián)網(wǎng)視頻主題管理的搜索引擎關(guān)鍵技術(shù)研究及實(shí)現(xiàn)[A];中國新聞技術(shù)工作者聯(lián)合會第六次會員代表大會、2014年學(xué)術(shù)年會暨第七屆《王選新聞科學(xué)技術(shù)獎》和優(yōu)秀論文獎頒獎大會論文集(二等獎)[C];2014年
7 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26屆中國控制與決策會議論文集[C];2014年
8 陳佐旗;余柏蒗;吳健平;;基于GPU通用計(jì)算的遙感數(shù)據(jù)處理——以計(jì)算地表太陽輻射值為例[A];第十八屆中國環(huán)境遙感應(yīng)用技術(shù)論壇論文集[C];2014年
9 白永超;付偉;辛陽;;基于Hadoop和Nutch的分布式搜索引擎研究與仿真[A];第十九屆全國青年通信學(xué)術(shù)年會論文集[C];2014年
10 李超越;徐國勝;;Hadoop公平調(diào)度算法的改進(jìn)[A];第十九屆全國青年通信學(xué)術(shù)年會論文集[C];2014年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 周源;基于本體的語義垂直搜索引擎研究[D];北京交通大學(xué);2011年
2 符宇波;一種自動SQL注入攻擊檢測與利用系統(tǒng)的研究實(shí)現(xiàn)[D];北京交通大學(xué);2011年
3 華大年;手機(jī)產(chǎn)品信息垂直搜索引擎系統(tǒng)設(shè)計(jì)與開發(fā)[D];武漢理工大學(xué);2011年
4 文星;基于位置感知的Web文本搜索技術(shù)研究[D];大連海事大學(xué);2011年
5 孫海東;面向醫(yī)學(xué)教育視頻的垂直檢索的研究[D];第二軍醫(yī)大學(xué);2011年
6 朱洪濤;垂直門戶網(wǎng)站產(chǎn)品搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2010年
7 張銳;面向電子商務(wù)的深層網(wǎng)入口挖掘研究[D];杭州電子科技大學(xué);2011年
8 王靈峰;高考信息推薦引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];暨南大學(xué);2011年
9 劉歡;職位匹配系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華東師范大學(xué);2011年
10 王培順;互聯(lián)網(wǎng)教育輿情監(jiān)測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中師范大學(xué);2011年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 吳祐昕;順風(fēng);;網(wǎng)絡(luò)搜索引擎的發(fā)展趨勢分析[J];當(dāng)代傳播;2007年03期
2 康桂英,劉春平;新一代中文智能搜索引擎研究[J];東南大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版);2002年S1期
3 梁永霖;;基于Java的全文檢索引擎Lucene的分析與研究[J];電腦知識與技術(shù);2008年20期
4 黃曉華;;ASP.NET網(wǎng)站防SQL注入的方法研究[J];電腦知識與技術(shù);2011年29期
5 楊堅(jiān)爭;李朝平;;垂直搜索引擎及其應(yīng)用[J];電子商務(wù);2006年10期
6 諶超;強(qiáng)保華;石龍;;基于Hadoop MapReduce的大規(guī)模數(shù)據(jù)索引構(gòu)建與集群性能分析[J];桂林電子科技大學(xué)學(xué)報(bào);2012年04期
7 張紅斌;;網(wǎng)上求職機(jī)器人的軟件設(shè)計(jì)[J];華東交通大學(xué)學(xué)報(bào);2006年01期
8 王繼成,潘金貴,張福炎;Web文本挖掘技術(shù)研究[J];計(jì)算機(jī)研究與發(fā)展;2000年05期
9 周水庚,關(guān)佶紅,胡運(yùn)發(fā),周傲英;一個無需詞典支持和切詞處理的中文文檔分類系統(tǒng)[J];計(jì)算機(jī)研究與發(fā)展;2001年07期
10 胥桂仙,蘇筱蔚,陳淑艷;中文文本挖掘中的無詞典分詞的算法及其應(yīng)用[J];吉林工學(xué)院學(xué)報(bào)(自然科學(xué)版);2002年01期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 劉平冰;基于Lucene的Web站內(nèi)信息搜索系統(tǒng)[D];電子科技大學(xué);2005年
2 王駿;基于垂直搜索引擎技術(shù)的房源信息分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];蘇州大學(xué);2006年
3 李廣麗;垂直搜索引擎的研究與設(shè)計(jì)[D];華東交通大學(xué);2008年
4 張平;基于Lucene的醫(yī)學(xué)知識搜索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];重慶大學(xué);2008年
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄭凱明;李義杰;;垂直搜索引擎及其應(yīng)用價值[J];信息技術(shù);2008年04期
2 許鑫;黃仲清;;垂直搜索引擎應(yīng)用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書情報(bào)技術(shù);2009年02期
3 肖婷;;垂直搜索引擎與旅游行業(yè)探討[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2009年11期
4 祝奕;;垂直搜索引擎的構(gòu)建與應(yīng)用[J];信息與電腦(理論版);2010年01期
5 張美芳;張迎春;;淺議垂直搜索引擎服務(wù)市場的商業(yè)模式[J];現(xiàn)代商業(yè);2010年06期
6 焦龍;;垂直搜索引擎在旅游企業(yè)中應(yīng)用的探索[J];商場現(xiàn)代化;2010年08期
7 趙宏中;李亞;;垂直搜索引擎應(yīng)用研究[J];現(xiàn)代商貿(mào)工業(yè);2010年04期
8 陳高維;鄧天權(quán);曾云磊;王維國;張龍;;基于垂直搜索引擎的旅游線路評價模型的設(shè)計(jì)[J];科技創(chuàng)新導(dǎo)報(bào);2010年18期
9 劉小強(qiáng);;二手轉(zhuǎn)讓及房產(chǎn)租售垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];三門峽職業(yè)技術(shù)學(xué)院學(xué)報(bào);2010年03期
10 鄭凱明;;垂直搜索引擎應(yīng)用研究[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年02期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會、河北省計(jì)算機(jī)學(xué)會、河北省自動化學(xué)會、河北省人工智能學(xué)會、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會、河北省軟件行業(yè)協(xié)會聯(lián)合學(xué)術(shù)年會論文集[C];2007年
2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
4 毛華揚(yáng);劉衛(wèi);;會計(jì)信息搜索方法研究[A];第十屆全國會計(jì)信息化年會論文集[C];2011年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 北大縱橫管理顧問公司高級顧問戴曉東;[N];中國經(jīng)營報(bào);2006年
2 王艷;[N];中國旅游報(bào);2000年
3 王靖;[N];人民日報(bào)海外版;2000年
4 楊國民;[N];經(jīng)濟(jì)日報(bào);2007年
5 本報(bào)記者 王曉雁;[N];法制日報(bào);2009年
6 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所 周峻松;[N];計(jì)算機(jī)世界;2010年
7 中新;[N];經(jīng)理日報(bào);2008年
8 源訊 編譯;[N];計(jì)算機(jī)世界;2006年
9 賽迪網(wǎng) 方剛;[N];中國計(jì)算機(jī)報(bào);2000年
10 ;[N];中國貿(mào)易報(bào);2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年
2 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實(shí)現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年
4 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
5 王桂紅;農(nóng)產(chǎn)品市場價格web信息分析方法研究[D];沈陽農(nóng)業(yè)大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 海濤;垂直搜索引擎數(shù)據(jù)采集技術(shù)的研究與實(shí)現(xiàn)[D];華北電力大學(xué)(北京);2008年
2 崔詩遠(yuǎn);基于垂直搜索引擎的旅行社網(wǎng)絡(luò)營銷[D];青島大學(xué);2009年
3 翟曉玲;面向?qū)W科的基礎(chǔ)教育資源垂直搜索引擎的研究與實(shí)現(xiàn)[D];東北師范大學(xué);2009年
4 王嘉杰;面向博客領(lǐng)域的垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2009年
5 劉明君;垂直搜索引擎?zhèn)鞑W(xué)特征及應(yīng)用研究[D];華中科技大學(xué);2008年
6 黎斌;可擴(kuò)展分布式垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)研究[D];國防科學(xué)技術(shù)大學(xué);2008年
7 李春燕;企業(yè)信息垂直搜索引擎的研究與實(shí)現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2010年
8 石占偉;垃圾頁面檢測及其在垂直搜索引擎中的應(yīng)用[D];燕山大學(xué);2010年
9 張楠;面向汽車主題的垂直搜索引擎研究與實(shí)現(xiàn)[D];西南交通大學(xué);2010年
10 陳向東;寵物用品垂直搜索引擎研究與設(shè)計(jì)[D];西北農(nóng)林科技大學(xué);2010年
本文關(guān)鍵詞:垂直搜索引擎網(wǎng)絡(luò)爬蟲的研究與設(shè)計(jì),由筆耕文化傳播整理發(fā)布。
本文編號:55395
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/55395.html