垂直搜索引擎中智能爬蟲系統(tǒng)的研究與實現(xiàn)
[Abstract]:With the development of information technology, search engine has become the entrance of the Internet. Vertical search engine collects data deeply in vertical field and processes it to provide accurate and professional search service with wide attention and market demand. Intelligent crawler is an important part of vertical search engine. Because of its strong professional background, narrow coverage, different intelligent reptiles have great differences in architecture and strategy, but also face the accuracy of thematic correlation, a large number of collection difficulties in small areas and so on. Aiming at the technical difficulties of intelligent crawler in vertical search engine, this paper studies the related technologies and puts forward a solution. Under the principle of plug-in and distributed design, a complete intelligent crawler system is designed and implemented. At the same time, the function and performance of the system are tested. The main work of this paper is as follows: (1) A text feature extraction method based on LDA is designed. A link prediction model based on anchor text features and the relevance of page themes is established. (2) A multi-strategy anti-reptilian scheme and proxy server filtering process are designed. (3) the high availability of two layers and three instances based on Bloomfilter is proposed. Persistent URL reshuffling scheme solves the fast and accurate weight removal of mass URL. (4) the design of other functions of intelligent reptiles is completed and the complete system is coded. The function and performance of the intelligent crawler system are verified and tested by setting up the experimental topology environment and deploying the crawler system. The experimental results show that the design and implementation of this paper reach the expected goal and improve the intelligence and efficiency of reptiles.
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.3
【相似文獻】
相關期刊論文 前10條
1 肖冬梅;垂直搜索引擎研究[J];圖書館學研究;2003年02期
2 楊堅爭;李朝平;;垂直搜索引擎及其應用[J];電子商務;2006年10期
3 羅麗姍;;垂直搜索引擎發(fā)展概述[J];圖書館學研究;2006年12期
4 嚴宏偉;何俊;;基于房源分析系統(tǒng)的垂直搜索引擎關鍵技術的探討[J];中國科技信息;2007年05期
5 胡華梁;何進;鐘元生;;圖書垂直搜索引擎的設計[J];計算機與現(xiàn)代化;2007年08期
6 鄭凱明;李義杰;;垂直搜索引擎及其應用價值[J];信息技術;2008年04期
7 畢建濤;霍云福;;垂直搜索引擎贏利模式探討[J];大連大學學報;2008年03期
8 許鑫;黃仲清;;垂直搜索引擎應用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書情報技術;2009年02期
9 孔祥春;李義杰;鄭凱明;;垂直搜索引擎應用研究[J];計算機系統(tǒng)應用;2009年07期
10 楊皖蘇;閆冬;;垂直搜索引擎發(fā)展策略探討[J];商業(yè)時代;2009年23期
相關會議論文 前4條
1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學會、河北省計算機學會、河北省自動化學會、河北省人工智能學會、河北省計算機輔助設計研究會、河北省軟件行業(yè)協(xié)會聯(lián)合學術年會論文集[C];2007年
2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2007年
3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設計與實現(xiàn)[A];第26屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2009年
4 毛華揚;劉衛(wèi);;會計信息搜索方法研究[A];第十屆全國會計信息化年會論文集[C];2011年
相關重要報紙文章 前10條
1 北大縱橫管理顧問公司高級顧問戴曉東;“商搜”變法 垂直搜索引擎的春天還遠嗎?[N];中國經(jīng)營報;2006年
2 王艷;垂直搜索引擎市場看好[N];中國旅游報;2000年
3 王靖;賽迪網(wǎng)推出垂直搜索引擎[N];人民日報海外版;2000年
4 楊國民;國內(nèi)生物醫(yī)藥行業(yè) 垂直搜索引擎誕生[N];經(jīng)濟日報;2007年
5 本報記者 王曉雁;垂直搜索引擎著作權之爭未破題[N];法制日報;2009年
6 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學技術情報研究所 周峻松;用開源軟件建垂直搜索引擎[N];計算機世界;2010年
7 中新;生意寶推“生意搜”攪局電子商務搜索市場[N];經(jīng)理日報;2008年
8 源訊 編譯;搜索巨頭的下一步[N];計算機世界;2006年
9 賽迪網(wǎng) 方剛;不只是網(wǎng)站才垂直[N];中國計算機報;2000年
10 ;沱沱網(wǎng)“亮劍”國際消費電子博覽會 專業(yè)服務帶來B2B差異化變革[N];中國貿(mào)易報;2007年
相關博士學位論文 前5條
1 王曄;垂直搜索引擎若干問題研究[D];復旦大學;2011年
2 吳羽;面向時間敏感對象的垂直搜索引擎關鍵技術研究[D];浙江大學;2011年
3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實現(xiàn)[D];中國科學技術大學;2012年
4 陳竹敏;面向垂直搜索引擎的主題爬行技術研究[D];山東大學;2008年
5 王桂紅;農(nóng)產(chǎn)品市場價格web信息分析方法研究[D];沈陽農(nóng)業(yè)大學;2013年
相關碩士學位論文 前10條
1 王松;垂直搜索引擎中智能爬蟲系統(tǒng)的研究與實現(xiàn)[D];北京郵電大學;2017年
2 韓冰;垂直搜索引擎?zhèn)性化推薦研究與應用[D];大連理工大學;2009年
3 關小敏;垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學;2012年
4 吳燕瑋;基于行業(yè)知識垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學;2012年
5 柳力麗;旅游垂直搜索引擎的品牌傳播研究[D];西南大學;2015年
6 錢永杰;面向網(wǎng)絡文學的垂直搜索引擎的研究與實現(xiàn)[D];曲阜師范大學;2015年
7 袁鳳云;垂直搜索引擎關鍵技術研究與實現(xiàn)[D];電子科技大學;2014年
8 任睿麗;面向旅游業(yè)的垂直搜索引擎的設計與實現(xiàn)[D];電子科技大學;2014年
9 張高偉;基于ElasticSearch的分布式視頻垂直搜索引擎的設計與實現(xiàn)[D];哈爾濱工業(yè)大學;2014年
10 朱鵬;英文語料庫垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學;2015年
,本文編號:2389586
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2389586.html