天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

垂直搜索引擎中智能爬蟲系統(tǒng)的研究與實現(xiàn)

發(fā)布時間:2018-12-22 08:42
【摘要】:隨著信息技術的發(fā)展,搜索引擎已經(jīng)成為了互聯(lián)網(wǎng)的入口。垂直搜索引擎在垂直領域深度采集數(shù)據(jù)并加工處理,提供精準和專業(yè)搜索服務,具有廣泛的關注度和市場需求。智能爬蟲是垂直搜索引擎的重要組成部分,完成數(shù)據(jù)采集的工作。由于其專業(yè)背景強,覆蓋范圍窄,不同的智能爬蟲在架構和策略上差異性很大,同時也面臨主題相關性的精確度、小范圍的大量采集困難等問題。本文針對垂直搜索引擎中的智能爬蟲的技術難點,研究相關技術,提出了解決方案,在插件化和分布式的設計原則下,設計和實現(xiàn)了一套完整的智能爬蟲系統(tǒng),同時對系統(tǒng)的功能和性能進行了測試。本文的主要工作包括:(1)設計了一個基于LDA的文本特征提取方法,用機器學習算法決策主題相關性,并建立了以錨文字特征和頁面主題相關度為基礎的鏈接預測模型。(2)設計了多策略的應對反爬蟲方案和代理服務器篩選流程。(3)提出了基于Bloomfilter的兩層三實例的高可用,持久化URL去重方案,解決了海量URL的快速精準去重。(4)完成智能爬蟲其它功能的設計,編碼實現(xiàn)了完整的系統(tǒng)。通過搭建實驗拓撲環(huán)境并部署爬蟲系統(tǒng),驗證和測試了智能爬蟲系統(tǒng)的功能和性能。試驗結果表明,本文的設計和實現(xiàn)達到預期目標,提升了爬蟲的智能性和效率。
[Abstract]:With the development of information technology, search engine has become the entrance of the Internet. Vertical search engine collects data deeply in vertical field and processes it to provide accurate and professional search service with wide attention and market demand. Intelligent crawler is an important part of vertical search engine. Because of its strong professional background, narrow coverage, different intelligent reptiles have great differences in architecture and strategy, but also face the accuracy of thematic correlation, a large number of collection difficulties in small areas and so on. Aiming at the technical difficulties of intelligent crawler in vertical search engine, this paper studies the related technologies and puts forward a solution. Under the principle of plug-in and distributed design, a complete intelligent crawler system is designed and implemented. At the same time, the function and performance of the system are tested. The main work of this paper is as follows: (1) A text feature extraction method based on LDA is designed. A link prediction model based on anchor text features and the relevance of page themes is established. (2) A multi-strategy anti-reptilian scheme and proxy server filtering process are designed. (3) the high availability of two layers and three instances based on Bloomfilter is proposed. Persistent URL reshuffling scheme solves the fast and accurate weight removal of mass URL. (4) the design of other functions of intelligent reptiles is completed and the complete system is coded. The function and performance of the intelligent crawler system are verified and tested by setting up the experimental topology environment and deploying the crawler system. The experimental results show that the design and implementation of this paper reach the expected goal and improve the intelligence and efficiency of reptiles.
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.3

【相似文獻】

相關期刊論文 前10條

1 肖冬梅;垂直搜索引擎研究[J];圖書館學研究;2003年02期

2 楊堅爭;李朝平;;垂直搜索引擎及其應用[J];電子商務;2006年10期

3 羅麗姍;;垂直搜索引擎發(fā)展概述[J];圖書館學研究;2006年12期

4 嚴宏偉;何俊;;基于房源分析系統(tǒng)的垂直搜索引擎關鍵技術的探討[J];中國科技信息;2007年05期

5 胡華梁;何進;鐘元生;;圖書垂直搜索引擎的設計[J];計算機與現(xiàn)代化;2007年08期

6 鄭凱明;李義杰;;垂直搜索引擎及其應用價值[J];信息技術;2008年04期

7 畢建濤;霍云福;;垂直搜索引擎贏利模式探討[J];大連大學學報;2008年03期

8 許鑫;黃仲清;;垂直搜索引擎應用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書情報技術;2009年02期

9 孔祥春;李義杰;鄭凱明;;垂直搜索引擎應用研究[J];計算機系統(tǒng)應用;2009年07期

10 楊皖蘇;閆冬;;垂直搜索引擎發(fā)展策略探討[J];商業(yè)時代;2009年23期

相關會議論文 前4條

1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學會、河北省計算機學會、河北省自動化學會、河北省人工智能學會、河北省計算機輔助設計研究會、河北省軟件行業(yè)協(xié)會聯(lián)合學術年會論文集[C];2007年

2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2007年

3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設計與實現(xiàn)[A];第26屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2009年

4 毛華揚;劉衛(wèi);;會計信息搜索方法研究[A];第十屆全國會計信息化年會論文集[C];2011年

相關重要報紙文章 前10條

1 北大縱橫管理顧問公司高級顧問戴曉東;“商搜”變法 垂直搜索引擎的春天還遠嗎?[N];中國經(jīng)營報;2006年

2 王艷;垂直搜索引擎市場看好[N];中國旅游報;2000年

3 王靖;賽迪網(wǎng)推出垂直搜索引擎[N];人民日報海外版;2000年

4 楊國民;國內(nèi)生物醫(yī)藥行業(yè) 垂直搜索引擎誕生[N];經(jīng)濟日報;2007年

5 本報記者 王曉雁;垂直搜索引擎著作權之爭未破題[N];法制日報;2009年

6 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學技術情報研究所 周峻松;用開源軟件建垂直搜索引擎[N];計算機世界;2010年

7 中新;生意寶推“生意搜”攪局電子商務搜索市場[N];經(jīng)理日報;2008年

8 源訊 編譯;搜索巨頭的下一步[N];計算機世界;2006年

9 賽迪網(wǎng) 方剛;不只是網(wǎng)站才垂直[N];中國計算機報;2000年

10 ;沱沱網(wǎng)“亮劍”國際消費電子博覽會 專業(yè)服務帶來B2B差異化變革[N];中國貿(mào)易報;2007年

相關博士學位論文 前5條

1 王曄;垂直搜索引擎若干問題研究[D];復旦大學;2011年

2 吳羽;面向時間敏感對象的垂直搜索引擎關鍵技術研究[D];浙江大學;2011年

3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實現(xiàn)[D];中國科學技術大學;2012年

4 陳竹敏;面向垂直搜索引擎的主題爬行技術研究[D];山東大學;2008年

5 王桂紅;農(nóng)產(chǎn)品市場價格web信息分析方法研究[D];沈陽農(nóng)業(yè)大學;2013年

相關碩士學位論文 前10條

1 王松;垂直搜索引擎中智能爬蟲系統(tǒng)的研究與實現(xiàn)[D];北京郵電大學;2017年

2 韓冰;垂直搜索引擎?zhèn)性化推薦研究與應用[D];大連理工大學;2009年

3 關小敏;垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學;2012年

4 吳燕瑋;基于行業(yè)知識垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學;2012年

5 柳力麗;旅游垂直搜索引擎的品牌傳播研究[D];西南大學;2015年

6 錢永杰;面向網(wǎng)絡文學的垂直搜索引擎的研究與實現(xiàn)[D];曲阜師范大學;2015年

7 袁鳳云;垂直搜索引擎關鍵技術研究與實現(xiàn)[D];電子科技大學;2014年

8 任睿麗;面向旅游業(yè)的垂直搜索引擎的設計與實現(xiàn)[D];電子科技大學;2014年

9 張高偉;基于ElasticSearch的分布式視頻垂直搜索引擎的設計與實現(xiàn)[D];哈爾濱工業(yè)大學;2014年

10 朱鵬;英文語料庫垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學;2015年

,

本文編號:2389586

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2389586.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶df103***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com