面向垂直搜索的網(wǎng)絡爬蟲設計與實現(xiàn)
本文關鍵詞: 垂直搜索引擎 網(wǎng)絡爬蟲 Heritrix ChangyouSpider 異步加載 出處:《北京郵電大學》2013年碩士論文 論文類型:學位論文
【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)也在超乎人想象的急劇增長,人們對數(shù)據(jù)和信息的需求也在持續(xù)的增長。搜索引擎可以幫助人們從海量的數(shù)據(jù)中檢索出需要的信息和數(shù)據(jù),所以搜索引擎已經(jīng)成為人們?nèi)粘I钪斜夭豢缮俚墓ぞ咧?它也影響了人們?nèi)粘5挠洃浟晳T。通過分析當今全球主流的搜索引擎包括Google、百度、Yahool、Bing、搜狗等,我們發(fā)現(xiàn)這些主流的搜索引擎都包含了三個主要的部分:網(wǎng)絡爬蟲、索引、前端搜索,這三部分也是在工業(yè)界認可的三個主要部分。但是隨著人們對信息的要求程度越來越高,目前搜索引擎的通用搜索已經(jīng)不能滿足人們的專門的需求,因為通用搜索引擎搜索結(jié)果信息量大,深度不夠;诖,垂直搜索大力發(fā)展起來。由于垂直搜索的專業(yè)性,以及對專屬領域的深度,深受廣大網(wǎng)民的青睞。強大的搜索引擎離不開數(shù)據(jù)的支持,而搜索引擎數(shù)據(jù)來源主要通過網(wǎng)絡爬蟲來獲取,所以網(wǎng)絡爬蟲對于搜索引擎至關重要。本文面向垂直搜索引擎,搭建暢郵系統(tǒng),提供通用搜索、圖書搜索和視頻搜索三種服務。首先,根據(jù)校園網(wǎng)絡狀況設計暢郵系統(tǒng)的架構(gòu),聚合三種服務于同一入口,并使暢郵系統(tǒng)能夠?qū)崿F(xiàn)不同網(wǎng)段的無縫訪問。其次,調(diào)研當前主流開源網(wǎng)絡爬蟲,根據(jù)暢郵系統(tǒng)的需求選定Heritrix為網(wǎng)絡爬蟲原型,并分析其源碼。在此基礎上,對Heritrix進行高度定制,并解決異步加載抓取的問題。然后,根據(jù)Heritrix的運行狀態(tài)和特點,設計并實現(xiàn)了適合垂直搜索引擎增量抓取的ChangyouSpider,它輕便、高效,以彌補Heritrix的不足,由此本文結(jié)合Heritrix和ChangyouSpider使用作為垂直搜索引擎抓取的網(wǎng)絡爬蟲。最后,對抓取的數(shù)據(jù)從全面性、雜質(zhì)率、異步加載抓取、頁面有效性的測試驗證了爬蟲的功能和性能。
[Abstract]:With the rapid development of the Internet, the data on the Internet is also growing rapidly beyond the imagination. The demand for data and information continues to grow. Search engines can help people retrieve the information and data they need from massive amounts of data, so search engines have become one of the essential tools in our daily lives. It also affects people's daily memory habits. By analyzing the global mainstream search engines today, including Google, Baidu Yahoolan, Bing Sogou, and so on, we find that these mainstream search engines all contain three main parts: web crawlers, indexes, etc. Front-end search, these three parts are also the three major parts recognized in industry. But with the increasing demand for information, the current search engine general search engine can no longer meet the specific needs of people. Because of the large amount of information and the lack of depth in the search results of the general search engine. Based on this, the vertical search has developed vigorously. Because of the professionalism of the vertical search, and the depth of the exclusive field, The powerful search engine can not be separated from the support of the data, and the search engine data source is mainly obtained by the web crawler, so the web crawler is very important to the search engine. Build the Changyou system to provide three services: universal search, book search and video search. Firstly, according to the campus network conditions, the structure of the Changyou system is designed to aggregate three kinds of services to the same entrance. Secondly, we investigate the current mainstream open source web crawlers, select Heritrix as the web crawler prototype according to the needs of the Changyou system, and analyze its source code. The Heritrix is highly customized, and the problem of asynchronous loading and fetching is solved. Then, according to the running state and characteristics of Heritrix, ChangyouSpideris designed and implemented, which is suitable for incremental capture of vertical search engine. It is light and efficient to make up for the shortage of Heritrix. In this paper, Heritrix and ChangyouSpider are used as web crawlers for vertical search engines. Finally, the crawler's function and performance are verified by the tests of comprehensiveness, impurity rate, asynchronous load grab and page validity.
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP391.3
【相似文獻】
相關期刊論文 前10條
1 戚欣;;基于本體的主題網(wǎng)絡爬蟲設計[J];武漢理工大學學報;2009年03期
2 彭軻;廖聞劍;;基于瀏覽器服務的網(wǎng)絡爬蟲[J];硅谷;2009年04期
3 王江紅;朱麗君;李彩虹;;一種新型網(wǎng)絡爬蟲的設計與實現(xiàn)[J];微計算機信息;2010年03期
4 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡爬蟲技術的研究[J];電腦知識與技術;2010年15期
5 楊靖韜;陳會果;;對網(wǎng)絡爬蟲技術的研究[J];科技創(chuàng)業(yè)月刊;2010年10期
6 于成龍;于洪波;;網(wǎng)絡爬蟲技術研究[J];東莞理工學院學報;2011年03期
7 李志義;;網(wǎng)絡爬蟲的優(yōu)化策略探略[J];現(xiàn)代情報;2011年10期
8 焦賽美;;網(wǎng)絡爬蟲技術的研究[J];瓊州學院學報;2011年05期
9 宋海洋;劉曉然;錢?;;一種新的主題網(wǎng)絡爬蟲爬行策略[J];計算機應用與軟件;2011年11期
10 王娟;吳金鵬;;網(wǎng)絡爬蟲的設計與實現(xiàn)[J];軟件導刊;2012年04期
相關會議論文 前4條
1 夏詔杰;郭力;李曉霞;;化學主題網(wǎng)絡爬蟲的研究[A];第十屆全國計算(機)化學學術會議論文摘要集[C];2009年
2 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡爬蟲的設計與實現(xiàn)[A];2010年全國通信安全學術會議論文集[C];2010年
3 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評論信息的挖掘[A];內(nèi)容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年
4 徐劍;柯貴明;;網(wǎng)絡爬蟲技術在搜索引擎中的應用[A];全國第21屆計算機技術與應用學術會議(CACIS·2010)暨全國第2屆安全關鍵技術與應用學術會議論文集[C];2010年
相關碩士學位論文 前10條
1 陶俊文;基于Heritrix框架的專業(yè)鎮(zhèn)信息網(wǎng)絡爬蟲系統(tǒng)[D];華南理工大學;2015年
2 馬漢超;基于主題網(wǎng)絡爬蟲的汽車行業(yè)多元信息web系統(tǒng)設計與實現(xiàn)[D];西南交通大學;2015年
3 李威;基于交通流量圖的交通信息提取技術研究[D];長安大學;2015年
4 朱嶸良;分布式并行環(huán)境下的網(wǎng)絡爬蟲研究[D];中央民族大學;2015年
5 周思華;股票系統(tǒng)之熱門話題發(fā)現(xiàn)子系統(tǒng)的設計與實現(xiàn)[D];哈爾濱工業(yè)大學;2015年
6 丁杰;基于網(wǎng)絡爬蟲的虛假網(wǎng)頁主動智能檢測[D];華北電力大學;2015年
7 唐華棟;網(wǎng)頁防抓取系統(tǒng)的設計與實現(xiàn)[D];哈爾濱工業(yè)大學;2015年
8 白劍飛;基于層次主題模型的網(wǎng)絡新聞匯聚[D];浙江大學;2015年
9 袁野;企業(yè)內(nèi)網(wǎng)搜索引擎關鍵技術研究與實現(xiàn)[D];電子科技大學;2014年
10 滕以芳;基于本體的多媒體素材網(wǎng)絡爬蟲設計與實現(xiàn)[D];吉林大學;2015年
,本文編號:1513104
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1513104.html