面向垂直搜索的網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞: 垂直搜索引擎 網(wǎng)絡(luò)爬蟲(chóng) Heritrix ChangyouSpider 異步加載 出處:《北京郵電大學(xué)》2013年碩士論文 論文類型:學(xué)位論文
【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)也在超乎人想象的急劇增長(zhǎng),人們對(duì)數(shù)據(jù)和信息的需求也在持續(xù)的增長(zhǎng)。搜索引擎可以幫助人們從海量的數(shù)據(jù)中檢索出需要的信息和數(shù)據(jù),所以搜索引擎已經(jīng)成為人們?nèi)粘I钪斜夭豢缮俚墓ぞ咧?它也影響了人們?nèi)粘5挠洃浟?xí)慣。通過(guò)分析當(dāng)今全球主流的搜索引擎包括Google、百度、Yahool、Bing、搜狗等,我們發(fā)現(xiàn)這些主流的搜索引擎都包含了三個(gè)主要的部分:網(wǎng)絡(luò)爬蟲(chóng)、索引、前端搜索,這三部分也是在工業(yè)界認(rèn)可的三個(gè)主要部分。但是隨著人們對(duì)信息的要求程度越來(lái)越高,目前搜索引擎的通用搜索已經(jīng)不能滿足人們的專門的需求,因?yàn)橥ㄓ盟阉饕嫠阉鹘Y(jié)果信息量大,深度不夠;诖,垂直搜索大力發(fā)展起來(lái)。由于垂直搜索的專業(yè)性,以及對(duì)專屬領(lǐng)域的深度,深受廣大網(wǎng)民的青睞。強(qiáng)大的搜索引擎離不開(kāi)數(shù)據(jù)的支持,而搜索引擎數(shù)據(jù)來(lái)源主要通過(guò)網(wǎng)絡(luò)爬蟲(chóng)來(lái)獲取,所以網(wǎng)絡(luò)爬蟲(chóng)對(duì)于搜索引擎至關(guān)重要。本文面向垂直搜索引擎,搭建暢郵系統(tǒng),提供通用搜索、圖書(shū)搜索和視頻搜索三種服務(wù)。首先,根據(jù)校園網(wǎng)絡(luò)狀況設(shè)計(jì)暢郵系統(tǒng)的架構(gòu),聚合三種服務(wù)于同一入口,并使暢郵系統(tǒng)能夠?qū)崿F(xiàn)不同網(wǎng)段的無(wú)縫訪問(wèn)。其次,調(diào)研當(dāng)前主流開(kāi)源網(wǎng)絡(luò)爬蟲(chóng),根據(jù)暢郵系統(tǒng)的需求選定Heritrix為網(wǎng)絡(luò)爬蟲(chóng)原型,并分析其源碼。在此基礎(chǔ)上,對(duì)Heritrix進(jìn)行高度定制,并解決異步加載抓取的問(wèn)題。然后,根據(jù)Heritrix的運(yùn)行狀態(tài)和特點(diǎn),設(shè)計(jì)并實(shí)現(xiàn)了適合垂直搜索引擎增量抓取的ChangyouSpider,它輕便、高效,以彌補(bǔ)Heritrix的不足,由此本文結(jié)合Heritrix和ChangyouSpider使用作為垂直搜索引擎抓取的網(wǎng)絡(luò)爬蟲(chóng)。最后,對(duì)抓取的數(shù)據(jù)從全面性、雜質(zhì)率、異步加載抓取、頁(yè)面有效性的測(cè)試驗(yàn)證了爬蟲(chóng)的功能和性能。
[Abstract]:With the rapid development of the Internet, the data on the Internet is also growing rapidly beyond the imagination. The demand for data and information continues to grow. Search engines can help people retrieve the information and data they need from massive amounts of data, so search engines have become one of the essential tools in our daily lives. It also affects people's daily memory habits. By analyzing the global mainstream search engines today, including Google, Baidu Yahoolan, Bing Sogou, and so on, we find that these mainstream search engines all contain three main parts: web crawlers, indexes, etc. Front-end search, these three parts are also the three major parts recognized in industry. But with the increasing demand for information, the current search engine general search engine can no longer meet the specific needs of people. Because of the large amount of information and the lack of depth in the search results of the general search engine. Based on this, the vertical search has developed vigorously. Because of the professionalism of the vertical search, and the depth of the exclusive field, The powerful search engine can not be separated from the support of the data, and the search engine data source is mainly obtained by the web crawler, so the web crawler is very important to the search engine. Build the Changyou system to provide three services: universal search, book search and video search. Firstly, according to the campus network conditions, the structure of the Changyou system is designed to aggregate three kinds of services to the same entrance. Secondly, we investigate the current mainstream open source web crawlers, select Heritrix as the web crawler prototype according to the needs of the Changyou system, and analyze its source code. The Heritrix is highly customized, and the problem of asynchronous loading and fetching is solved. Then, according to the running state and characteristics of Heritrix, ChangyouSpideris designed and implemented, which is suitable for incremental capture of vertical search engine. It is light and efficient to make up for the shortage of Heritrix. In this paper, Heritrix and ChangyouSpider are used as web crawlers for vertical search engines. Finally, the crawler's function and performance are verified by the tests of comprehensiveness, impurity rate, asynchronous load grab and page validity.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 戚欣;;基于本體的主題網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)[J];武漢理工大學(xué)學(xué)報(bào);2009年03期
2 彭軻;廖聞劍;;基于瀏覽器服務(wù)的網(wǎng)絡(luò)爬蟲(chóng)[J];硅谷;2009年04期
3 王江紅;朱麗君;李彩虹;;一種新型網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[J];微計(jì)算機(jī)信息;2010年03期
4 孫立偉;何國(guó)輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究[J];電腦知識(shí)與技術(shù);2010年15期
5 楊靖韜;陳會(huì)果;;對(duì)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究[J];科技創(chuàng)業(yè)月刊;2010年10期
6 于成龍;于洪波;;網(wǎng)絡(luò)爬蟲(chóng)技術(shù)研究[J];東莞理工學(xué)院學(xué)報(bào);2011年03期
7 李志義;;網(wǎng)絡(luò)爬蟲(chóng)的優(yōu)化策略探略[J];現(xiàn)代情報(bào);2011年10期
8 焦賽美;;網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究[J];瓊州學(xué)院學(xué)報(bào);2011年05期
9 宋海洋;劉曉然;錢?;;一種新的主題網(wǎng)絡(luò)爬蟲(chóng)爬行策略[J];計(jì)算機(jī)應(yīng)用與軟件;2011年11期
10 王娟;吳金鵬;;網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[J];軟件導(dǎo)刊;2012年04期
相關(guān)會(huì)議論文 前4條
1 夏詔杰;郭力;李曉霞;;化學(xué)主題網(wǎng)絡(luò)爬蟲(chóng)的研究[A];第十屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2009年
2 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2010年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2010年
3 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評(píng)論信息的挖掘[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
4 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲(chóng)技術(shù)在搜索引擎中的應(yīng)用[A];全國(guó)第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2010)暨全國(guó)第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年
相關(guān)碩士學(xué)位論文 前10條
1 陶俊文;基于Heritrix框架的專業(yè)鎮(zhèn)信息網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)[D];華南理工大學(xué);2015年
2 馬漢超;基于主題網(wǎng)絡(luò)爬蟲(chóng)的汽車行業(yè)多元信息web系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];西南交通大學(xué);2015年
3 李威;基于交通流量圖的交通信息提取技術(shù)研究[D];長(zhǎng)安大學(xué);2015年
4 朱嶸良;分布式并行環(huán)境下的網(wǎng)絡(luò)爬蟲(chóng)研究[D];中央民族大學(xué);2015年
5 周思華;股票系統(tǒng)之熱門話題發(fā)現(xiàn)子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
6 丁杰;基于網(wǎng)絡(luò)爬蟲(chóng)的虛假網(wǎng)頁(yè)主動(dòng)智能檢測(cè)[D];華北電力大學(xué);2015年
7 唐華棟;網(wǎng)頁(yè)防抓取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
8 白劍飛;基于層次主題模型的網(wǎng)絡(luò)新聞匯聚[D];浙江大學(xué);2015年
9 袁野;企業(yè)內(nèi)網(wǎng)搜索引擎關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
10 滕以芳;基于本體的多媒體素材網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2015年
,本文編號(hào):1513104
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1513104.html