天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向垂直搜索的網(wǎng)絡爬蟲設計與實現(xiàn)

發(fā)布時間:2018-02-15 10:56

  本文關鍵詞: 垂直搜索引擎 網(wǎng)絡爬蟲 Heritrix ChangyouSpider 異步加載 出處:《北京郵電大學》2013年碩士論文 論文類型:學位論文


【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)也在超乎人想象的急劇增長,人們對數(shù)據(jù)和信息的需求也在持續(xù)的增長。搜索引擎可以幫助人們從海量的數(shù)據(jù)中檢索出需要的信息和數(shù)據(jù),所以搜索引擎已經(jīng)成為人們?nèi)粘I钪斜夭豢缮俚墓ぞ咧?它也影響了人們?nèi)粘5挠洃浟晳T。通過分析當今全球主流的搜索引擎包括Google、百度、Yahool、Bing、搜狗等,我們發(fā)現(xiàn)這些主流的搜索引擎都包含了三個主要的部分:網(wǎng)絡爬蟲、索引、前端搜索,這三部分也是在工業(yè)界認可的三個主要部分。但是隨著人們對信息的要求程度越來越高,目前搜索引擎的通用搜索已經(jīng)不能滿足人們的專門的需求,因為通用搜索引擎搜索結(jié)果信息量大,深度不夠;诖,垂直搜索大力發(fā)展起來。由于垂直搜索的專業(yè)性,以及對專屬領域的深度,深受廣大網(wǎng)民的青睞。強大的搜索引擎離不開數(shù)據(jù)的支持,而搜索引擎數(shù)據(jù)來源主要通過網(wǎng)絡爬蟲來獲取,所以網(wǎng)絡爬蟲對于搜索引擎至關重要。本文面向垂直搜索引擎,搭建暢郵系統(tǒng),提供通用搜索、圖書搜索和視頻搜索三種服務。首先,根據(jù)校園網(wǎng)絡狀況設計暢郵系統(tǒng)的架構(gòu),聚合三種服務于同一入口,并使暢郵系統(tǒng)能夠?qū)崿F(xiàn)不同網(wǎng)段的無縫訪問。其次,調(diào)研當前主流開源網(wǎng)絡爬蟲,根據(jù)暢郵系統(tǒng)的需求選定Heritrix為網(wǎng)絡爬蟲原型,并分析其源碼。在此基礎上,對Heritrix進行高度定制,并解決異步加載抓取的問題。然后,根據(jù)Heritrix的運行狀態(tài)和特點,設計并實現(xiàn)了適合垂直搜索引擎增量抓取的ChangyouSpider,它輕便、高效,以彌補Heritrix的不足,由此本文結(jié)合Heritrix和ChangyouSpider使用作為垂直搜索引擎抓取的網(wǎng)絡爬蟲。最后,對抓取的數(shù)據(jù)從全面性、雜質(zhì)率、異步加載抓取、頁面有效性的測試驗證了爬蟲的功能和性能。
[Abstract]:With the rapid development of the Internet, the data on the Internet is also growing rapidly beyond the imagination. The demand for data and information continues to grow. Search engines can help people retrieve the information and data they need from massive amounts of data, so search engines have become one of the essential tools in our daily lives. It also affects people's daily memory habits. By analyzing the global mainstream search engines today, including Google, Baidu Yahoolan, Bing Sogou, and so on, we find that these mainstream search engines all contain three main parts: web crawlers, indexes, etc. Front-end search, these three parts are also the three major parts recognized in industry. But with the increasing demand for information, the current search engine general search engine can no longer meet the specific needs of people. Because of the large amount of information and the lack of depth in the search results of the general search engine. Based on this, the vertical search has developed vigorously. Because of the professionalism of the vertical search, and the depth of the exclusive field, The powerful search engine can not be separated from the support of the data, and the search engine data source is mainly obtained by the web crawler, so the web crawler is very important to the search engine. Build the Changyou system to provide three services: universal search, book search and video search. Firstly, according to the campus network conditions, the structure of the Changyou system is designed to aggregate three kinds of services to the same entrance. Secondly, we investigate the current mainstream open source web crawlers, select Heritrix as the web crawler prototype according to the needs of the Changyou system, and analyze its source code. The Heritrix is highly customized, and the problem of asynchronous loading and fetching is solved. Then, according to the running state and characteristics of Heritrix, ChangyouSpideris designed and implemented, which is suitable for incremental capture of vertical search engine. It is light and efficient to make up for the shortage of Heritrix. In this paper, Heritrix and ChangyouSpider are used as web crawlers for vertical search engines. Finally, the crawler's function and performance are verified by the tests of comprehensiveness, impurity rate, asynchronous load grab and page validity.
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP391.3

【相似文獻】

相關期刊論文 前10條

1 戚欣;;基于本體的主題網(wǎng)絡爬蟲設計[J];武漢理工大學學報;2009年03期

2 彭軻;廖聞劍;;基于瀏覽器服務的網(wǎng)絡爬蟲[J];硅谷;2009年04期

3 王江紅;朱麗君;李彩虹;;一種新型網(wǎng)絡爬蟲的設計與實現(xiàn)[J];微計算機信息;2010年03期

4 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡爬蟲技術的研究[J];電腦知識與技術;2010年15期

5 楊靖韜;陳會果;;對網(wǎng)絡爬蟲技術的研究[J];科技創(chuàng)業(yè)月刊;2010年10期

6 于成龍;于洪波;;網(wǎng)絡爬蟲技術研究[J];東莞理工學院學報;2011年03期

7 李志義;;網(wǎng)絡爬蟲的優(yōu)化策略探略[J];現(xiàn)代情報;2011年10期

8 焦賽美;;網(wǎng)絡爬蟲技術的研究[J];瓊州學院學報;2011年05期

9 宋海洋;劉曉然;錢?;;一種新的主題網(wǎng)絡爬蟲爬行策略[J];計算機應用與軟件;2011年11期

10 王娟;吳金鵬;;網(wǎng)絡爬蟲的設計與實現(xiàn)[J];軟件導刊;2012年04期

相關會議論文 前4條

1 夏詔杰;郭力;李曉霞;;化學主題網(wǎng)絡爬蟲的研究[A];第十屆全國計算(機)化學學術會議論文摘要集[C];2009年

2 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡爬蟲的設計與實現(xiàn)[A];2010年全國通信安全學術會議論文集[C];2010年

3 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評論信息的挖掘[A];內(nèi)容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年

4 徐劍;柯貴明;;網(wǎng)絡爬蟲技術在搜索引擎中的應用[A];全國第21屆計算機技術與應用學術會議(CACIS·2010)暨全國第2屆安全關鍵技術與應用學術會議論文集[C];2010年

相關碩士學位論文 前10條

1 陶俊文;基于Heritrix框架的專業(yè)鎮(zhèn)信息網(wǎng)絡爬蟲系統(tǒng)[D];華南理工大學;2015年

2 馬漢超;基于主題網(wǎng)絡爬蟲的汽車行業(yè)多元信息web系統(tǒng)設計與實現(xiàn)[D];西南交通大學;2015年

3 李威;基于交通流量圖的交通信息提取技術研究[D];長安大學;2015年

4 朱嶸良;分布式并行環(huán)境下的網(wǎng)絡爬蟲研究[D];中央民族大學;2015年

5 周思華;股票系統(tǒng)之熱門話題發(fā)現(xiàn)子系統(tǒng)的設計與實現(xiàn)[D];哈爾濱工業(yè)大學;2015年

6 丁杰;基于網(wǎng)絡爬蟲的虛假網(wǎng)頁主動智能檢測[D];華北電力大學;2015年

7 唐華棟;網(wǎng)頁防抓取系統(tǒng)的設計與實現(xiàn)[D];哈爾濱工業(yè)大學;2015年

8 白劍飛;基于層次主題模型的網(wǎng)絡新聞匯聚[D];浙江大學;2015年

9 袁野;企業(yè)內(nèi)網(wǎng)搜索引擎關鍵技術研究與實現(xiàn)[D];電子科技大學;2014年

10 滕以芳;基于本體的多媒體素材網(wǎng)絡爬蟲設計與實現(xiàn)[D];吉林大學;2015年

,

本文編號:1513104

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1513104.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶4a810***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
日韩夫妻午夜性生活视频| 亚洲一区二区久久观看| 尤物久久91欧美人禽亚洲| 丰满的人妻一区二区三区| 激情综合五月开心久久| 国产伦精品一一区二区三区高清版| 福利视频一区二区在线| 日本在线 一区 二区| 日本国产欧美精品视频| 亚洲精品一区二区三区免| 黄色三级日本在线观看| 亚洲高清欧美中文字幕| 国产精品人妻熟女毛片av久| 98精品永久免费视频| 91插插插外国一区二区婷婷| 精品午夜福利无人区乱码| 黄色美女日本的美女日人| 亚洲精品欧美精品日韩精品| 色婷婷亚洲精品综合网| 成人精品视频在线观看不卡| 婷婷激情五月天丁香社区| 欧美黑人巨大一区二区三区| 欧美有码黄片免费在线视频| 中文日韩精品视频在线| 精品国产91亚洲一区二区三区| 色婷婷人妻av毛片一区二区三区| 婷婷激情四射在线观看视频| 少妇熟女亚洲色图av天堂| 久久综合九色综合欧美| 福利在线午夜绝顶三级| 欧美胖熟妇一区二区三区| 少妇丰满a一区二区三区| 国产精欧美一区二区三区久久| 精品精品国产欧美在线| 亚洲精品熟女国产多毛| 国产福利一区二区三区四区| 久久精品国产亚洲av麻豆| 日本欧美一区二区三区在线播| 欧美成人黄色一区二区三区| 国产午夜免费在线视频| 国产精品国产亚洲区久久|