基于Bloom Filter算法的URL去重算法研究及其應(yīng)用
發(fā)布時(shí)間:2021-06-13 05:48
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,各種各樣的網(wǎng)絡(luò)信息也呈指數(shù)級(jí)增長(zhǎng),海量而復(fù)雜的網(wǎng)絡(luò)信息給人們提供更多可用數(shù)據(jù)的同時(shí),有效的信息檢索難度也越來越大。在這種情況下,我們就需要一個(gè)信息檢索工具來進(jìn)行有效信息的檢索,那就是搜索引擎。網(wǎng)絡(luò)爬蟲作為搜索引擎中的核心技術(shù),為用戶的信息檢索提供了很大便利。本文的主要研究?jī)?nèi)容就是關(guān)于網(wǎng)絡(luò)爬蟲相關(guān)技術(shù)。網(wǎng)絡(luò)爬蟲系統(tǒng)根據(jù)初始種子URL,獲取網(wǎng)頁中的下層鏈接并放入待爬取URL列表,逐層進(jìn)行直至到達(dá)系統(tǒng)設(shè)置最大層級(jí)或者到達(dá)最終所需信息所在頁面,然后對(duì)該頁面進(jìn)行解析,最終獲取到頁面中用戶所需信息。在爬蟲獲取網(wǎng)頁數(shù)據(jù)過程中,各個(gè)層級(jí)中獲取到的URL鏈接可能存在大量的重復(fù),比如根據(jù)圖書分類頁爬取某個(gè)網(wǎng)站圖書的信息時(shí),同一本圖書很可能會(huì)有多個(gè)分類標(biāo)簽,當(dāng)對(duì)不同標(biāo)簽下的圖書進(jìn)行爬取時(shí),就可能出現(xiàn)多次爬取到同一本圖書的情況,這就導(dǎo)致了在執(zhí)行過程中系統(tǒng)需要重復(fù)獲取和解析相同頁面,從而造成了時(shí)間以及存儲(chǔ)空間的很大浪費(fèi)。另外我們熟悉的單線程模式的數(shù)據(jù)處理方式在在進(jìn)行URL處理時(shí)比較耗時(shí),導(dǎo)致系統(tǒng)執(zhí)行效率較低。針對(duì)上述問題,本文從提高爬蟲系統(tǒng)檢索效率和準(zhǔn)確率的角度出發(fā)主要做了以下工作:1...
【文章來源】:河南大學(xué)河南省
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
網(wǎng)絡(luò)爬蟲系統(tǒng)圖
上的其它相關(guān)網(wǎng)頁,就需要通過網(wǎng)頁中包含的超連接信息獲取。這樣的數(shù)據(jù)采集過程就像一個(gè)爬蟲或者蜘蛛在蜘蛛數(shù)據(jù)獲取方式被稱為網(wǎng)絡(luò)爬蟲系統(tǒng)或者網(wǎng)絡(luò)蜘蛛系統(tǒng),在wler。圖 2-1 網(wǎng)絡(luò)爬蟲系統(tǒng)圖
初始網(wǎng)頁 URL 鏈接,然后對(duì)初始鏈接 URL 所指向的網(wǎng)頁內(nèi)容進(jìn)行分析,確定該層級(jí)所需要的網(wǎng)頁信息。然后根據(jù)上述過程制定相關(guān)爬取策略獲取網(wǎng)頁信息,逐級(jí)進(jìn)行上述過程,直至到達(dá)最終數(shù)據(jù)所在層,獲取到最終所需數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行保存,以備爬取到的數(shù)據(jù)的后續(xù)使用。網(wǎng)絡(luò)爬蟲系統(tǒng)獲取網(wǎng)頁數(shù)據(jù)過程如下圖 2-3 所示。
【參考文獻(xiàn)】:
期刊論文
[1]基于XML文檔中XPath查詢與結(jié)構(gòu)研究[J]. 陳琛. 電子技術(shù)與軟件工程. 2015(14)
[2]基于Tika和Lucene的桌面搜索引擎研究與實(shí)現(xiàn)[J]. 王旭仁,鄭秋輝,何發(fā)鎂,李娜,王彥麗. 計(jì)算機(jī)工程與設(shè)計(jì). 2014(01)
[3]大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 孟小峰,慈祥. 計(jì)算機(jī)研究與發(fā)展. 2013(01)
[4]基于HTMLParser和HttpClient的網(wǎng)絡(luò)爬蟲原理與實(shí)現(xiàn)[J]. 張亮. 電腦編程技巧與維護(hù). 2011(20)
[5]Nutch分布式網(wǎng)絡(luò)爬蟲研究與優(yōu)化[J]. 詹恒飛,楊岳湘,方宏. 計(jì)算機(jī)科學(xué)與探索. 2011(01)
[6]基于Struts+Spring+log4j框架的日志管理[J]. 陳兀,程耕國. 軟件導(dǎo)刊. 2010(05)
[7]廣域網(wǎng)分布式Web爬蟲[J]. 許笑,張偉哲,張宏莉,方濱興. 軟件學(xué)報(bào). 2010(05)
[8]HTMLParser提取網(wǎng)頁超鏈接研究[J]. 郎鳳舉. 電腦編程技巧與維護(hù). 2010(02)
[9]Web搜索引擎技術(shù)綜述[J]. 宋春陽,金可音. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2008(05)
[10]簡(jiǎn)單分布式網(wǎng)絡(luò)爬蟲模型的設(shè)計(jì)與分析[J]. 王鳳紅. 中國現(xiàn)代教育裝備. 2008(04)
博士論文
[1]分布式信息檢索中的若干重要問題研究[D]. 何川.北京郵電大學(xué) 2012
碩士論文
[1]主題網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)研究[D]. 馬進(jìn).湖南工業(yè)大學(xué) 2018
[2]主題網(wǎng)絡(luò)爬蟲的并行化研究與設(shè)計(jì)[D]. 王錦陽.西南石油大學(xué) 2017
[3]基于網(wǎng)頁分塊的主題爬蟲技術(shù)研究[D]. 周雪.山東師范大學(xué) 2017
[4]基于Hadoop的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 薛超.鄭州大學(xué) 2016
[5]基于Bloom Filter的云存儲(chǔ)文件去重方法研究與優(yōu)化[D]. 林芙楠.華南理工大學(xué) 2016
[6]基于Lucene和Heritrix的小型主題搜索引擎的研究及實(shí)現(xiàn)[D]. 顧盛.西安電子科技大學(xué) 2015
[7]基于hadoop的分布式網(wǎng)絡(luò)爬蟲研究與實(shí)現(xiàn)[D]. 萬濤.西安電子科技大學(xué) 2014
[8]面向垂直搜索引擎的主題爬蟲方法研究[D]. 王良偉.重慶大學(xué) 2013
[9]網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實(shí)現(xiàn)[D]. 趙茉莉.電子科技大學(xué) 2013
[10]基于布隆過濾器算法的網(wǎng)頁消重技術(shù)的實(shí)現(xiàn)與應(yīng)用[D]. 王征.北京交通大學(xué) 2010
本文編號(hào):3227123
【文章來源】:河南大學(xué)河南省
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
網(wǎng)絡(luò)爬蟲系統(tǒng)圖
上的其它相關(guān)網(wǎng)頁,就需要通過網(wǎng)頁中包含的超連接信息獲取。這樣的數(shù)據(jù)采集過程就像一個(gè)爬蟲或者蜘蛛在蜘蛛數(shù)據(jù)獲取方式被稱為網(wǎng)絡(luò)爬蟲系統(tǒng)或者網(wǎng)絡(luò)蜘蛛系統(tǒng),在wler。圖 2-1 網(wǎng)絡(luò)爬蟲系統(tǒng)圖
初始網(wǎng)頁 URL 鏈接,然后對(duì)初始鏈接 URL 所指向的網(wǎng)頁內(nèi)容進(jìn)行分析,確定該層級(jí)所需要的網(wǎng)頁信息。然后根據(jù)上述過程制定相關(guān)爬取策略獲取網(wǎng)頁信息,逐級(jí)進(jìn)行上述過程,直至到達(dá)最終數(shù)據(jù)所在層,獲取到最終所需數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行保存,以備爬取到的數(shù)據(jù)的后續(xù)使用。網(wǎng)絡(luò)爬蟲系統(tǒng)獲取網(wǎng)頁數(shù)據(jù)過程如下圖 2-3 所示。
【參考文獻(xiàn)】:
期刊論文
[1]基于XML文檔中XPath查詢與結(jié)構(gòu)研究[J]. 陳琛. 電子技術(shù)與軟件工程. 2015(14)
[2]基于Tika和Lucene的桌面搜索引擎研究與實(shí)現(xiàn)[J]. 王旭仁,鄭秋輝,何發(fā)鎂,李娜,王彥麗. 計(jì)算機(jī)工程與設(shè)計(jì). 2014(01)
[3]大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 孟小峰,慈祥. 計(jì)算機(jī)研究與發(fā)展. 2013(01)
[4]基于HTMLParser和HttpClient的網(wǎng)絡(luò)爬蟲原理與實(shí)現(xiàn)[J]. 張亮. 電腦編程技巧與維護(hù). 2011(20)
[5]Nutch分布式網(wǎng)絡(luò)爬蟲研究與優(yōu)化[J]. 詹恒飛,楊岳湘,方宏. 計(jì)算機(jī)科學(xué)與探索. 2011(01)
[6]基于Struts+Spring+log4j框架的日志管理[J]. 陳兀,程耕國. 軟件導(dǎo)刊. 2010(05)
[7]廣域網(wǎng)分布式Web爬蟲[J]. 許笑,張偉哲,張宏莉,方濱興. 軟件學(xué)報(bào). 2010(05)
[8]HTMLParser提取網(wǎng)頁超鏈接研究[J]. 郎鳳舉. 電腦編程技巧與維護(hù). 2010(02)
[9]Web搜索引擎技術(shù)綜述[J]. 宋春陽,金可音. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2008(05)
[10]簡(jiǎn)單分布式網(wǎng)絡(luò)爬蟲模型的設(shè)計(jì)與分析[J]. 王鳳紅. 中國現(xiàn)代教育裝備. 2008(04)
博士論文
[1]分布式信息檢索中的若干重要問題研究[D]. 何川.北京郵電大學(xué) 2012
碩士論文
[1]主題網(wǎng)絡(luò)爬蟲關(guān)鍵技術(shù)研究[D]. 馬進(jìn).湖南工業(yè)大學(xué) 2018
[2]主題網(wǎng)絡(luò)爬蟲的并行化研究與設(shè)計(jì)[D]. 王錦陽.西南石油大學(xué) 2017
[3]基于網(wǎng)頁分塊的主題爬蟲技術(shù)研究[D]. 周雪.山東師范大學(xué) 2017
[4]基于Hadoop的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 薛超.鄭州大學(xué) 2016
[5]基于Bloom Filter的云存儲(chǔ)文件去重方法研究與優(yōu)化[D]. 林芙楠.華南理工大學(xué) 2016
[6]基于Lucene和Heritrix的小型主題搜索引擎的研究及實(shí)現(xiàn)[D]. 顧盛.西安電子科技大學(xué) 2015
[7]基于hadoop的分布式網(wǎng)絡(luò)爬蟲研究與實(shí)現(xiàn)[D]. 萬濤.西安電子科技大學(xué) 2014
[8]面向垂直搜索引擎的主題爬蟲方法研究[D]. 王良偉.重慶大學(xué) 2013
[9]網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實(shí)現(xiàn)[D]. 趙茉莉.電子科技大學(xué) 2013
[10]基于布隆過濾器算法的網(wǎng)頁消重技術(shù)的實(shí)現(xiàn)與應(yīng)用[D]. 王征.北京交通大學(xué) 2010
本文編號(hào):3227123
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3227123.html
最近更新
教材專著