基于MD5去重樹的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與優(yōu)化
本文關(guān)鍵詞:基于MD5去重樹的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與優(yōu)化 出處:《計(jì)算機(jī)應(yīng)用與軟件》2015年02期 論文類型:期刊論文
更多相關(guān)文章: 搜索引擎 網(wǎng)絡(luò)爬蟲 哈希鏈表 去重樹
【摘要】:隨著信息化社會(huì)的不斷發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)越來(lái)越多,隨之也產(chǎn)生了各種各樣的搜索引擎,網(wǎng)絡(luò)爬蟲正是為搜索引擎提供數(shù)據(jù)基礎(chǔ)的。由于大多數(shù)普通的網(wǎng)絡(luò)爬蟲在數(shù)據(jù)量巨大時(shí)都會(huì)因?yàn)镈NS解析以及url去重而消耗大量的時(shí)間,為了更好地改進(jìn)爬蟲的效率,讓爬蟲在大數(shù)據(jù)處理時(shí)依然擁有良好的性能,使用哈希鏈表緩存DNS并將DNS解析的效率相對(duì)于普通不做DNS優(yōu)化的爬蟲提高了2.5~3倍。再將MD5加密算法以及樹相結(jié)合設(shè)計(jì)出一種基于MD5的url去重樹,理論上使得url去重的空間復(fù)雜度相對(duì)于普通哈希表縮小60倍,而讓其查重的時(shí)間復(fù)雜度接近于O(1)。最終通過(guò)實(shí)驗(yàn)證明了該設(shè)計(jì)的數(shù)據(jù)結(jié)構(gòu)較為良好。
【作者單位】: 徐州工程學(xué)院信電工程學(xué)院;徐州海外科技人才創(chuàng)業(yè)基地;
【基金】:徐州市科技計(jì)劃項(xiàng)目(XF12C048)
【分類號(hào)】:TP391.3;TP393.092
【正文快照】: 0引言如今信息化時(shí)代,互聯(lián)網(wǎng)發(fā)展的速度越來(lái)越快。互聯(lián)網(wǎng)上的網(wǎng)頁(yè)數(shù)量數(shù)以萬(wàn)億計(jì)[1],如何有效且快速地檢索這些網(wǎng)站上的信息,成為了一大難題,因此搜索引擎隨之誕生了。而網(wǎng)絡(luò)爬蟲,也稱蜘蛛程序,網(wǎng)絡(luò)機(jī)器人是搜索引擎的心臟,它常年爬行在各大網(wǎng)站上采集數(shù)據(jù),為搜索引擎提供了數(shù)
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前5條
1 駱斌,費(fèi)翔林;多線程技術(shù)的研究與應(yīng)用[J];計(jì)算機(jī)研究與發(fā)展;2000年04期
2 尹江;尹治本;黃洪;;網(wǎng)絡(luò)爬蟲效率瓶頸的分析與解決方案[J];計(jì)算機(jī)應(yīng)用;2008年05期
3 梁正友;張林才;;基于Rabin指紋方法的URL去重算法[J];計(jì)算機(jī)應(yīng)用;2008年S2期
4 廖海生;趙躍龍;;基于MD5算法的重復(fù)數(shù)據(jù)刪除技術(shù)的研究與改進(jìn)[J];計(jì)算機(jī)測(cè)量與控制;2010年03期
5 高克寧;柴橋子;張斌;馬安香;;支持Web信息分類的高性能蜘蛛程序[J];小型微型計(jì)算機(jī)系統(tǒng);2006年07期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 雷超陽(yáng),劉軍華,徐正權(quán);基于COM+組件運(yùn)行時(shí)線程模式探討及應(yīng)用[J];湖南文理學(xué)院學(xué)報(bào)(自然科學(xué)版);2004年04期
2 胡新海;;云存儲(chǔ)數(shù)據(jù)縮減技術(shù)研究[J];長(zhǎng)春工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2012年02期
3 劉婷婷;趙志偉;李戰(zhàn)偉;閆啟亮;;全自動(dòng)晶圓劃片機(jī)軟件系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電子工業(yè)專用設(shè)備;2012年06期
4 陸培軍;Delphi中多線程技術(shù)的應(yīng)用[J];電腦學(xué)習(xí);2003年03期
5 李曄;姚全珠;王戰(zhàn)敏;;基于LabWindows/CVI的多線程實(shí)時(shí)監(jiān)控系統(tǒng)的研究與開發(fā)[J];電腦與信息技術(shù);2008年06期
6 周民;邱雅;王華彬;;網(wǎng)絡(luò)輿情分析中智能爬蟲的設(shè)計(jì)[J];電腦知識(shí)與技術(shù);2011年33期
7 關(guān)守平 ,鮑芳;IC/晶圓劃片機(jī)軟件系統(tǒng)的開發(fā)[J];電子與電腦;2005年10期
8 任曉軍;周煜;奚文駿;;基于LabWindows/CVI的多線程測(cè)控軟件設(shè)計(jì)技術(shù)[J];電子工程師;2006年01期
9 劉曉光,曲金鵬,凌志浩;基于LabWindows/CVI的多線程通信技術(shù)[J];儀器儀表用戶;2004年03期
10 吳丹;傅秀芬;蘇磊;林喬捷;;多線程編程模型的研究與應(yīng)用[J];廣東工業(yè)大學(xué)學(xué)報(bào);2008年01期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前6條
1 何玉琳;駱斌;陳世福;;面向?qū)ο蟮穆?lián)機(jī)分析處理技術(shù)O3LAP及其應(yīng)用[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
2 張延成;駱斌;陳世福;;基于數(shù)據(jù)倉(cāng)庫(kù)的司法決策支持系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年
3 肖靜靜;李雙峰;彭智勇;;用多線程方式優(yōu)化PostgreSQL的查詢處理[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年
4 陳誠(chéng);李光亞;童慶;;增量爬取技術(shù)的策略框架設(shè)計(jì)[A];第29屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年
5 吳朋朋;黃瑋;楊璐皓;;移動(dòng)終端通訊錄數(shù)據(jù)同步去重算法[A];2013年中國(guó)信息通信研究新進(jìn)展論文集[C];2014年
6 胡寧玉;杜秀麗;劉焱;盧剛;王運(yùn)明;;基于快速消冗方法的增量備份策略研究[A];2014第二屆中國(guó)指揮控制大會(huì)論文集(上)[C];2014年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前9條
1 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測(cè)系統(tǒng)研究[D];北京郵電大學(xué);2011年
2 孟玲;鋁電解槽熱場(chǎng)仿真與槽殼溫度在線檢測(cè)系統(tǒng)研究[D];山東大學(xué);2011年
3 潘鐵軍;虛擬企業(yè)過(guò)程集成中幾個(gè)關(guān)鍵問題的研究[D];浙江大學(xué);2001年
4 王田;移動(dòng)智能網(wǎng)的過(guò)負(fù)荷控制機(jī)制研究[D];重慶大學(xué);2002年
5 龐文堯;基于C/S模式的遠(yuǎn)程控制系統(tǒng)研究開發(fā)[D];浙江大學(xué);2003年
6 隋振;多點(diǎn)成形中的快速調(diào)形與成形過(guò)程自動(dòng)化研究[D];吉林大學(xué);2004年
7 孫紅梅;分布式虛擬場(chǎng)景實(shí)時(shí)繪制技術(shù)的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2001年
8 李偉;結(jié)構(gòu)化P2P網(wǎng)絡(luò)Churn問題研究[D];武漢大學(xué);2012年
9 宋筱軒;動(dòng)態(tài)數(shù)據(jù)驅(qū)動(dòng)的河流突發(fā)性水污染事故預(yù)警系統(tǒng)關(guān)鍵技術(shù)研究[D];浙江大學(xué);2014年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 李秀芳;基于多核的多線程算法并行優(yōu)化[D];鄭州大學(xué);2010年
2 高波;基于PC的音樂噴泉控制系統(tǒng)的設(shè)計(jì)[D];大連理工大學(xué);2010年
3 丁寶瓊;網(wǎng)絡(luò)文本信息采集分析關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];解放軍信息工程大學(xué);2009年
4 劉娟容;實(shí)時(shí)PCR儀熒光信號(hào)監(jiān)測(cè)系統(tǒng)的研究[D];浙江大學(xué);2011年
5 王興啟;多核處理器的有鎖編程與非阻塞算法研究[D];中原工學(xué)院;2011年
6 郭海燕;搜索引擎中網(wǎng)絡(luò)爬蟲技術(shù)研究[D];西安電子科技大學(xué);2009年
7 陳穎;新一代移動(dòng)產(chǎn)品體系規(guī)劃和融合計(jì)費(fèi)的實(shí)現(xiàn)[D];西安電子科技大學(xué);2008年
8 劉軍;基于云計(jì)算的網(wǎng)絡(luò)數(shù)據(jù)容災(zāi)關(guān)鍵技術(shù)的研究[D];華中師范大學(xué);2011年
9 于鵬;CDMA2000核心網(wǎng)性能測(cè)試工具的設(shè)計(jì)與實(shí)現(xiàn)[D];南京理工大學(xué);2011年
10 張巧;基于1553B的載機(jī)火控模擬系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];南京理工大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前8條
1 葉允明,于水,馬范援,宋暉,張嶺;分布式Web Crawler的研究:結(jié)構(gòu)、算法和策略[J];電子學(xué)報(bào);2002年S1期
2 劉俊輝;;MD5消息摘要算法實(shí)現(xiàn)及改進(jìn)[J];福建電腦;2007年04期
3 楊天奇;周曄;;一種增量式并行Web信息采集方法[J];計(jì)算機(jī)工程;2006年20期
4 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年10期
5 黃豪佑;董輝;盧建剛;;歷史數(shù)據(jù)壓縮算法在DSP上的實(shí)現(xiàn)[J];計(jì)算機(jī)測(cè)量與控制;2006年12期
6 苗長(zhǎng)芬,馮偉華;面向主題Crawler的設(shè)計(jì)與實(shí)現(xiàn)[J];平原大學(xué)學(xué)報(bào);2005年03期
7 李曉明,鳳旺森;兩種對(duì)URL的散列效果很好的函數(shù)[J];軟件學(xué)報(bào);2004年02期
8 蔣宗禮;趙欽;肖華;王蕊;;高性能并行爬行器[J];計(jì)算機(jī)工程與設(shè)計(jì);2006年24期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 陳杰;主題搜索引擎中網(wǎng)絡(luò)蜘蛛搜索策略研究[D];浙江大學(xué);2006年
2 何世林;基于Java技術(shù)的搜索引擎研究與實(shí)現(xiàn)[D];西南交通大學(xué);2006年
3 朱玉麗;基于網(wǎng)格技術(shù)的主題爬蟲算法優(yōu)化的研究與實(shí)現(xiàn)[D];沈陽(yáng)工業(yè)大學(xué);2007年
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 戚欣;;基于本體的主題網(wǎng)絡(luò)爬蟲設(shè)計(jì)[J];武漢理工大學(xué)學(xué)報(bào);2009年03期
2 彭軻;廖聞劍;;基于瀏覽器服務(wù)的網(wǎng)絡(luò)爬蟲[J];硅谷;2009年04期
3 王江紅;朱麗君;李彩虹;;一種新型網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];微計(jì)算機(jī)信息;2010年03期
4 于成龍;于洪波;;網(wǎng)絡(luò)爬蟲技術(shù)研究[J];東莞理工學(xué)院學(xué)報(bào);2011年03期
5 焦賽美;;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];瓊州學(xué)院學(xué)報(bào);2011年05期
6 宋海洋;劉曉然;錢?;;一種新的主題網(wǎng)絡(luò)爬蟲爬行策略[J];計(jì)算機(jī)應(yīng)用與軟件;2011年11期
7 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年10期
8 鄒海亮;孫莉;;可定制的聚焦網(wǎng)絡(luò)爬蟲[J];電子科技;2009年01期
9 楊松梅;;網(wǎng)絡(luò)爬蟲[J];硅谷;2009年15期
10 張紅云;劉煒;熊前興;;一種基于語(yǔ)義本體的網(wǎng)絡(luò)爬蟲模型[J];計(jì)算機(jī)應(yīng)用與軟件;2009年11期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條
1 夏詔杰;郭力;李曉霞;;化學(xué)主題網(wǎng)絡(luò)爬蟲的研究[A];第十屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2009年
2 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[A];2010年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2010年
3 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評(píng)論信息的挖掘[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
4 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國(guó)第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2010)暨全國(guó)第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 金梅;網(wǎng)絡(luò)爬蟲性能提升與功能拓展的研究與實(shí)現(xiàn)[D];吉林大學(xué);2012年
2 芮虎;比價(jià)購(gòu)物平臺(tái)中網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[D];華東理工大學(xué);2013年
3 龔秋艷;并行網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)[D];華東師范大學(xué);2010年
4 么士宇;基于分布式計(jì)算的網(wǎng)絡(luò)爬蟲技術(shù)研究[D];大連海事大學(xué);2011年
5 陳奮;過(guò)濾型網(wǎng)絡(luò)爬蟲的研究與設(shè)計(jì)[D];廈門大學(xué);2007年
6 趙茉莉;網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2013年
7 譚龍遠(yuǎn);基于領(lǐng)域的網(wǎng)絡(luò)爬蟲技術(shù)的研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2009年
8 張紅云;基于頁(yè)面分析的主題網(wǎng)絡(luò)爬蟲的研究[D];武漢理工大學(xué);2010年
9 趙鵬程;分布式書籍網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西南交通大學(xué);2014年
10 杜一平;主題搜索網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2009年
,本文編號(hào):1313186
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1313186.html