基于分層結構保留的增量網(wǎng)絡爬蟲算法
本文選題:網(wǎng)絡爬蟲 + URL過濾器; 參考:《計算機應用研究》2013年08期
【摘要】:為了提高目前爬蟲算法抓取結果的有效性,提出了一種旨在獲取有效信息的改進網(wǎng)絡爬蟲算法,主要設計了信息的分層結構保留策略和URL過濾模式。在改進算法中,網(wǎng)絡資源定位符被分層存儲,在保留信息全部拓撲關系的基礎上,將交錯復雜的URL網(wǎng)絡系統(tǒng)從一個圖結構變?yōu)橐粋層次分明的樹結構。在執(zhí)行結構模式下,實現(xiàn)了增量爬蟲算法。仿真實驗以實際網(wǎng)站的BBS為測試數(shù)據(jù),結果表明,改進算法比現(xiàn)有網(wǎng)絡爬蟲算法在爬行速度、下載效率與信息有效性等方面有較大的優(yōu)勢。因此,分層結構策略與URL過濾模式可以在增加少量計算時間的前提下極大提高爬蟲抓取頁面的有效性。
[Abstract]:In order to improve the reliability of the crawler algorithm to grab the results, put forward a kind of effective information to obtain improved web crawler algorithm, the main design of the hierarchical structure of information retention strategy and URL filtering model. In the improved algorithm, cyber source locator is based on hierarchical storage, keep all information on the topological relations, the staggered URL complex network system from a graph structure into a hierarchical tree structure. In the implementation of the structure mode, the incremental crawler algorithm. Simulation with actual website BBS as the test data, the results show that the improved algorithm is better than the existing algorithm in web crawler crawling speed, has the advantage of greater efficiency and download the effectiveness of information and so on. Therefore, the hierarchical structure of URL strategy and filtering mode can be a small increase in computing time greatly improve the effectiveness of the crawler to crawl the page.
【作者單位】: 樂山師范學院物理與電子工程學院;華南理工大學計算機科學與工程學院廣州510006;Oracle甲骨文研究開發(fā)中心(深圳)有限公司;華南理工大學軟件學院;樂山師范學院數(shù)學與信息科學學院;
【基金】:國家自然科學基金資助項目(61003066,61170193) 廣東省自然科學基金資助項目(S2012010010613) 國家教育部博士點基金資助項目(20090172120035) 中央高校基本科研業(yè)務費重點項目(2012ZM0083)
【分類號】:TP393.092
【參考文獻】
相關期刊論文 前2條
1 彭濤;孟宇;左萬利;王英;胡亮;;主題爬行中的隧道穿越技術[J];計算機研究與發(fā)展;2010年04期
2 孟濤;王繼民;閆宏飛;;網(wǎng)頁變化與增量搜集技術[J];軟件學報;2006年05期
【共引文獻】
相關期刊論文 前10條
1 吳永輝;王曉龍;丁宇新;徐軍;郭鴻志;;基于主題的自適應、在線網(wǎng)絡熱點發(fā)現(xiàn)方法及新聞推薦系統(tǒng)[J];電子學報;2010年11期
2 劉輝林;孟莉;楊松波;王光興;;專業(yè)搜索引擎數(shù)據(jù)更新的算法P~2FC[J];廣西師范大學學報(自然科學版);2007年02期
3 郭濤;黃銘鈞;;社區(qū)網(wǎng)絡爬蟲的設計與實現(xiàn)[J];智能計算機與應用;2012年04期
4 歐陽柳波;易顯;李學勇;楊柱;;面向用戶體驗的大型網(wǎng)站網(wǎng)頁分類更新策略[J];華中科技大學學報(自然科學版);2010年09期
5 柴軍飛;;搜索引擎中的網(wǎng)絡蜘蛛技術探析[J];今日科苑;2009年24期
6 張乃洲;李石君;余偉;張卓;;使用聯(lián)合鏈接相似度評估爬取Web資源[J];計算機學報;2010年12期
7 徐文杰;陳慶奎;;增量更新并行W eb爬蟲系統(tǒng)[J];計算機應用;2009年04期
8 王蘭成;朱建華;;網(wǎng)絡信息采集中鏈接與主題相關性的判定研究[J];計算機應用與軟件;2012年05期
9 孫彬;王東;李娟;;基于XQuery的Deep Web搜索系統(tǒng)的設計與實現(xiàn)[J];科學技術與工程;2007年16期
10 杜言琦;馬軍;;基于版塊的論壇增量搜集策略[J];中文信息學報;2010年03期
相關會議論文 前1條
1 杜言琦;馬軍;;基于版塊的論壇增量搜集策略[A];第五屆全國信息檢索學術會議論文集[C];2009年
相關博士學位論文 前5條
1 吳永輝;面向?qū)I(yè)領域的網(wǎng)絡信息采集及主題檢測技術研究與應用[D];哈爾濱工業(yè)大學;2010年
2 張乃洲;實體搜索爬蟲和信息抽取研究[D];武漢大學;2011年
3 彭濤;面向?qū)I(yè)搜索引擎的主題爬行技術研究[D];吉林大學;2007年
4 徐和祥;Deep Web集成中若干技術研究[D];復旦大學;2008年
5 趙朋朋;Deep Web信息集成若干關鍵技術研究[D];蘇州大學;2008年
相關碩士學位論文 前10條
1 郭海燕;搜索引擎中網(wǎng)絡爬蟲技術研究[D];西安電子科技大學;2009年
2 楊華;網(wǎng)絡信息動態(tài)采集策略的研究及應用[D];河北科技大學;2011年
3 李莎莎;增量式Web信息采集與信息提取系統(tǒng)的研究與實現(xiàn)[D];武漢理工大學;2011年
4 楊方蓉;Web信息內(nèi)容變化檢測技術研究與實現(xiàn)[D];西南交通大學;2011年
5 劉欣宇;基于主題策略的Web信息監(jiān)測系統(tǒng)研究與實現(xiàn)[D];重慶大學;2011年
6 高潔璇;Web管理信息系統(tǒng)性能優(yōu)化研究[D];華中科技大學;2011年
7 楊頌;面向電子商務網(wǎng)站的增量爬蟲設計與實現(xiàn)[D];湖南大學;2010年
8 白玉昭;垂直搜索引擎的研究與實現(xiàn)[D];江南大學;2012年
9 黃永光;基于網(wǎng)頁挖掘的搜索引擎若干技術的研究[D];哈爾濱工業(yè)大學;2006年
10 劉琳;校園網(wǎng)搜索引擎系統(tǒng)的設計與實現(xiàn)[D];山東大學;2007年
【二級參考文獻】
相關期刊論文 前2條
1 賈福林,王國仁,于戈;基于DOM的XML數(shù)據(jù)庫的索引技術研究[J];計算機研究與發(fā)展;2004年01期
2 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期
【相似文獻】
相關期刊論文 前10條
1 陳麗君;;深層網(wǎng)網(wǎng)絡爬蟲設計[J];計算機與信息技術;2009年Z2期
2 賀財平;覃事剛;劉建勛;;Web服務搜索引擎的設計與實現(xiàn)[J];計算機應用與軟件;2011年01期
3 劉明輝;張志平;張新民;;網(wǎng)絡資源聚合方法探析[J];機械管理開發(fā);2008年05期
4 劉磊安;符志強;;基于Lucene.net網(wǎng)絡爬蟲的設計與實現(xiàn)[J];電腦知識與技術;2010年08期
5 張睿涵;林振榮;李建民;衷灣;;基于主題定制的專利網(wǎng)絡爬蟲的設計與實現(xiàn)[J];計算機與現(xiàn)代化;2011年07期
6 潘春華 ,常敏 ,武港山;面向Web的信息收集工具的設計與開發(fā)[J];計算機應用研究;2002年06期
7 王軍;彭建;;網(wǎng)絡爬蟲的結構設計研究[J];科技信息(學術研究);2007年27期
8 何志文;郭利剛;;搜索引擎技術在互聯(lián)網(wǎng)音視頻節(jié)目監(jiān)測系統(tǒng)中的應用[J];廣播與電視技術;2009年03期
9 陳麗君;;深層網(wǎng)網(wǎng)絡爬蟲表單檢測器設計[J];科技資訊;2009年16期
10 石柯;周利兵;陶文兵;;基于移動代理的MAISE爬蟲的設計與實現(xiàn)[J];華中科技大學學報(自然科學版);2005年S1期
相關會議論文 前9條
1 彭亮;卓新建;黃瑋;范文慶;;基于網(wǎng)絡爬蟲的XSS漏洞掃描系統(tǒng)的設計與實現(xiàn)[A];第十三屆中國科協(xié)年會第11分會場-中國智慧城市論壇論文集[C];2011年
2 侯丹青;李舟軍;鄒蘊珂;;一種跨站腳本漏洞檢測系統(tǒng)的設計與實現(xiàn)[A];全國計算機安全學術交流會論文集(第二十四卷)[C];2009年
3 王勇;劉奕群;張敏;馬少平;茹立云;;基于用戶興趣分析的網(wǎng)頁生命周期建模(英文)[A];第三屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2007年
4 劉祥濤;龔才春;曾依靈;白碩;鮑旭華;;Kad網(wǎng)絡節(jié)點共享資源探測分析[A];第五屆全國信息檢索學術會議論文集[C];2009年
5 江濤;于洪志;李剛;;基于藏文網(wǎng)頁的網(wǎng)絡輿情監(jiān)控系統(tǒng)研究[A];全國計算機安全學術交流會論文集(第二十三卷)[C];2008年
6 王棟;陳勇;徐建良;;基于預測的BitTorrent種子評估方法[A];2008'中國信息技術與應用學術論壇論文集(二)[C];2008年
7 范淵;;Web應用風險掃描的研究與應用[A];全國計算機安全學術交流會論文集·第二十五卷[C];2010年
8 夏冰;高軍;王騰蛟;楊冬青;;一種高效的動態(tài)腳本網(wǎng)站有效頁面獲取方法[A];第26屆中國數(shù)據(jù)庫學術會議論文集(A輯)[C];2009年
9 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務搜索引擎設計與實現(xiàn)[A];CCF NCSC 2011——第二屆中國計算機學會服務計算學術會議論文集[C];2011年
相關重要報紙文章 前1條
1 伍裕標;網(wǎng)絡監(jiān)控STOP![N];中國電腦教育報;2003年
相關博士學位論文 前1條
1 吳永輝;面向?qū)I(yè)領域的網(wǎng)絡信息采集及主題檢測技術研究與應用[D];哈爾濱工業(yè)大學;2010年
相關碩士學位論文 前10條
1 趙艷;基于網(wǎng)絡爬蟲的跨站腳本漏洞動態(tài)檢測技術研究[D];西南交通大學;2011年
2 喬峰;基于模板化網(wǎng)絡爬蟲技術的Web網(wǎng)頁信息抽取[D];電子科技大學;2012年
3 田董濤;微博客數(shù)據(jù)的獲取與分析方法研究[D];北京交通大學;2012年
4 楊超;基于網(wǎng)格的大規(guī)模網(wǎng)頁采集技術研究[D];哈爾濱工業(yè)大學;2007年
5 劉哲;基于廣域網(wǎng)的分布式網(wǎng)頁信息獲取系統(tǒng)的研究與實現(xiàn)[D];吉林大學;2008年
6 沈壽忠;基于網(wǎng)絡爬蟲的SQL注入與XSS漏洞挖掘[D];西安電子科技大學;2009年
7 耿樂群;基于主動搜索的論壇內(nèi)容監(jiān)管技術研究[D];哈爾濱工程大學;2011年
8 張睿涵;基于RSS的聚焦網(wǎng)絡爬蟲在高校網(wǎng)站群中的研究[D];南昌大學;2012年
9 王建超;一體化網(wǎng)絡分布式主動注冊系統(tǒng)的設計與實現(xiàn)[D];北京交通大學;2008年
10 彭寒;Web應用安全漏洞測試工具Punks的設計與實現(xiàn)[D];西安電子科技大學;2007年
,本文編號:1748352
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1748352.html