基于分層結(jié)構(gòu)保留的增量網(wǎng)絡(luò)爬蟲算法
本文選題:網(wǎng)絡(luò)爬蟲 + URL過濾器 ; 參考:《計(jì)算機(jī)應(yīng)用研究》2013年08期
【摘要】:為了提高目前爬蟲算法抓取結(jié)果的有效性,提出了一種旨在獲取有效信息的改進(jìn)網(wǎng)絡(luò)爬蟲算法,主要設(shè)計(jì)了信息的分層結(jié)構(gòu)保留策略和URL過濾模式。在改進(jìn)算法中,網(wǎng)絡(luò)資源定位符被分層存儲(chǔ),在保留信息全部拓?fù)潢P(guān)系的基礎(chǔ)上,將交錯(cuò)復(fù)雜的URL網(wǎng)絡(luò)系統(tǒng)從一個(gè)圖結(jié)構(gòu)變?yōu)橐粋(gè)層次分明的樹結(jié)構(gòu)。在執(zhí)行結(jié)構(gòu)模式下,實(shí)現(xiàn)了增量爬蟲算法。仿真實(shí)驗(yàn)以實(shí)際網(wǎng)站的BBS為測試數(shù)據(jù),結(jié)果表明,改進(jìn)算法比現(xiàn)有網(wǎng)絡(luò)爬蟲算法在爬行速度、下載效率與信息有效性等方面有較大的優(yōu)勢。因此,分層結(jié)構(gòu)策略與URL過濾模式可以在增加少量計(jì)算時(shí)間的前提下極大提高爬蟲抓取頁面的有效性。
[Abstract]:In order to improve the reliability of the crawler algorithm to grab the results, put forward a kind of effective information to obtain improved web crawler algorithm, the main design of the hierarchical structure of information retention strategy and URL filtering model. In the improved algorithm, cyber source locator is based on hierarchical storage, keep all information on the topological relations, the staggered URL complex network system from a graph structure into a hierarchical tree structure. In the implementation of the structure mode, the incremental crawler algorithm. Simulation with actual website BBS as the test data, the results show that the improved algorithm is better than the existing algorithm in web crawler crawling speed, has the advantage of greater efficiency and download the effectiveness of information and so on. Therefore, the hierarchical structure of URL strategy and filtering mode can be a small increase in computing time greatly improve the effectiveness of the crawler to crawl the page.
【作者單位】: 樂山師范學(xué)院物理與電子工程學(xué)院;華南理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院廣州510006;Oracle甲骨文研究開發(fā)中心(深圳)有限公司;華南理工大學(xué)軟件學(xué)院;樂山師范學(xué)院數(shù)學(xué)與信息科學(xué)學(xué)院;
【基金】:國家自然科學(xué)基金資助項(xiàng)目(61003066,61170193) 廣東省自然科學(xué)基金資助項(xiàng)目(S2012010010613) 國家教育部博士點(diǎn)基金資助項(xiàng)目(20090172120035) 中央高;究蒲袠I(yè)務(wù)費(fèi)重點(diǎn)項(xiàng)目(2012ZM0083)
【分類號(hào)】:TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 彭濤;孟宇;左萬利;王英;胡亮;;主題爬行中的隧道穿越技術(shù)[J];計(jì)算機(jī)研究與發(fā)展;2010年04期
2 孟濤;王繼民;閆宏飛;;網(wǎng)頁變化與增量搜集技術(shù)[J];軟件學(xué)報(bào);2006年05期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 吳永輝;王曉龍;丁宇新;徐軍;郭鴻志;;基于主題的自適應(yīng)、在線網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)方法及新聞推薦系統(tǒng)[J];電子學(xué)報(bào);2010年11期
2 劉輝林;孟莉;楊松波;王光興;;專業(yè)搜索引擎數(shù)據(jù)更新的算法P~2FC[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年02期
3 郭濤;黃銘鈞;;社區(qū)網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];智能計(jì)算機(jī)與應(yīng)用;2012年04期
4 歐陽柳波;易顯;李學(xué)勇;楊柱;;面向用戶體驗(yàn)的大型網(wǎng)站網(wǎng)頁分類更新策略[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年09期
5 柴軍飛;;搜索引擎中的網(wǎng)絡(luò)蜘蛛技術(shù)探析[J];今日科苑;2009年24期
6 張乃洲;李石君;余偉;張卓;;使用聯(lián)合鏈接相似度評估爬取Web資源[J];計(jì)算機(jī)學(xué)報(bào);2010年12期
7 徐文杰;陳慶奎;;增量更新并行W eb爬蟲系統(tǒng)[J];計(jì)算機(jī)應(yīng)用;2009年04期
8 王蘭成;朱建華;;網(wǎng)絡(luò)信息采集中鏈接與主題相關(guān)性的判定研究[J];計(jì)算機(jī)應(yīng)用與軟件;2012年05期
9 孫彬;王東;李娟;;基于XQuery的Deep Web搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];科學(xué)技術(shù)與工程;2007年16期
10 杜言琦;馬軍;;基于版塊的論壇增量搜集策略[J];中文信息學(xué)報(bào);2010年03期
相關(guān)會(huì)議論文 前1條
1 杜言琦;馬軍;;基于版塊的論壇增量搜集策略[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
相關(guān)博士學(xué)位論文 前5條
1 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
2 張乃洲;實(shí)體搜索爬蟲和信息抽取研究[D];武漢大學(xué);2011年
3 彭濤;面向?qū)I(yè)搜索引擎的主題爬行技術(shù)研究[D];吉林大學(xué);2007年
4 徐和祥;Deep Web集成中若干技術(shù)研究[D];復(fù)旦大學(xué);2008年
5 趙朋朋;Deep Web信息集成若干關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 郭海燕;搜索引擎中網(wǎng)絡(luò)爬蟲技術(shù)研究[D];西安電子科技大學(xué);2009年
2 楊華;網(wǎng)絡(luò)信息動(dòng)態(tài)采集策略的研究及應(yīng)用[D];河北科技大學(xué);2011年
3 李莎莎;增量式Web信息采集與信息提取系統(tǒng)的研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2011年
4 楊方蓉;Web信息內(nèi)容變化檢測技術(shù)研究與實(shí)現(xiàn)[D];西南交通大學(xué);2011年
5 劉欣宇;基于主題策略的Web信息監(jiān)測系統(tǒng)研究與實(shí)現(xiàn)[D];重慶大學(xué);2011年
6 高潔璇;Web管理信息系統(tǒng)性能優(yōu)化研究[D];華中科技大學(xué);2011年
7 楊頌;面向電子商務(wù)網(wǎng)站的增量爬蟲設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2010年
8 白玉昭;垂直搜索引擎的研究與實(shí)現(xiàn)[D];江南大學(xué);2012年
9 黃永光;基于網(wǎng)頁挖掘的搜索引擎若干技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2006年
10 劉琳;校園網(wǎng)搜索引擎系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2007年
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 賈福林,王國仁,于戈;基于DOM的XML數(shù)據(jù)庫的索引技術(shù)研究[J];計(jì)算機(jī)研究與發(fā)展;2004年01期
2 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動(dòng)提取[J];計(jì)算機(jī)研究與發(fā)展;2004年10期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳麗君;;深層網(wǎng)網(wǎng)絡(luò)爬蟲設(shè)計(jì)[J];計(jì)算機(jī)與信息技術(shù);2009年Z2期
2 賀財(cái)平;覃事剛;劉建勛;;Web服務(wù)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2011年01期
3 劉明輝;張志平;張新民;;網(wǎng)絡(luò)資源聚合方法探析[J];機(jī)械管理開發(fā);2008年05期
4 劉磊安;符志強(qiáng);;基于Lucene.net網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2010年08期
5 張睿涵;林振榮;李建民;衷灣;;基于主題定制的專利網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2011年07期
6 潘春華 ,常敏 ,武港山;面向Web的信息收集工具的設(shè)計(jì)與開發(fā)[J];計(jì)算機(jī)應(yīng)用研究;2002年06期
7 王軍;彭建;;網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)設(shè)計(jì)研究[J];科技信息(學(xué)術(shù)研究);2007年27期
8 何志文;郭利剛;;搜索引擎技術(shù)在互聯(lián)網(wǎng)音視頻節(jié)目監(jiān)測系統(tǒng)中的應(yīng)用[J];廣播與電視技術(shù);2009年03期
9 陳麗君;;深層網(wǎng)網(wǎng)絡(luò)爬蟲表單檢測器設(shè)計(jì)[J];科技資訊;2009年16期
10 石柯;周利兵;陶文兵;;基于移動(dòng)代理的MAISE爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
相關(guān)會(huì)議論文 前9條
1 彭亮;卓新建;黃瑋;范文慶;;基于網(wǎng)絡(luò)爬蟲的XSS漏洞掃描系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];第十三屆中國科協(xié)年會(huì)第11分會(huì)場-中國智慧城市論壇論文集[C];2011年
2 侯丹青;李舟軍;鄒蘊(yùn)珂;;一種跨站腳本漏洞檢測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];全國計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集(第二十四卷)[C];2009年
3 王勇;劉奕群;張敏;馬少平;茹立云;;基于用戶興趣分析的網(wǎng)頁生命周期建模(英文)[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
4 劉祥濤;龔才春;曾依靈;白碩;鮑旭華;;Kad網(wǎng)絡(luò)節(jié)點(diǎn)共享資源探測分析[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
5 江濤;于洪志;李剛;;基于藏文網(wǎng)頁的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)研究[A];全國計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集(第二十三卷)[C];2008年
6 王棟;陳勇;徐建良;;基于預(yù)測的BitTorrent種子評估方法[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
7 范淵;;Web應(yīng)用風(fēng)險(xiǎn)掃描的研究與應(yīng)用[A];全國計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集·第二十五卷[C];2010年
8 夏冰;高軍;王騰蛟;楊冬青;;一種高效的動(dòng)態(tài)腳本網(wǎng)站有效頁面獲取方法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(A輯)[C];2009年
9 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務(wù)搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];CCF NCSC 2011——第二屆中國計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年
相關(guān)重要報(bào)紙文章 前1條
1 伍裕標(biāo);網(wǎng)絡(luò)監(jiān)控STOP![N];中國電腦教育報(bào);2003年
相關(guān)博士學(xué)位論文 前1條
1 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 趙艷;基于網(wǎng)絡(luò)爬蟲的跨站腳本漏洞動(dòng)態(tài)檢測技術(shù)研究[D];西南交通大學(xué);2011年
2 喬峰;基于模板化網(wǎng)絡(luò)爬蟲技術(shù)的Web網(wǎng)頁信息抽取[D];電子科技大學(xué);2012年
3 田董濤;微博客數(shù)據(jù)的獲取與分析方法研究[D];北京交通大學(xué);2012年
4 楊超;基于網(wǎng)格的大規(guī)模網(wǎng)頁采集技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2007年
5 劉哲;基于廣域網(wǎng)的分布式網(wǎng)頁信息獲取系統(tǒng)的研究與實(shí)現(xiàn)[D];吉林大學(xué);2008年
6 沈壽忠;基于網(wǎng)絡(luò)爬蟲的SQL注入與XSS漏洞挖掘[D];西安電子科技大學(xué);2009年
7 耿樂群;基于主動(dòng)搜索的論壇內(nèi)容監(jiān)管技術(shù)研究[D];哈爾濱工程大學(xué);2011年
8 張睿涵;基于RSS的聚焦網(wǎng)絡(luò)爬蟲在高校網(wǎng)站群中的研究[D];南昌大學(xué);2012年
9 王建超;一體化網(wǎng)絡(luò)分布式主動(dòng)注冊系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京交通大學(xué);2008年
10 彭寒;Web應(yīng)用安全漏洞測試工具Punks的設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2007年
,本文編號(hào):1748352
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1748352.html