天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

網(wǎng)絡爬蟲的優(yōu)化策略探略

發(fā)布時間:2019-01-19 16:56
【摘要】:網(wǎng)絡爬蟲對網(wǎng)頁的抓取與優(yōu)化策略直接影響到網(wǎng)頁采集的廣度、深度,以及網(wǎng)頁預處理的數(shù)量和搜索引擎的質(zhì)量。搜索引擎的設(shè)計應在充分考慮網(wǎng)頁遍歷策略的同時,還應加強對網(wǎng)絡爬蟲優(yōu)化策略的研究。本文從主題、優(yōu)先采集、不重復采集、網(wǎng)頁重訪、分布式抓取等方面提出了網(wǎng)絡爬蟲的五大優(yōu)化策略,對網(wǎng)絡爬蟲的設(shè)計有一定的指導和啟迪作用。
[Abstract]:The crawler's strategy of web page capture and optimization has a direct impact on the breadth and depth of web page collection, the quantity of web page preprocessing and the quality of search engine. The design of search engine should not only fully consider the strategy of web page traversal, but also strengthen the research of web crawler optimization strategy. In this paper, five optimization strategies of web crawler are put forward from the aspects of theme, priority collection, non-repetition collection, page revisiting and distributed crawling, which can guide and enlighten the design of web crawler.
【作者單位】: 華南師范大學經(jīng)濟與管理學院;
【分類號】:TP391.3

【參考文獻】

相關(guān)期刊論文 前8條

1 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期

2 周德懋;李舟軍;;高性能網(wǎng)絡爬蟲:研究綜述[J];計算機科學;2009年08期

3 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計算機應用;2005年09期

4 劉金紅;陸余良;;主題網(wǎng)絡爬蟲研究綜述[J];計算機應用研究;2007年10期

5 姚樹宇,趙少東;一種使用分布式技術(shù)的搜索引擎[J];計算機應用與軟件;2005年10期

6 楊貞;杜習英;;基于本體的主題爬蟲的設(shè)計與實現(xiàn)[J];科技情報開發(fā)與經(jīng)濟;2008年02期

7 王冬;雷景生;李壯;;基于PageRank的頁面排序改進算法[J];計算機工程與設(shè)計;2008年22期

8 郭鴻;;一種基于文本內(nèi)容的HITS改進算法[J];計算機系統(tǒng)應用;2009年09期

相關(guān)博士學位論文 前1條

1 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學;2008年

【共引文獻】

相關(guān)期刊論文 前10條

1 王正;陸余良;劉金紅;施凡;;基于Lucene的互聯(lián)網(wǎng)文獻信息檢索系統(tǒng)的研究[J];安徽大學學報(自然科學版);2009年05期

2 孫素芬;羅長壽;張峻峰;于峰;張樹亮;;農(nóng)業(yè)信息資源整合系統(tǒng)研究與應用[J];安徽農(nóng)業(yè)科學;2007年22期

3 汪斌;張云偉;劉健;陳晶;;一種面向農(nóng)業(yè)信息主題網(wǎng)絡爬蟲的設(shè)計[J];安徽農(nóng)業(yè)科學;2009年20期

4 廉捷;劉云;;網(wǎng)絡輿情中的信息預處理與自動摘要算法[J];北京交通大學學報;2010年05期

5 任斌;毛應爽;;基于本體的主動學習主題爬行的研究與實現(xiàn)[J];長春工程學院學報(自然科學版);2011年01期

6 于成龍;于洪波;;網(wǎng)絡爬蟲技術(shù)研究[J];東莞理工學院學報;2011年03期

7 武昊;廖安平;何超英;侯東陽;;基于主題相關(guān)度的地理信息Web服務爬蟲研究[J];地理與地理信息科學;2012年02期

8 毛曉蛟;;搜索引擎中網(wǎng)絡蜘蛛的研究與實現(xiàn)[J];電腦編程技巧與維護;2010年18期

9 張超;閆宏印;;多線程網(wǎng)絡爬蟲的設(shè)計與實現(xiàn)[J];電腦開發(fā)與應用;2012年06期

10 唐波;;網(wǎng)絡爬蟲的設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2009年11期

相關(guān)會議論文 前6條

1 吳晨生;劉彥君;張魯冀;董曉晴;;科普搜索的研究與實現(xiàn)[A];數(shù)字博物館研究與實踐(2009)[C];2010年

2 王棟;陳勇;徐建良;;基于預測的BitTorrent種子評估方法[A];2008'中國信息技術(shù)與應用學術(shù)論壇論文集(二)[C];2008年

3 劉兵;胡學鋼;;基于多鏈接分析的主題爬蟲設(shè)計實現(xiàn)[A];全國第20屆計算機技術(shù)與應用學術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應用學術(shù)會議論文集(上冊)[C];2009年

4 戴玉剛;;藏文網(wǎng)頁采集技術(shù)研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學術(shù)研討會論文集[C];2007年

5 韓子揚;李貴;李征宇;王鳳英;;基于分布式結(jié)構(gòu)的Deep Web結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng)[A];第九屆沈陽科學學術(shù)年會論文集[C];2012年

6 韓子揚;李貴;李征宇;王鳳英;;基于分布式結(jié)構(gòu)的Deep Web結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng)[A];第九屆沈陽科學學術(shù)年會論文集(信息科學與工程技術(shù)分冊)[C];2012年

相關(guān)博士學位論文 前10條

1 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學;2011年

2 鄧斌;B2C在線評論中的客戶知識管理研究[D];電子科技大學;2010年

3 張翔;文本挖掘技術(shù)研究及其在綜合風險信息網(wǎng)絡中的應用[D];西北大學;2011年

4 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測系統(tǒng)研究[D];北京郵電大學;2011年

5 田俊華;基于本體知識庫的教學資源自動采集技術(shù)研究[D];南京師范大學;2011年

6 王文成;基于局部特征分析的人臉表情識別問題研究[D];山東大學;2011年

7 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學;2011年

8 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學;2008年

9 王英;Deep Web數(shù)據(jù)集成關(guān)鍵技術(shù)研究[D];吉林大學;2010年

10 萬源;基于語義統(tǒng)計分析的網(wǎng)絡輿情挖掘技術(shù)研究[D];武漢理工大學;2012年

相關(guān)碩士學位論文 前10條

1 岳廣飛;基于二次搜索的搜索引擎技術(shù)研究[D];山東科技大學;2010年

2 呂芳芳;基于查詢擴展的垂直搜索研究[D];山東科技大學;2010年

3 翁巖青;網(wǎng)頁抓取策略研究[D];哈爾濱工程大學;2010年

4 蔡宇虹;基于主題的元搜索引擎關(guān)鍵技術(shù)研究[D];哈爾濱工程大學;2010年

5 史煒;個性化搜索引擎的研究與設(shè)計[D];電子科技大學;2010年

6 丁寶瓊;網(wǎng)絡文本信息采集分析關(guān)鍵技術(shù)研究與實現(xiàn)[D];解放軍信息工程大學;2009年

7 沙有闖;基于Web文本挖掘的網(wǎng)絡口碑監(jiān)測系統(tǒng)研究[D];安徽大學;2010年

8 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學;2009年

9 張卓;基于分層需求的領(lǐng)域本體構(gòu)建及語義標注方法研究[D];東北財經(jīng)大學;2010年

10 楊曉丹;基于Lucene的主題搜索引擎模板的設(shè)計與實現(xiàn)[D];浙江工商大學;2011年

【二級參考文獻】

相關(guān)期刊論文 前10條

1 燕輝,葉震,董澤浩,高柯俊;報文摘要算法MD5分析[J];合肥工業(yè)大學學報(自然科學版);2002年01期

2 荊濤,左萬利;基于可視布局信息的網(wǎng)頁噪音去除算法[J];華南理工大學學報(自然科學版);2004年S1期

3 張敏,高劍峰,馬少平;基于鏈接描述文本及其上下文的Web信息檢索[J];計算機研究與發(fā)展;2004年01期

4 張三峰;吳國新;;一種面向動態(tài)異構(gòu)網(wǎng)絡的容錯非對稱DHT方法[J];計算機研究與發(fā)展;2007年06期

5 李曉亞;赫楓齡;左萬利;;基于網(wǎng)頁分塊技術(shù)主題爬行器的實現(xiàn)[J];吉林大學學報(理學版);2007年06期

6 余錦,史樹明;分布式網(wǎng)頁排序算法及其傳輸模式分析[J];計算機工程與應用;2004年29期

7 萬源;萬方;王大震;;一種并行Crawler系統(tǒng)中的URL分配算法設(shè)計[J];計算機工程與應用;2006年S1期

8 周雪忠;吳朝暉;;文本知識發(fā)現(xiàn):基于信息抽取的文本挖掘[J];計算機科學;2003年01期

9 李盛韜;余智華;程學旗;白碩;;Web信息采集研究進展[J];計算機科學;2003年02期

10 肖詩源,葉俊,劉賢德;一種基于Agent的分布式搜索引擎[J];計算機工程;2002年07期

相關(guān)博士學位論文 前1條

1 彭濤;面向?qū)I(yè)搜索引擎的主題爬行技術(shù)研究[D];吉林大學;2007年

【相似文獻】

相關(guān)期刊論文 前10條

1 賀財平;覃事剛;劉建勛;;Web服務搜索引擎的設(shè)計與實現(xiàn)[J];計算機應用與軟件;2011年01期

2 劉磊安;符志強;;基于Lucene.net網(wǎng)絡爬蟲的設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2010年08期

3 劉潔清;吳京慧;;面向主題的個人實時搜索引擎的設(shè)計與實現(xiàn)[J];現(xiàn)代圖書情報技術(shù);2006年05期

4 王軍;彭建;;網(wǎng)絡爬蟲的結(jié)構(gòu)設(shè)計研究[J];科技信息(學術(shù)研究);2007年27期

5 費巍;;淺議搜索引擎優(yōu)化[J];圖書館理論與實踐;2008年03期

6 鄒海亮;孫莉;;可定制的聚焦網(wǎng)絡爬蟲[J];電子科技;2009年01期

7 何志文;郭利剛;;搜索引擎技術(shù)在互聯(lián)網(wǎng)音視頻節(jié)目監(jiān)測系統(tǒng)中的應用[J];廣播與電視技術(shù);2009年03期

8 陶榮;陳燕;;基于Lucene小型搜索引擎的研究與實現(xiàn)[J];大眾科技;2010年02期

9 石柯;周利兵;陶文兵;;基于移動代理的MAISE爬蟲的設(shè)計與實現(xiàn)[J];華中科技大學學報(自然科學版);2005年S1期

10 曹忠;趙文靜;;一種優(yōu)化的網(wǎng)絡爬蟲的設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2008年35期

相關(guān)會議論文 前10條

1 劉凡平;高艷華;于炯;張偉;;基于關(guān)鍵決策方法的站內(nèi)搜索研究與實現(xiàn)[A];2010年全國開放式分布與并行計算機學術(shù)會議論文集[C];2010年

2 徐劍;柯貴明;;網(wǎng)絡爬蟲技術(shù)在搜索引擎中的應用[A];全國第21屆計算機技術(shù)與應用學術(shù)會議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應用學術(shù)會議論文集[C];2010年

3 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學會第五屆學術(shù)年會論文集[C];2008年

4 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學術(shù)交流會議論文匯編[C];2003年

5 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2001年

6 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學術(shù)研討會論文集[C];2010年

7 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務搜索引擎設(shè)計與實現(xiàn)[A];CCF NCSC 2011——第二屆中國計算機學會服務計算學術(shù)會議論文集[C];2011年

8 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計算機學會2008年年會論文集[C];2008年

9 王凱;劉代志;李東旭;齊瑋;;地球物理環(huán)境情報搜集系統(tǒng)研究[A];國家安全地球物理叢書(四)——地球物理環(huán)境探測和目標信息獲取與處理[C];2008年

10 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國開放式分布與并行計算學術(shù)會議論文集[C];2005年

相關(guān)重要報紙文章 前10條

1 李一鑫;搜索排名的紅與黑[N];財經(jīng)時報;2007年

2 周文林;搜狗3.0能否撼動搜索市場[N];經(jīng)濟參考報;2007年

3 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財經(jīng)日報;2005年

4 賽迪顧問股份有限公司互聯(lián)網(wǎng)與電子商務咨詢中心 常燕杰;搜索,,還是門戶[N];中國計算機報;2005年

5 陳珊;浙江移動推出手機搜索引擎服務[N];人民郵電;2005年

6 趙法忠;搜索引擎還需悠著點[N];中國經(jīng)營報;2005年

7 金朝力;搜索引擎火拼搜索質(zhì)量[N];北京商報;2006年

8 本報記者  趙曉輝 孟昭麗;搜索引擎駛?cè)搿氨茱L港”[N];中國證券報;2006年

9 孫t;搜索引擎驚喜侵權(quán)官司止于“避風港”?[N];第一財經(jīng)日報;2006年

10 姜蕊;問天下誰識搜索?[N];中國高新技術(shù)產(chǎn)業(yè)導報;2006年

相關(guān)博士學位論文 前10條

1 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學;2011年

2 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學;2010年

3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學;2011年

4 劉佐達;分布協(xié)作式搜索引擎模型及算法研究[D];清華大學;2011年

5 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學;2011年

6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學;2012年

7 王昤璞;基于用戶體驗的互聯(lián)網(wǎng)搜索引擎醫(yī)學信息檢索可用性評估研究[D];吉林大學;2010年

8 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學技術(shù)大學;2011年

9 白玉琪;空間信息搜索引擎研究[D];中國科學院研究生院(遙感應用研究所);2003年

10 費巍;搜索引擎檢索功能的性能評價研究[D];武漢大學;2010年

相關(guān)碩士學位論文 前10條

1 梁萍;搜索引擎中網(wǎng)絡爬蟲及結(jié)果聚類的研究與實現(xiàn)[D];中國科學技術(shù)大學;2011年

2 夏亮;主題搜索引擎網(wǎng)絡爬蟲搜索策略的研究與實現(xiàn)[D];北京化工大學;2010年

3 龔勇;搜索引擎中網(wǎng)絡爬蟲的研究[D];武漢理工大學;2010年

4 李春生;基于WEB信息采集的分布式網(wǎng)絡爬蟲搜索引擎的研究[D];吉林大學;2009年

5 歐建斌;基于Web挖掘與信息分類的個性化搜索引擎研究[D];暨南大學;2010年

6 徐財應;基于Lucene的搜索引擎技術(shù)的研究與改進[D];長春理工大學;2010年

7 劉妮娜;Web數(shù)據(jù)挖掘和個性化搜索引擎研究[D];浙江大學;2005年

8 蘇旋;分布式網(wǎng)絡爬蟲技術(shù)的研究與實現(xiàn)[D];哈爾濱工業(yè)大學;2006年

9 劉青偉;搜索引擎中的Pagerank排序算法研究分析[D];電子科技大學;2010年

10 薛云;Internet上元搜索引擎的研究與設(shè)計[D];太原理工大學;2003年



本文編號:2411556

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2411556.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1f22c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com