天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

一種網(wǎng)絡(luò)爬蟲系統(tǒng)中URL去重方法的研究

發(fā)布時間:2017-06-23 23:07

  本文關(guān)鍵詞:一種網(wǎng)絡(luò)爬蟲系統(tǒng)中URL去重方法的研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)中包含的信息量承爆炸式增長,如何在數(shù)量繁多的信息中找到自己需要的,是一項不小的工程,因此,網(wǎng)絡(luò)搜索引擎應(yīng)運而生,隨著搜索引擎的發(fā)展,越來越多的用戶選擇使用搜索引擎,但是搜索引擎并不完善,還需要種類繁多的網(wǎng)絡(luò)爬蟲進行輔助。盡管使用了網(wǎng)絡(luò)爬蟲進行輔助,但是為了提高搜索效率,我們需要對采取一些方式來使網(wǎng)絡(luò)爬蟲優(yōu)先選取那些符合搜索要求的網(wǎng)頁,在這種情況下,如何對網(wǎng)絡(luò)爬蟲系統(tǒng)中進行設(shè)置來提高URL去重的能力將會對網(wǎng)絡(luò)爬蟲的運行效率產(chǎn)生不小的影響。下文將就如何簡單的對URL去重進行闡述。
【作者單位】: 北京網(wǎng)博視界科技有限公司;
【關(guān)鍵詞】爬蟲系統(tǒng) URL去重
【基金】:國家科技支撐計劃項目資助(項目編號:2012BAH04F04)
【分類號】:TP393.092;TP391.3
【正文快照】: 近些年來,伴隨著科學技術(shù)的不斷進步,互聯(lián)網(wǎng)技術(shù)也不斷發(fā)展,通過互聯(lián)網(wǎng)這個平臺傳遞的信息越來越多,但是想要在這浩渺煙海的信息中找到對自己有用到的信息,只有借助于搜索引擎這一網(wǎng)絡(luò)利器,通過搜索引擎可以很容易的搜索出需要的信息,但是現(xiàn)今的搜索引擎還存在著一些缺陷,們需

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前1條

1 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計算機應(yīng)用;2005年09期

【共引文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 孫素芬;羅長壽;張峻峰;于峰;張樹亮;;農(nóng)業(yè)信息資源整合系統(tǒng)研究與應(yīng)用[J];安徽農(nóng)業(yè)科學;2007年22期

2 汪斌;張云偉;劉健;陳晶;;一種面向農(nóng)業(yè)信息主題網(wǎng)絡(luò)爬蟲的設(shè)計[J];安徽農(nóng)業(yè)科學;2009年20期

3 廉捷;劉云;;網(wǎng)絡(luò)輿情中的信息預處理與自動摘要算法[J];北京交通大學學報;2010年05期

4 任斌;毛應(yīng)爽;;基于本體的主動學習主題爬行的研究與實現(xiàn)[J];長春工程學院學報(自然科學版);2011年01期

5 武昊;廖安平;何超英;侯東陽;;基于主題相關(guān)度的地理信息Web服務(wù)爬蟲研究[J];地理與地理信息科學;2012年02期

6 張超;閆宏印;;多線程網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];電腦開發(fā)與應(yīng)用;2012年06期

7 吳聰聰;趙建立;;基于本體的主題爬蟲的研究[J];電腦知識與技術(shù);2011年03期

8 王遷;王麗娜;;對收費網(wǎng)站中作品提供鏈接的法律性質(zhì)——評“娛樂基地”訴百度案[J];電子知識產(chǎn)權(quán);2007年08期

9 胡宏濤;常佳;;基于網(wǎng)絡(luò)的信息獲取技術(shù)淺析[J];福建電腦;2006年04期

10 張軍洲;連云凱;;基于旅游博客和論壇提高旅游產(chǎn)品質(zhì)量的模型研究[J];旅游論壇;2012年02期

中國重要會議論文全文數(shù)據(jù)庫 前3條

1 王棟;陳勇;徐建良;;基于預測的BitTorrent種子評估方法[A];2008'中國信息技術(shù)與應(yīng)用學術(shù)論壇論文集(二)[C];2008年

2 劉兵;胡學鋼;;基于多鏈接分析的主題爬蟲設(shè)計實現(xiàn)[A];全國第20屆計算機技術(shù)與應(yīng)用學術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學術(shù)會議論文集(上冊)[C];2009年

3 戴玉剛;;藏文網(wǎng)頁采集技術(shù)研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學術(shù)研討會論文集[C];2007年

中國博士學位論文全文數(shù)據(jù)庫 前10條

1 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學;2011年

2 鄧斌;B2C在線評論中的客戶知識管理研究[D];電子科技大學;2010年

3 張翔;文本挖掘技術(shù)研究及其在綜合風險信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學;2011年

4 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測系統(tǒng)研究[D];北京郵電大學;2011年

5 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學;2008年

6 王英;Deep Web數(shù)據(jù)集成關(guān)鍵技術(shù)研究[D];吉林大學;2010年

7 王占一;Web文本挖掘中若干問題的研究[D];北京郵電大學;2012年

8 楊志;基于本體的語義互操作研究[D];北京郵電大學;2012年

9 王永剛;以數(shù)據(jù)為中心的在線社會網(wǎng)絡(luò)若干安全問題研究[D];北京大學;2013年

10 王明軍;基于Web的空間數(shù)據(jù)爬取與度量研究[D];武漢大學;2013年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 呂芳芳;基于查詢擴展的垂直搜索研究[D];山東科技大學;2010年

2 翁巖青;網(wǎng)頁抓取策略研究[D];哈爾濱工程大學;2010年

3 蔡宇虹;基于主題的元搜索引擎關(guān)鍵技術(shù)研究[D];哈爾濱工程大學;2010年

4 史煒;個性化搜索引擎的研究與設(shè)計[D];電子科技大學;2010年

5 丁寶瓊;網(wǎng)絡(luò)文本信息采集分析關(guān)鍵技術(shù)研究與實現(xiàn)[D];解放軍信息工程大學;2009年

6 沙有闖;基于Web文本挖掘的網(wǎng)絡(luò)口碑監(jiān)測系統(tǒng)研究[D];安徽大學;2010年

7 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學;2009年

8 張朝威;面向企業(yè)競爭情報的主題搜索研究與實現(xiàn)[D];西安電子科技大學;2010年

9 劉永信;主題搜索與Web挖掘的研究及系統(tǒng)實現(xiàn)[D];西安電子科技大學;2009年

10 姜博;基于聚焦爬蟲的web信息采集技術(shù)研究[D];北方工業(yè)大學;2011年

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 陳哲;;垂直搜索中網(wǎng)頁抓取技術(shù)的研究[J];科技信息;2009年22期

2 王舜燕;李蕾;吳兵華;;基于ID3分類算法的深度網(wǎng)絡(luò)爬蟲設(shè)計[J];現(xiàn)代圖書情報技術(shù);2008年06期

3 詹恒飛;楊岳湘;方宏;;Nutch分布式網(wǎng)絡(luò)爬蟲研究與優(yōu)化[J];計算機科學與探索;2011年01期

4 王芳;陳海建;;深入解析Web主題爬蟲的關(guān)鍵性原理[J];微型電腦應(yīng)用;2011年07期

5 劉潔清;吳京慧;;面向主題的個人實時搜索引擎的設(shè)計與實現(xiàn)[J];現(xiàn)代圖書情報技術(shù);2006年05期

6 彭軻;廖聞劍;;基于瀏覽器服務(wù)的網(wǎng)絡(luò)爬蟲[J];硅谷;2009年04期

7 王星;劉李敦;;基于移動代理(Agent)的智能爬蟲系統(tǒng)的設(shè)計和實現(xiàn)[J];科技資訊;2007年28期

8 趙靖華;;網(wǎng)絡(luò)性能指標預測法指導任務(wù)分配的分布式網(wǎng)頁信息獲取技術(shù)[J];通化師范學院學報;2008年10期

9 鄒海亮;孫莉;;可定制的聚焦網(wǎng)絡(luò)爬蟲[J];電子科技;2009年01期

10 陶榮;陳燕;;基于Lucene小型搜索引擎的研究與實現(xiàn)[J];大眾科技;2010年02期

中國重要會議論文全文數(shù)據(jù)庫 前9條

1 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[A];2010年全國通信安全學術(shù)會議論文集[C];2010年

2 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國第21屆計算機技術(shù)與應(yīng)用學術(shù)會議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學術(shù)會議論文集[C];2010年

3 鄒永斌;陳興蜀;王文賢;;一個高性能Web資源收集系統(tǒng)的設(shè)計與實現(xiàn)[A];2008'中國信息技術(shù)與應(yīng)用學術(shù)論壇論文集(二)[C];2008年

4 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評論信息的挖掘[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學學術(shù)會議論文集[C];2007年

5 劉凡平;高艷華;于炯;張偉;;基于關(guān)鍵決策方法的站內(nèi)搜索研究與實現(xiàn)[A];2010年全國開放式分布與并行計算機學術(shù)會議論文集[C];2010年

6 樸星海;趙鐵軍;鄭德權(quán);張迪;;面向Blog的網(wǎng)絡(luò)爬行器設(shè)計與實現(xiàn)[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術(shù)會議論文集[C];2006年

7 栗振江;楊洋;李麗;;智能問答系統(tǒng)[A];2011年全國通信安全學術(shù)會議論文集[C];2011年

8 安倫;周斌;賈焰;;在線Web挖掘中的計算資源動態(tài)平衡[A];全國計算機安全學術(shù)交流會論文集·第二十五卷[C];2010年

9 單大甫;周斌;黃九鳴;;基于CAAR算法的文本傾向性分析技術(shù)[A];全國計算機安全學術(shù)交流會論文集·第二十五卷[C];2010年

中國博士學位論文全文數(shù)據(jù)庫 前1條

1 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學;2011年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 趙茉莉;網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實現(xiàn)[D];電子科技大學;2013年

2 金梅;網(wǎng)絡(luò)爬蟲性能提升與功能拓展的研究與實現(xiàn)[D];吉林大學;2012年

3 芮虎;比價購物平臺中網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[D];華東理工大學;2013年

4 龔秋艷;并行網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[D];華東師范大學;2010年

5 趙鵬程;分布式書籍網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[D];西南交通大學;2014年

6 張大偉;基于動態(tài)概念圖的主題網(wǎng)絡(luò)爬蟲的設(shè)計與分析[D];遼寧科技大學;2013年

7 王毅桐;分布式網(wǎng)絡(luò)爬蟲技術(shù)研究與實現(xiàn)[D];電子科技大學;2012年

8 黃曉鵬;基于網(wǎng)絡(luò)爬蟲技術(shù)的內(nèi)容探測系統(tǒng)設(shè)計與實現(xiàn)[D];北京郵電大學;2010年

9 么士宇;基于分布式計算的網(wǎng)絡(luò)爬蟲技術(shù)研究[D];大連海事大學;2011年

10 王洪威;主題網(wǎng)絡(luò)爬蟲的分析與設(shè)計[D];北京郵電大學;2013年


  本文關(guān)鍵詞:一種網(wǎng)絡(luò)爬蟲系統(tǒng)中URL去重方法的研究,由筆耕文化傳播整理發(fā)布。

,

本文編號:476526

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/476526.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6bbd5***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com