天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

Rabin指紋去重算法在搜索引擎中的應(yīng)用

發(fā)布時(shí)間:2018-03-04 18:34

  本文選題:Rabin指紋方法 切入點(diǎn):搜索引擎 出處:《計(jì)算機(jī)系統(tǒng)應(yīng)用》2015年07期  論文類型:期刊論文


【摘要】:針對(duì)搜索引擎在海量數(shù)據(jù)中搜索速度慢,占用存儲(chǔ)空間大,對(duì)重復(fù)的網(wǎng)頁去重性差的現(xiàn)狀,提出一種基于Rabin指紋算法的去重方法,不僅對(duì)搜索到的URL地址進(jìn)行去重,還對(duì)非重復(fù)URL地址對(duì)應(yīng)的網(wǎng)頁內(nèi)容進(jìn)行相似和相同的去重,試驗(yàn)表明能有效地提高搜索速度、節(jié)省存儲(chǔ)空間,增強(qiáng)搜索的精度.
[Abstract]:In view of the slow search speed and large storage space of search engines in mass data, and the poor deduplication of repeated web pages, a new method based on Rabin fingerprint algorithm is proposed, which not only removes the URL addresses that are searched. The results show that the search speed can be improved effectively, the storage space can be saved, and the search accuracy can be enhanced.
【作者單位】: 四川文理學(xué)院計(jì)算機(jī)學(xué)院;
【基金】:國家檔案局項(xiàng)目(2014-X-65)
【分類號(hào)】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前3條

1 葉允明,于水,馬范援,宋暉,張嶺;分布式Web Crawler的研究:結(jié)構(gòu)、算法和策略[J];電子學(xué)報(bào);2002年S1期

2 梁正友;張林才;;基于Rabin指紋方法的URL去重算法[J];計(jì)算機(jī)應(yīng)用;2008年S2期

3 孫有軍;張大興;;海量圖片文件存儲(chǔ)去重技術(shù)研究[J];計(jì)算機(jī)應(yīng)用與軟件;2014年04期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張麗敏;;垂直搜索引擎的主題爬蟲策略[J];電腦知識(shí)與技術(shù);2010年15期

2 劉世濤;;簡析搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略[J];阜陽師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2006年03期

3 許笑;張偉哲;張宏莉;方濱興;;廣域網(wǎng)分布式爬蟲中的Agent協(xié)同與Web劃分研究[J];高技術(shù)通訊;2010年03期

4 張洪斌;危勝軍;;基于超圖的并行信息采集系統(tǒng)任務(wù)劃分方法[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年01期

5 謝垂益;鐘紅君;;Rabin指紋算法在重復(fù)數(shù)據(jù)檢測中的應(yīng)用研究[J];電腦知識(shí)與技術(shù);2013年21期

6 張皓;王玉龍;;一種網(wǎng)站分析系統(tǒng)的設(shè)計(jì)方案[J];電信網(wǎng)技術(shù);2013年10期

7 孟祥乾;葉允明;鄧斌;;基于流水線負(fù)載平衡模型的并行爬蟲研究[J];計(jì)算機(jī)工程;2009年02期

8 白鶴;湯迪斌;王勁林;;分布式多主題網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2009年19期

9 張林才;梁正友;王紅霞;;基于ProActive的P-Spider1.0改進(jìn)[J];計(jì)算機(jī)工程;2010年17期

10 梁正友;張林才;;基于Rabin指紋方法的URL去重算法[J];計(jì)算機(jī)應(yīng)用;2008年S2期

相關(guān)會(huì)議論文 前3條

1 樸星海;趙鐵軍;鄭德權(quán);張迪;;面向Blog的網(wǎng)絡(luò)爬行器設(shè)計(jì)與實(shí)現(xiàn)[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

2 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識(shí)庫建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

3 黃初指;;網(wǎng)絡(luò)爬蟲在電力廣域網(wǎng)信息收集中的應(yīng)用[A];2008電力行業(yè)信息化年會(huì)會(huì)議論文集[C];2008年

相關(guān)博士學(xué)位論文 前3條

1 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測系統(tǒng)研究[D];北京郵電大學(xué);2011年

2 王輝;基于質(zhì)心具有增量性質(zhì)的主題爬行[D];吉林大學(xué);2007年

3 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學(xué);2006年

相關(guān)碩士學(xué)位論文 前10條

1 趙翔;網(wǎng)站信息按需采集系統(tǒng)中爬蟲子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2011年

2 魏一帆;分布式信息采集系統(tǒng)Web劃分技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年

3 王磊;基于Web數(shù)據(jù)挖掘的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D];解放軍信息工程大學(xué);2010年

4 孫守興;基于可擴(kuò)展哈希算法的并行爬蟲動(dòng)態(tài)負(fù)載均衡實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2010年

5 楊頌;面向電子商務(wù)網(wǎng)站的增量爬蟲設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2010年

6 吳東華;Web信息獲取技術(shù)研究[D];南京理工大學(xué);2004年

7 劉賓;基于移動(dòng)Agent的主題搜索引擎研究[D];上海海事大學(xué);2006年

8 趙欽;并行爬行器的架構(gòu)與優(yōu)化策略[D];北京工業(yè)大學(xué);2006年

9 徐金雷;專業(yè)搜索引擎的排序算法研究[D];南京師范大學(xué);2007年

10 張維維;搜索引擎的研究與實(shí)現(xiàn)[D];長春理工大學(xué);2008年

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前4條

1 葉允明,于水,馬范援,宋暉,張嶺;分布式Web Crawler的研究:結(jié)構(gòu)、算法和策略[J];電子學(xué)報(bào);2002年S1期

2 楊天奇;周曄;;一種增量式并行Web信息采集方法[J];計(jì)算機(jī)工程;2006年20期

3 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計(jì)算機(jī)應(yīng)用;2005年09期

4 馬成前;毛許光;;網(wǎng)頁查重算法Shingling和Simhash研究[J];計(jì)算機(jī)與數(shù)字工程;2009年01期

【相似文獻(xiàn)】

相關(guān)期刊論文 前2條

1 梁正友;張林才;;基于Rabin指紋方法的URL去重算法[J];計(jì)算機(jī)應(yīng)用;2008年S2期

2 ;[J];;年期

,

本文編號(hào):1566832

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1566832.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶71696***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com