天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

應(yīng)用語義相似的海量網(wǎng)頁文本去重策略研究

發(fā)布時(shí)間:2017-06-26 06:08

  本文關(guān)鍵詞:應(yīng)用語義相似的海量網(wǎng)頁文本去重策略研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:互聯(lián)網(wǎng)的高速發(fā)展使得信息的獲取以及發(fā)布幾乎變的無成本,因此不免會(huì)存在著大量的近似網(wǎng)頁,這些網(wǎng)頁之間僅僅只有少量的內(nèi)容是不同的,但其要傳遞的信息主體卻是一致的.而搜索引擎在從互聯(lián)網(wǎng)上抓取數(shù)據(jù)時(shí),必須能夠準(zhǔn)確的檢測(cè)出近似網(wǎng)頁并放棄抓取.主要針對(duì)中文網(wǎng)頁,改進(jìn)了提取中文文本內(nèi)容特征及計(jì)算其權(quán)值的方法,同時(shí)結(jié)合詞語之間的語義聯(lián)系,提出利用特征之間的語義相似性生成網(wǎng)頁指紋的方法.在大規(guī)模真實(shí)網(wǎng)頁數(shù)據(jù)集上,利用分布式編程模型進(jìn)行實(shí)驗(yàn),近似網(wǎng)頁檢測(cè)的效果得到了明顯的提升,更加適用于當(dāng)今海量數(shù)據(jù)環(huán)境下.
【作者單位】: 中國科學(xué)院大學(xué);中國科學(xué)院沈陽計(jì)算技術(shù)研究所;國家電網(wǎng)遼寧省電力有限公司信息通信分公司;
【關(guān)鍵詞】語義相似 近似檢測(cè) 信息指紋 特征提取
【基金】:安徽大學(xué)青年科研基金項(xiàng)目(KJQN1118)資助
【分類號(hào)】:TP391.1
【正文快照】: 1引言互聯(lián)網(wǎng)的快速發(fā)展導(dǎo)致網(wǎng)站的數(shù)量成倍的增加.據(jù)統(tǒng)計(jì),全球的網(wǎng)站截止2014年底已達(dá)到10億個(gè)[4],其中中國的網(wǎng)站總數(shù)量近364.7萬余個(gè)[8].網(wǎng)站的增多導(dǎo)致了數(shù)據(jù)爆炸性的增長,因此人們不得不借助搜索引擎來尋找所需的信息.在互聯(lián)網(wǎng)時(shí)代信息的復(fù)制及傳播成本極低,研究表明,在一

  本文關(guān)鍵詞:應(yīng)用語義相似的海量網(wǎng)頁文本去重策略研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):485067

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/485067.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5ba6a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com