應(yīng)用語義相似的海量網(wǎng)頁文本去重策略研究

發(fā)布時(shí)間：2017-06-26 06:08

本文關(guān)鍵詞：應(yīng)用語義相似的海量網(wǎng)頁文本去重策略研究，，由筆耕文化傳播整理發(fā)布。

【摘要】：互聯(lián)網(wǎng)的高速發(fā)展使得信息的獲取以及發(fā)布幾乎變的無成本,因此不免會(huì)存在著大量的近似網(wǎng)頁,這些網(wǎng)頁之間僅僅只有少量的內(nèi)容是不同的,但其要傳遞的信息主體卻是一致的.而搜索引擎在從互聯(lián)網(wǎng)上抓取數(shù)據(jù)時(shí),必須能夠準(zhǔn)確的檢測(cè)出近似網(wǎng)頁并放棄抓取.主要針對(duì)中文網(wǎng)頁,改進(jìn)了提取中文文本內(nèi)容特征及計(jì)算其權(quán)值的方法,同時(shí)結(jié)合詞語之間的語義聯(lián)系,提出利用特征之間的語義相似性生成網(wǎng)頁指紋的方法.在大規(guī)模真實(shí)網(wǎng)頁數(shù)據(jù)集上,利用分布式編程模型進(jìn)行實(shí)驗(yàn),近似網(wǎng)頁檢測(cè)的效果得到了明顯的提升,更加適用于當(dāng)今海量數(shù)據(jù)環(huán)境下.
【作者單位】：中國科學(xué)院大學(xué);中國科學(xué)院沈陽計(jì)算技術(shù)研究所;國家電網(wǎng)遼寧省電力有限公司信息通信分公司;
【關(guān)鍵詞】： 語義相似 近似檢測(cè) 信息指紋 特征提取
【基金】：安徽大學(xué)青年科研基金項(xiàng)目(KJQN1118)資助
【分類號(hào)】：TP391.1
【正文快照】： 1引言互聯(lián)網(wǎng)的快速發(fā)展導(dǎo)致網(wǎng)站的數(shù)量成倍的增加.據(jù)統(tǒng)計(jì),全球的網(wǎng)站截止2014年底已達(dá)到10億個(gè)[4],其中中國的網(wǎng)站總數(shù)量近364.7萬余個(gè)[8].網(wǎng)站的增多導(dǎo)致了數(shù)據(jù)爆炸性的增長,因此人們不得不借助搜索引擎來尋找所需的信息.在互聯(lián)網(wǎng)時(shí)代信息的復(fù)制及傳播成本極低,研究表明,在一

本文關(guān)鍵詞：應(yīng)用語義相似的海量網(wǎng)頁文本去重策略研究，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：485067

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/485067.html

上一篇：購物比價(jià)網(wǎng)站設(shè)計(jì)方法的實(shí)踐與認(rèn)知研究
下一篇：基于本體的教育資源組織及語義檢索的研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

應(yīng)用語義相似的海量網(wǎng)頁文本去重策略研究