應(yīng)用語義相似的海量網(wǎng)頁文本去重策略研究
發(fā)布時(shí)間:2017-06-26 06:08
本文關(guān)鍵詞:應(yīng)用語義相似的海量網(wǎng)頁文本去重策略研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:互聯(lián)網(wǎng)的高速發(fā)展使得信息的獲取以及發(fā)布幾乎變的無成本,因此不免會(huì)存在著大量的近似網(wǎng)頁,這些網(wǎng)頁之間僅僅只有少量的內(nèi)容是不同的,但其要傳遞的信息主體卻是一致的.而搜索引擎在從互聯(lián)網(wǎng)上抓取數(shù)據(jù)時(shí),必須能夠準(zhǔn)確的檢測(cè)出近似網(wǎng)頁并放棄抓取.主要針對(duì)中文網(wǎng)頁,改進(jìn)了提取中文文本內(nèi)容特征及計(jì)算其權(quán)值的方法,同時(shí)結(jié)合詞語之間的語義聯(lián)系,提出利用特征之間的語義相似性生成網(wǎng)頁指紋的方法.在大規(guī)模真實(shí)網(wǎng)頁數(shù)據(jù)集上,利用分布式編程模型進(jìn)行實(shí)驗(yàn),近似網(wǎng)頁檢測(cè)的效果得到了明顯的提升,更加適用于當(dāng)今海量數(shù)據(jù)環(huán)境下.
【作者單位】: 中國科學(xué)院大學(xué);中國科學(xué)院沈陽計(jì)算技術(shù)研究所;國家電網(wǎng)遼寧省電力有限公司信息通信分公司;
【關(guān)鍵詞】: 語義相似 近似檢測(cè) 信息指紋 特征提取
【基金】:安徽大學(xué)青年科研基金項(xiàng)目(KJQN1118)資助
【分類號(hào)】:TP391.1
【正文快照】: 1引言互聯(lián)網(wǎng)的快速發(fā)展導(dǎo)致網(wǎng)站的數(shù)量成倍的增加.據(jù)統(tǒng)計(jì),全球的網(wǎng)站截止2014年底已達(dá)到10億個(gè)[4],其中中國的網(wǎng)站總數(shù)量近364.7萬余個(gè)[8].網(wǎng)站的增多導(dǎo)致了數(shù)據(jù)爆炸性的增長,因此人們不得不借助搜索引擎來尋找所需的信息.在互聯(lián)網(wǎng)時(shí)代信息的復(fù)制及傳播成本極低,研究表明,在一
本文關(guān)鍵詞:應(yīng)用語義相似的海量網(wǎng)頁文本去重策略研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):485067
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/485067.html
最近更新
教材專著