應(yīng)用語義相似的海量網(wǎng)頁文本去重策略研究
發(fā)布時間:2017-06-26 06:08
本文關(guān)鍵詞:應(yīng)用語義相似的海量網(wǎng)頁文本去重策略研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:互聯(lián)網(wǎng)的高速發(fā)展使得信息的獲取以及發(fā)布幾乎變的無成本,因此不免會存在著大量的近似網(wǎng)頁,這些網(wǎng)頁之間僅僅只有少量的內(nèi)容是不同的,但其要傳遞的信息主體卻是一致的.而搜索引擎在從互聯(lián)網(wǎng)上抓取數(shù)據(jù)時,必須能夠準確的檢測出近似網(wǎng)頁并放棄抓取.主要針對中文網(wǎng)頁,改進了提取中文文本內(nèi)容特征及計算其權(quán)值的方法,同時結(jié)合詞語之間的語義聯(lián)系,提出利用特征之間的語義相似性生成網(wǎng)頁指紋的方法.在大規(guī)模真實網(wǎng)頁數(shù)據(jù)集上,利用分布式編程模型進行實驗,近似網(wǎng)頁檢測的效果得到了明顯的提升,更加適用于當今海量數(shù)據(jù)環(huán)境下.
【作者單位】: 中國科學院大學;中國科學院沈陽計算技術(shù)研究所;國家電網(wǎng)遼寧省電力有限公司信息通信分公司;
【關(guān)鍵詞】: 語義相似 近似檢測 信息指紋 特征提取
【基金】:安徽大學青年科研基金項目(KJQN1118)資助
【分類號】:TP391.1
【正文快照】: 1引言互聯(lián)網(wǎng)的快速發(fā)展導致網(wǎng)站的數(shù)量成倍的增加.據(jù)統(tǒng)計,全球的網(wǎng)站截止2014年底已達到10億個[4],其中中國的網(wǎng)站總數(shù)量近364.7萬余個[8].網(wǎng)站的增多導致了數(shù)據(jù)爆炸性的增長,因此人們不得不借助搜索引擎來尋找所需的信息.在互聯(lián)網(wǎng)時代信息的復(fù)制及傳播成本極低,研究表明,在一
本文關(guān)鍵詞:應(yīng)用語義相似的海量網(wǎng)頁文本去重策略研究,由筆耕文化傳播整理發(fā)布。
本文編號:485067
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/485067.html
最近更新
教材專著