基于概念和語義網(wǎng)絡(luò)的近似網(wǎng)頁檢測算法

發(fā)布時間：2018-03-29 01:35

本文選題：網(wǎng)頁去重算法　切入點：小世界網(wǎng)絡(luò)　出處：《軟件學(xué)報》2011年08期

【摘要】：在搜索引擎的檢索結(jié)果頁面中,用戶經(jīng)常會得到內(nèi)容近似的網(wǎng)頁.為了提高檢索整體性能和用戶滿意度,提出了一種基于概念和語義網(wǎng)絡(luò)的近似網(wǎng)頁檢測算法DWDCS(near-duplicate webpages detection based on concept and semantic network).改進(jìn)了經(jīng)典基于小世界理論提取文檔關(guān)鍵詞的算法.首先對文檔概念進(jìn)行抽取和歸并,不但解決了"表達(dá)差異"問題,而且有效降低了語義網(wǎng)絡(luò)的復(fù)雜度;從網(wǎng)絡(luò)結(jié)構(gòu)的幾何特征對其進(jìn)行分析,同時利用網(wǎng)頁的語法和結(jié)構(gòu)信息構(gòu)建特征向量進(jìn)行文檔相似度的計算,由于無須使用語料庫,使得算法天生具有領(lǐng)域無關(guān)的優(yōu)點.實驗結(jié)果表明,與經(jīng)典的網(wǎng)頁去重算法(I-Match)和單純依賴詞匯共現(xiàn)小世界模型的算法相比,DWDCS具有很好的抵抗噪聲的能力,在大規(guī)模實驗中獲得了準(zhǔn)確率90%和召回率85%的良好測試結(jié)果.良好的時空間復(fù)雜度及算法性能不依賴于語料庫的優(yōu)點,使其在大規(guī)模網(wǎng)頁去重實際應(yīng)用中獲得了良好的效果.
[Abstract]:In search engine search results pages, users often get pages with similar content. In order to improve the overall performance and user satisfaction, In this paper, an approximate web page detection algorithm based on concept and semantic network, DWDCS(near-duplicate webpages detection based on concept and semantic network, is proposed. The classical algorithm for extracting document keywords based on small-world theory is improved. Firstly, the concept of document is extracted and merged. It not only solves the problem of "expression difference", but also reduces the complexity of semantic network effectively. At the same time, using the syntax and structure information of web pages to construct feature vectors to calculate document similarity, the algorithm has the advantage of domain independence because it does not need to use corpus. The experimental results show that, Compared with the classical webpage de-duplication algorithm (I-Match) and the algorithm based on lexical co-occurrence small-world model, DWDCS has a good ability to resist noise. A good test result of 90% accuracy and 85% recall rate is obtained in the large-scale experiment. The good time space complexity and the performance of the algorithm are independent of the advantages of the corpus, which makes it obtain good results in the practical application of the large-scale web page de-emphasis.
【作者單位】：北京理工大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院;北京航天飛行控制中心;
【基金】：國家自然科學(xué)基金(60803050,60705022) 新世紀(jì)優(yōu)秀人才計劃(NCET-06-0161)
【分類號】：TP393.092

【參考文獻(xiàn)】

相關(guān)期刊論文前2條

1 吳平博,陳群秀,馬亮;基于特征串的大規(guī)模中文網(wǎng)頁快速去重算法研究[J];中文信息學(xué)報;2003年02期

2 鮑軍鵬,沈鈞毅,劉曉東,宋擒豹;自然語言文檔復(fù)制檢測研究綜述[J];軟件學(xué)報;2003年10期

【共引文獻(xiàn)】

相關(guān)期刊論文前10條

1 金博;史彥軍;滕弘飛;;基于篇章結(jié)構(gòu)相似度的復(fù)制檢測算法[J];大連理工大學(xué)學(xué)報;2007年01期

2 王雯;廖祥忠;;數(shù)字圖像作品抄襲鑒定研究[J];大連理工大學(xué)學(xué)報;2011年S1期

3 劉雙明;彭新光;;源程序與文檔復(fù)制檢測系統(tǒng)的研究[J];電腦知識與技術(shù);2010年13期

4 孔素然;;基于散列思想的網(wǎng)頁去重系統(tǒng)[J];硅谷;2010年22期

5 申文明;黃家裕;劉連芳;;平行語料庫的相似語句去重算法[J];廣西科學(xué)院學(xué)報;2009年04期

6 周小平;黃家裕;劉連芳;梁一平;申文明;;基于網(wǎng)頁正文主題和摘要的網(wǎng)頁去重算法[J];廣西科學(xué)院學(xué)報;2009年04期

7 劉韜;李向軍;邱桃榮;龔科華;郭傳俊;;一種基于相容粒計算模型的文章相似度計算方法[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2010年03期

8 趙俊杰;謝飛;;基于段落相似度的論文抄襲判定[J];電腦與電信;2008年08期

9 盧小康;王小華;王榮波;;一種句子級別的中文文本復(fù)制檢測方法[J];杭州電子科技大學(xué)學(xué)報;2009年06期

10 羅永蓮;張永奎;;基于發(fā)布時間的新聞網(wǎng)頁去重方法研究[J];計算機(jī)工程與應(yīng)用;2007年06期

相關(guān)會議論文前3條

1 曹玉娟;牛振東;彭學(xué)平;江鵬;;一個基于特征向量的近似網(wǎng)頁去重算法[A];中國索引學(xué)會第三次全國會員代表大會暨學(xué)術(shù)論壇論文集[C];2008年

2 連浩;劉悅;許洪波;王斌;程學(xué)旗;;一種改進(jìn)的基于內(nèi)容的快速網(wǎng)頁查重算法[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議（JSCL-2005）論文集[C];2005年

3 沙蕓;周俊武;張國英;;基于主題關(guān)鍵詞的新聞去重算法[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集（上）[C];2008年

相關(guān)博士學(xué)位論文前7條

1 董建設(shè);協(xié)作式垃圾郵件過濾關(guān)鍵技術(shù)研究[D];蘭州理工大學(xué);2009年

2 侯鋒;中文報業(yè)出版的文字質(zhì)量智能輔助控制技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2010年

3 金博;面向?qū)＠土悴考脑O(shè)計知識檢索方法[D];大連理工大學(xué);2009年

4 李旭;基于指紋和語義知識表示的中文文檔復(fù)制檢測方法[D];燕山大學(xué);2010年

5 于寶琴;成套電器企業(yè)異構(gòu)數(shù)據(jù)整合及其物流系統(tǒng)的研究[D];天津大學(xué);2006年

6 龔才春;短文本語言計算的關(guān)鍵技術(shù)研究[D];中國科學(xué)院研究生院（計算技術(shù)研究所）;2008年

7 李衛(wèi);領(lǐng)域知識的獲取[D];北京郵電大學(xué);2008年

相關(guān)碩士學(xué)位論文前10條

1 盧小康;中文文本復(fù)制檢測技術(shù)研究[D];杭州電子科技大學(xué);2009年

2 朱鳳芳;搜索引擎中網(wǎng)頁凈化與消重技術(shù)研究[D];東北大學(xué);2008年

3 徐德玉;中文文檔內(nèi)容相似度檢測方法研究[D];長春工業(yè)大學(xué);2010年

4 李繼中;基于相似性判定的密碼算法識別技術(shù)研究[D];解放軍信息工程大學(xué);2009年

5 陳林;基于指令詞的軟件特征技術(shù)研究[D];解放軍信息工程大學(xué);2010年

6 梁浩;網(wǎng)絡(luò)新聞相似度檢測系統(tǒng)[D];吉林大學(xué);2011年

7 顏振祥;互聯(lián)網(wǎng)雙語資源挖掘關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2010年

8 馬U，

本文編號：1678999

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1678999.html

上一篇：逆向思維與線性思維在工具書檢索中的應(yīng)用
下一篇：領(lǐng)域Web數(shù)據(jù)庫查詢接口的自動發(fā)現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于概念和語義網(wǎng)絡(luò)的近似網(wǎng)頁檢測算法