基于概念和語義網(wǎng)絡的近似網(wǎng)頁檢測算法
本文選題:網(wǎng)頁去重算法 切入點:小世界網(wǎng)絡 出處:《軟件學報》2011年08期
【摘要】:在搜索引擎的檢索結果頁面中,用戶經(jīng)常會得到內容近似的網(wǎng)頁.為了提高檢索整體性能和用戶滿意度,提出了一種基于概念和語義網(wǎng)絡的近似網(wǎng)頁檢測算法DWDCS(near-duplicate webpages detection based on concept and semantic network).改進了經(jīng)典基于小世界理論提取文檔關鍵詞的算法.首先對文檔概念進行抽取和歸并,不但解決了"表達差異"問題,而且有效降低了語義網(wǎng)絡的復雜度;從網(wǎng)絡結構的幾何特征對其進行分析,同時利用網(wǎng)頁的語法和結構信息構建特征向量進行文檔相似度的計算,由于無須使用語料庫,使得算法天生具有領域無關的優(yōu)點.實驗結果表明,與經(jīng)典的網(wǎng)頁去重算法(I-Match)和單純依賴詞匯共現(xiàn)小世界模型的算法相比,DWDCS具有很好的抵抗噪聲的能力,在大規(guī)模實驗中獲得了準確率90%和召回率85%的良好測試結果.良好的時空間復雜度及算法性能不依賴于語料庫的優(yōu)點,使其在大規(guī)模網(wǎng)頁去重實際應用中獲得了良好的效果.
[Abstract]:In search engine search results pages, users often get pages with similar content. In order to improve the overall performance and user satisfaction, In this paper, an approximate web page detection algorithm based on concept and semantic network, DWDCS(near-duplicate webpages detection based on concept and semantic network, is proposed. The classical algorithm for extracting document keywords based on small-world theory is improved. Firstly, the concept of document is extracted and merged. It not only solves the problem of "expression difference", but also reduces the complexity of semantic network effectively. At the same time, using the syntax and structure information of web pages to construct feature vectors to calculate document similarity, the algorithm has the advantage of domain independence because it does not need to use corpus. The experimental results show that, Compared with the classical webpage de-duplication algorithm (I-Match) and the algorithm based on lexical co-occurrence small-world model, DWDCS has a good ability to resist noise. A good test result of 90% accuracy and 85% recall rate is obtained in the large-scale experiment. The good time space complexity and the performance of the algorithm are independent of the advantages of the corpus, which makes it obtain good results in the practical application of the large-scale web page de-emphasis.
【作者單位】: 北京理工大學計算機科學技術學院;北京航天飛行控制中心;
【基金】:國家自然科學基金(60803050,60705022) 新世紀優(yōu)秀人才計劃(NCET-06-0161)
【分類號】:TP393.092
【參考文獻】
相關期刊論文 前2條
1 吳平博,陳群秀,馬亮;基于特征串的大規(guī)模中文網(wǎng)頁快速去重算法研究[J];中文信息學報;2003年02期
2 鮑軍鵬,沈鈞毅,劉曉東,宋擒豹;自然語言文檔復制檢測研究綜述[J];軟件學報;2003年10期
【共引文獻】
相關期刊論文 前10條
1 金博;史彥軍;滕弘飛;;基于篇章結構相似度的復制檢測算法[J];大連理工大學學報;2007年01期
2 王雯;廖祥忠;;數(shù)字圖像作品抄襲鑒定研究[J];大連理工大學學報;2011年S1期
3 劉雙明;彭新光;;源程序與文檔復制檢測系統(tǒng)的研究[J];電腦知識與技術;2010年13期
4 孔素然;;基于散列思想的網(wǎng)頁去重系統(tǒng)[J];硅谷;2010年22期
5 申文明;黃家裕;劉連芳;;平行語料庫的相似語句去重算法[J];廣西科學院學報;2009年04期
6 周小平;黃家裕;劉連芳;梁一平;申文明;;基于網(wǎng)頁正文主題和摘要的網(wǎng)頁去重算法[J];廣西科學院學報;2009年04期
7 劉韜;李向軍;邱桃榮;龔科華;郭傳俊;;一種基于相容粒計算模型的文章相似度計算方法[J];廣西師范大學學報(自然科學版);2010年03期
8 趙俊杰;謝飛;;基于段落相似度的論文抄襲判定[J];電腦與電信;2008年08期
9 盧小康;王小華;王榮波;;一種句子級別的中文文本復制檢測方法[J];杭州電子科技大學學報;2009年06期
10 羅永蓮;張永奎;;基于發(fā)布時間的新聞網(wǎng)頁去重方法研究[J];計算機工程與應用;2007年06期
相關會議論文 前3條
1 曹玉娟;牛振東;彭學平;江鵬;;一個基于特征向量的近似網(wǎng)頁去重算法[A];中國索引學會第三次全國會員代表大會暨學術論壇論文集[C];2008年
2 連浩;劉悅;許洪波;王斌;程學旗;;一種改進的基于內容的快速網(wǎng)頁查重算法[A];全國第八屆計算語言學聯(lián)合學術會議(JSCL-2005)論文集[C];2005年
3 沙蕓;周俊武;張國英;;基于主題關鍵詞的新聞去重算法[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年
相關博士學位論文 前7條
1 董建設;協(xié)作式垃圾郵件過濾關鍵技術研究[D];蘭州理工大學;2009年
2 侯鋒;中文報業(yè)出版的文字質量智能輔助控制技術研究[D];國防科學技術大學;2010年
3 金博;面向專利和零部件的設計知識檢索方法[D];大連理工大學;2009年
4 李旭;基于指紋和語義知識表示的中文文檔復制檢測方法[D];燕山大學;2010年
5 于寶琴;成套電器企業(yè)異構數(shù)據(jù)整合及其物流系統(tǒng)的研究[D];天津大學;2006年
6 龔才春;短文本語言計算的關鍵技術研究[D];中國科學院研究生院(計算技術研究所);2008年
7 李衛(wèi);領域知識的獲取[D];北京郵電大學;2008年
相關碩士學位論文 前10條
1 盧小康;中文文本復制檢測技術研究[D];杭州電子科技大學;2009年
2 朱鳳芳;搜索引擎中網(wǎng)頁凈化與消重技術研究[D];東北大學;2008年
3 徐德玉;中文文檔內容相似度檢測方法研究[D];長春工業(yè)大學;2010年
4 李繼中;基于相似性判定的密碼算法識別技術研究[D];解放軍信息工程大學;2009年
5 陳林;基于指令詞的軟件特征技術研究[D];解放軍信息工程大學;2010年
6 梁浩;網(wǎng)絡新聞相似度檢測系統(tǒng)[D];吉林大學;2011年
7 顏振祥;互聯(lián)網(wǎng)雙語資源挖掘關鍵技術研究[D];蘇州大學;2010年
8 馬U,
本文編號:1678999
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1678999.html