天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Low-IDF-SIG的句子重復(fù)檢測(cè)

發(fā)布時(shí)間:2018-02-12 20:04

  本文關(guān)鍵詞: 近似重復(fù)檢測(cè) 特征抽取 Low-IDF-SIG 出處:《中文信息學(xué)報(bào)》2011年01期  論文類型:期刊論文


【摘要】:隨著互聯(lián)網(wǎng)上數(shù)據(jù)的爆炸式增長,互聯(lián)網(wǎng)上產(chǎn)生了大量的重復(fù)數(shù)據(jù)。這些重復(fù)數(shù)據(jù)給搜索引擎、觀點(diǎn)挖掘等許多Web應(yīng)用帶來了嚴(yán)峻的問題。目前絕大部分的重復(fù)檢測(cè)的算法均著重考慮文檔級(jí)別,不能有效地檢測(cè)出兩個(gè)文檔中只有一部分互為拷貝的情況。而句子級(jí)別的重復(fù)檢測(cè)正是解決這類問題的一個(gè)必要步驟。該文提出了一種快速有效的句子級(jí)別的特征抽取方法——Low-IDF-Sig算法,算法依據(jù)選定的先行詞從句子中抽取出改進(jìn)的Shingle特征以表示句子內(nèi)容。真實(shí)語料庫上的實(shí)驗(yàn)結(jié)果證明該文提出的算法能有效地提高句子級(jí)別重復(fù)檢測(cè)任務(wù)的效率和精度。
[Abstract]:With the explosive growth of data on the Internet, there is a lot of duplicate data on the Internet. Many Web applications, such as viewpoint mining, bring serious problems. At present, most of the algorithms for duplicate detection focus on document level. Only one part of the two documents can not be detected to copy each other effectively. Sentence level repetition detection is a necessary step to solve this kind of problem. This paper proposes a fast and effective special sentence level. Low-IDF-Sig algorithm, Based on the selected antecedents, the improved Shingle feature is extracted from the sentence to represent the sentence content. The experimental results on the real corpus show that the proposed algorithm can effectively improve the efficiency and accuracy of sentence level repetition detection.
【作者單位】: 復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【基金】:國家自然科學(xué)基金資助項(xiàng)目(61073069,61003092) 國家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)資助項(xiàng)目(2009AA01A346)
【分類號(hào)】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 宋濤;劉剛;;一種基于內(nèi)容的文檔圖像檢索方法[J];鄭州大學(xué)學(xué)報(bào)(工學(xué)版);2010年01期

2 鄭輝;;基于KPCA組合核函數(shù)SVM的網(wǎng)絡(luò)危險(xiǎn)因素識(shí)別[J];信息網(wǎng)絡(luò)安全;2010年02期

3 范燕;鄭宇杰;吳小俊;楊靜宇;;對(duì)稱LDA及其在人臉識(shí)別中的應(yīng)用[J];計(jì)算機(jī)工程;2010年01期

4 牛長鋒;劉玉樹;;融合多特征的粒子濾波目標(biāo)跟蹤算法[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年01期

5 劉洞波;劉國榮;喻妙華;;基于單目視覺的機(jī)器人Monte Carlo自定位方法[J];控制與決策;2010年02期

6 崔建新;徐永紅;洪文學(xué);高海波;;基于多元數(shù)據(jù)圖表示的類別可分性研究[J];微計(jì)算機(jī)信息;2010年03期

7 雷雪梅;王大亮;田中貴秋;曾廣平;;基于深層特征抽取的日文詞義消歧系統(tǒng)[J];北京科技大學(xué)學(xué)報(bào);2010年02期

8 黃鑫;朱巧明;錢龍華;劉梅梅;;基于特征組合的中文實(shí)體關(guān)系抽取[J];微電子學(xué)與計(jì)算機(jī);2010年04期

9 劉苗苗;張永生;;文本分類技術(shù)在搜索引擎中的應(yīng)用[J];中國新技術(shù)新產(chǎn)品;2010年04期

10 衛(wèi)麗芬;李仰軍;姚學(xué)林;王雷;;細(xì)化指紋圖像中偽特征點(diǎn)的去除算法[J];機(jī)械工程與自動(dòng)化;2010年02期

相關(guān)會(huì)議論文 前10條

1 王韶卿;;基于31P磁共振波譜圖的肝臟數(shù)據(jù)分類[A];2010中華醫(yī)學(xué)會(huì)影像技術(shù)分會(huì)第十八次全國學(xué)術(shù)大會(huì)論文集[C];2010年

2 蔣利勇;盧振泰;馮前進(jìn);陳武凡;;基于投影梯度的NMF相關(guān)反饋醫(yī)學(xué)圖像檢索算法[A];廣東省生物醫(yī)學(xué)工程學(xué)會(huì)成立30周年紀(jì)念大會(huì)暨2010廣州(國際)生物醫(yī)學(xué)工程學(xué)術(shù)大會(huì)論文集[C];2010年

3 俞昊e,

本文編號(hào):1506444


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1506444.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d512e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com