基于漢字部件直方圖的文本復(fù)制檢測技術(shù)研究
本文關(guān)鍵詞:基于漢字部件直方圖的文本復(fù)制檢測技術(shù)研究
更多相關(guān)文章: 中文文本 相似度 復(fù)制檢測 部件直方圖 直方圖距離
【摘要】:文本復(fù)制檢測技術(shù)是文本相似度計算的一項基礎(chǔ)應(yīng)用,在網(wǎng)頁去重、知識產(chǎn)權(quán)保護(hù)、搜索引擎、數(shù)字圖書館等方面發(fā)揮著重要作用。但是針對中文文本的復(fù)制檢測技術(shù)起步較晚,且由于中文文本的精深復(fù)雜,中文文本復(fù)制檢測技術(shù)更難于實現(xiàn)。因此,該領(lǐng)域值得我們進(jìn)一步開展研究和探討。本文首先對該領(lǐng)域內(nèi)基于字符匹配和基于詞頻統(tǒng)計的兩類復(fù)制檢測算法做了較為詳細(xì)的論述,歸納和總結(jié)了現(xiàn)有算法各自的特點和不足。針對其文本特征表示向量高維且稀疏、相似度計算復(fù)雜、資源利用率低等問題,本文提出了一種新的基于漢字部件直方圖的文本復(fù)制檢測模型。論文的主要工作如下:1)提出了以漢字部件直方圖作為文本指紋特征的提取方法。首先根據(jù)漢字的結(jié)構(gòu)特征和漢字的數(shù)學(xué)表達(dá)式理論將整個文本中出現(xiàn)的所有漢字進(jìn)行部件拆分,接著分別對每種漢字部件進(jìn)行計數(shù)統(tǒng)計,通過概率計算公式得到每種漢字部件在該文本中出現(xiàn)的概率,然后以漢字的部件編號為橫坐標(biāo),以部件概率為縱坐標(biāo),做出統(tǒng)計圖,稱為文本漢字部件直方圖,最終以此漢字部件直方圖作為該文本的指紋特征標(biāo)識。2)提出了通過計算部件直方圖間的距離匹配值作為待檢測文本之間復(fù)制檢測結(jié)果的判斷標(biāo)準(zhǔn)。本文分別設(shè)計了4種距離對比標(biāo)準(zhǔn)進(jìn)行文本部件直方圖間的距離匹配值運算,并通過實驗分析最終選取了最合適的巴氏距離作為衡量直方圖相似度距離的計算公式。3)采集了一定規(guī)模的數(shù)據(jù)源進(jìn)行算法的模擬和實現(xiàn)。本文通過搜集400個詞條文檔作為數(shù)據(jù)源開展實驗,實驗結(jié)果表明基于漢字部件直方圖的文本復(fù)制檢測算法具有較好的查準(zhǔn)率、召回率和F1值,同時在與基于余弦定理和基于Jaccard系數(shù)的復(fù)制檢測方法對比實驗中也進(jìn)一步驗證,新的復(fù)制檢測方法不僅在時間復(fù)雜度和空間復(fù)雜度方面具有優(yōu)勢,在綜合評價指標(biāo)F1值上也具有可取性。
【關(guān)鍵詞】:中文文本 相似度 復(fù)制檢測 部件直方圖 直方圖距離
【學(xué)位授予單位】:中南林業(yè)科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 1 緒論9-16
- 1.1 論文的研究背景和意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-13
- 1.2.1 國內(nèi)外研究現(xiàn)狀10-12
- 1.2.2 現(xiàn)行研究存在的問題12-13
- 1.3 研究內(nèi)容和章節(jié)安排13-16
- 1.3.1 論文的研究內(nèi)容13
- 1.3.2 論文的章節(jié)安排13-16
- 2 復(fù)制檢測技術(shù)概述16-30
- 2.1 復(fù)制檢測的基本含義16-20
- 2.1.1 文本相似度檢測16-17
- 2.1.2 復(fù)制檢測17-18
- 2.1.3 復(fù)制檢測算法的性質(zhì)18-19
- 2.1.4 復(fù)制檢測技術(shù)的應(yīng)用19-20
- 2.2 現(xiàn)有文本復(fù)制檢測算法20-29
- 2.2.1 文本復(fù)制檢測算法的分類20-21
- 2.2.2 基于字符串比較的方法21-24
- 2.2.3 基于詞頻統(tǒng)計的方法24-29
- 2.3 本章小結(jié)29-30
- 3 基于漢字部件直方圖的文本復(fù)制檢測模型30-38
- 3.1 漢字的基本知識30-33
- 3.1.1 相關(guān)理論30-31
- 3.1.2 漢字的數(shù)學(xué)表達(dá)式理論31-33
- 3.2 漢字部件直方圖的構(gòu)造方法33-36
- 3.2.1 部件頻次統(tǒng)計方法33-34
- 3.2.2 部件直方圖的相關(guān)概念34-36
- 3.2.3 部件直方圖的性質(zhì)36
- 3.3 部件直方圖的距離計算36-37
- 3.4 本章小結(jié)37-38
- 4 算法描述和分析38-44
- 4.1 算法描述38-42
- 4.2 算法分析42-43
- 4.2.1 時間復(fù)雜度分析42
- 4.2.2 空間復(fù)雜度分析42-43
- 4.3 本章小結(jié)43-44
- 5 實驗研究與對比44-50
- 5.1 實驗準(zhǔn)備44-45
- 5.2 實驗結(jié)果與分析45-49
- 5.2.1 參數(shù)分析46-47
- 5.2.2 對比實驗分析47-49
- 5.3 本章小結(jié)49-50
- 6 總結(jié)與展望50-53
- 6.1 總結(jié)50
- 6.2 展望50-53
- 參考文獻(xiàn)53-60
- 附錄 攻讀學(xué)位期間的主要學(xué)術(shù)成果60-61
- 致謝61
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 萬其明;汪閩;張星月;蔣圣;謝玉林;;基于五叉樹分解與多特征直方圖匹配的高分辨遙感圖像檢索[J];地球信息科學(xué)學(xué)報;2010年02期
2 翟東海;CUI Jing-jing;NIE Hong-yu;DU Jia;;New event detection based on sorted subtopic matching algorithm[J];Journal of Chongqing University(English Edition);2013年04期
3 李飛;朱科軍;趙京偉;王靚;劉英杰;;BESIII在線直方圖軟件的設(shè)計與實現(xiàn)[J];核電子學(xué)與探測技術(shù);2007年03期
4 孫星明,殷建平,陳火旺,吳泉源,景新海;漢字的數(shù)學(xué)表達(dá)式研究[J];計算機研究與發(fā)展;2002年06期
5 田涌濤,李霞,王有慶,李從心;基于采樣的直方圖生成方法[J];計算機工程;2002年12期
6 林進(jìn),張兆慶,祝明發(fā);基于SIMD機器的優(yōu)化數(shù)據(jù)傳輸?shù)牟⑿醒h(huán)分割[J];計算機學(xué)報;1998年07期
7 黃承慧;印鑒;侯f ;;一種結(jié)合詞項語義信息和TF-IDF方法的文本相似度量方法[J];計算機學(xué)報;2011年05期
8 鄒杜;陳育青;張凌;;基于語義匹配的抄襲檢測方法(英文)[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2013年07期
9 霍亞松;張錕;;非重疊低維度梯度方向直方圖[J];模式識別與人工智能;2014年03期
10 楊航;徐望明;程果;;基于內(nèi)容的圖像近復(fù)制檢測系統(tǒng)設(shè)計[J];信息技術(shù);2015年01期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 孫德才;基于q-gram過濾的近似串匹配技術(shù)研究[D];湖南大學(xué);2012年
2 袁鑫攀;基于minwise哈希的文檔復(fù)制檢測的研究及應(yīng)用[D];中南大學(xué);2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 宋杰;改進(jìn)的基于串匹配的中文文檔復(fù)制檢測方法研究[D];湖南大學(xué);2012年
,本文編號:1018531
本文鏈接:http://sikaile.net/falvlunwen/zhishichanquanfa/1018531.html