基于漢字部件直方圖的文本復制檢測技術研究
本文關鍵詞:基于漢字部件直方圖的文本復制檢測技術研究
更多相關文章: 中文文本 相似度 復制檢測 部件直方圖 直方圖距離
【摘要】:文本復制檢測技術是文本相似度計算的一項基礎應用,在網(wǎng)頁去重、知識產權保護、搜索引擎、數(shù)字圖書館等方面發(fā)揮著重要作用。但是針對中文文本的復制檢測技術起步較晚,且由于中文文本的精深復雜,中文文本復制檢測技術更難于實現(xiàn)。因此,該領域值得我們進一步開展研究和探討。本文首先對該領域內基于字符匹配和基于詞頻統(tǒng)計的兩類復制檢測算法做了較為詳細的論述,歸納和總結了現(xiàn)有算法各自的特點和不足。針對其文本特征表示向量高維且稀疏、相似度計算復雜、資源利用率低等問題,本文提出了一種新的基于漢字部件直方圖的文本復制檢測模型。論文的主要工作如下:1)提出了以漢字部件直方圖作為文本指紋特征的提取方法。首先根據(jù)漢字的結構特征和漢字的數(shù)學表達式理論將整個文本中出現(xiàn)的所有漢字進行部件拆分,接著分別對每種漢字部件進行計數(shù)統(tǒng)計,通過概率計算公式得到每種漢字部件在該文本中出現(xiàn)的概率,然后以漢字的部件編號為橫坐標,以部件概率為縱坐標,做出統(tǒng)計圖,稱為文本漢字部件直方圖,最終以此漢字部件直方圖作為該文本的指紋特征標識。2)提出了通過計算部件直方圖間的距離匹配值作為待檢測文本之間復制檢測結果的判斷標準。本文分別設計了4種距離對比標準進行文本部件直方圖間的距離匹配值運算,并通過實驗分析最終選取了最合適的巴氏距離作為衡量直方圖相似度距離的計算公式。3)采集了一定規(guī)模的數(shù)據(jù)源進行算法的模擬和實現(xiàn)。本文通過搜集400個詞條文檔作為數(shù)據(jù)源開展實驗,實驗結果表明基于漢字部件直方圖的文本復制檢測算法具有較好的查準率、召回率和F1值,同時在與基于余弦定理和基于Jaccard系數(shù)的復制檢測方法對比實驗中也進一步驗證,新的復制檢測方法不僅在時間復雜度和空間復雜度方面具有優(yōu)勢,在綜合評價指標F1值上也具有可取性。
【關鍵詞】:中文文本 相似度 復制檢測 部件直方圖 直方圖距離
【學位授予單位】:中南林業(yè)科技大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 1 緒論9-16
- 1.1 論文的研究背景和意義9-10
- 1.2 國內外研究現(xiàn)狀10-13
- 1.2.1 國內外研究現(xiàn)狀10-12
- 1.2.2 現(xiàn)行研究存在的問題12-13
- 1.3 研究內容和章節(jié)安排13-16
- 1.3.1 論文的研究內容13
- 1.3.2 論文的章節(jié)安排13-16
- 2 復制檢測技術概述16-30
- 2.1 復制檢測的基本含義16-20
- 2.1.1 文本相似度檢測16-17
- 2.1.2 復制檢測17-18
- 2.1.3 復制檢測算法的性質18-19
- 2.1.4 復制檢測技術的應用19-20
- 2.2 現(xiàn)有文本復制檢測算法20-29
- 2.2.1 文本復制檢測算法的分類20-21
- 2.2.2 基于字符串比較的方法21-24
- 2.2.3 基于詞頻統(tǒng)計的方法24-29
- 2.3 本章小結29-30
- 3 基于漢字部件直方圖的文本復制檢測模型30-38
- 3.1 漢字的基本知識30-33
- 3.1.1 相關理論30-31
- 3.1.2 漢字的數(shù)學表達式理論31-33
- 3.2 漢字部件直方圖的構造方法33-36
- 3.2.1 部件頻次統(tǒng)計方法33-34
- 3.2.2 部件直方圖的相關概念34-36
- 3.2.3 部件直方圖的性質36
- 3.3 部件直方圖的距離計算36-37
- 3.4 本章小結37-38
- 4 算法描述和分析38-44
- 4.1 算法描述38-42
- 4.2 算法分析42-43
- 4.2.1 時間復雜度分析42
- 4.2.2 空間復雜度分析42-43
- 4.3 本章小結43-44
- 5 實驗研究與對比44-50
- 5.1 實驗準備44-45
- 5.2 實驗結果與分析45-49
- 5.2.1 參數(shù)分析46-47
- 5.2.2 對比實驗分析47-49
- 5.3 本章小結49-50
- 6 總結與展望50-53
- 6.1 總結50
- 6.2 展望50-53
- 參考文獻53-60
- 附錄 攻讀學位期間的主要學術成果60-61
- 致謝61
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 萬其明;汪閩;張星月;蔣圣;謝玉林;;基于五叉樹分解與多特征直方圖匹配的高分辨遙感圖像檢索[J];地球信息科學學報;2010年02期
2 翟東海;CUI Jing-jing;NIE Hong-yu;DU Jia;;New event detection based on sorted subtopic matching algorithm[J];Journal of Chongqing University(English Edition);2013年04期
3 李飛;朱科軍;趙京偉;王靚;劉英杰;;BESIII在線直方圖軟件的設計與實現(xiàn)[J];核電子學與探測技術;2007年03期
4 孫星明,殷建平,陳火旺,吳泉源,景新海;漢字的數(shù)學表達式研究[J];計算機研究與發(fā)展;2002年06期
5 田涌濤,李霞,王有慶,李從心;基于采樣的直方圖生成方法[J];計算機工程;2002年12期
6 林進,張兆慶,祝明發(fā);基于SIMD機器的優(yōu)化數(shù)據(jù)傳輸?shù)牟⑿醒h(huán)分割[J];計算機學報;1998年07期
7 黃承慧;印鑒;侯f ;;一種結合詞項語義信息和TF-IDF方法的文本相似度量方法[J];計算機學報;2011年05期
8 鄒杜;陳育青;張凌;;基于語義匹配的抄襲檢測方法(英文)[J];華南理工大學學報(自然科學版);2013年07期
9 霍亞松;張錕;;非重疊低維度梯度方向直方圖[J];模式識別與人工智能;2014年03期
10 楊航;徐望明;程果;;基于內容的圖像近復制檢測系統(tǒng)設計[J];信息技術;2015年01期
中國博士學位論文全文數(shù)據(jù)庫 前2條
1 孫德才;基于q-gram過濾的近似串匹配技術研究[D];湖南大學;2012年
2 袁鑫攀;基于minwise哈希的文檔復制檢測的研究及應用[D];中南大學;2012年
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 宋杰;改進的基于串匹配的中文文檔復制檢測方法研究[D];湖南大學;2012年
,本文編號:1018531
本文鏈接:http://sikaile.net/falvlunwen/zhishichanquanfa/1018531.html