公式相似度算法及其在論文查重中的應(yīng)用研究
本文關(guān)鍵詞:公式相似度算法及其在論文查重中的應(yīng)用研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著信息技術(shù)的發(fā)展以及互聯(lián)網(wǎng)的普及,人們獲取信息的方式越來越便利。為了更加方便、快捷地共享與交流新的學(xué)術(shù)研究成果,學(xué)術(shù)資源網(wǎng)絡(luò)化已經(jīng)成為發(fā)展趨勢,但網(wǎng)絡(luò)學(xué)術(shù)資源的共享性質(zhì)以及獲取成本的降低,使得抄襲、剽竊等不道德行為日益增多。 文本形式的數(shù)字化學(xué)術(shù)論文是網(wǎng)絡(luò)學(xué)術(shù)資源的重要組成部分,為了防止文本的非法復(fù)制與抄襲,文本復(fù)制檢測技術(shù)已成為研究熱點,給學(xué)術(shù)論文文本查重提供了方法,并且取得了很大進展,,但對圖像、圖表、公式等非文本類元素的復(fù)制檢測技術(shù)尚處于起步階段,有待進一步的研究。 本文首先闡述了復(fù)制檢測技術(shù),分析了現(xiàn)有復(fù)制檢測系統(tǒng)的處理方式。其次,分析了文本、源碼復(fù)制檢測與公式復(fù)制檢測的特點,提出一種基于二叉樹結(jié)構(gòu)的LaTeX格式數(shù)學(xué)表達式匹配算法,首先根據(jù)數(shù)學(xué)公式的LaTeX格式生成其二叉樹表示,并對樹形結(jié)構(gòu)作歸一化處理,然后先序遍歷二叉樹并對變量名作歸一化處理,最后根據(jù)對應(yīng)位相同的公式元素計算兩個公式的相似度。在此基礎(chǔ)上,提出了一種數(shù)學(xué)公式抄襲檢測算法。首先生成待檢測數(shù)學(xué)公式的二叉樹表示及結(jié)構(gòu)碼,然后在與結(jié)構(gòu)碼同名的表中查找記錄,計算相似度,最后根據(jù)閥值確定是否為抄襲。實驗結(jié)果表明,該算法準確地實現(xiàn)了數(shù)學(xué)公式的抄襲檢測,是一種較實用的算法。
【關(guān)鍵詞】:抄襲檢測 數(shù)學(xué)公式 相似度 LaTeX
【學(xué)位授予單位】:渤海大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- Abstract5-10
- 1 緒論10-14
- 1.1 研究背景與意義10
- 1.2 論文查重技術(shù)研究現(xiàn)狀10-13
- 1.2.1 論文查重技術(shù)11
- 1.2.2 國外研究現(xiàn)狀11-12
- 1.2.3 國內(nèi)研究現(xiàn)狀12-13
- 1.4 本文工作13-14
- 2 抄襲檢測技術(shù)14-19
- 2.1 程序代碼抄襲檢測技術(shù)14-15
- 2.1.1 屬性計數(shù)法14
- 2.1.2 結(jié)構(gòu)度量法14-15
- 2.2 文本抄襲檢測技術(shù)15-17
- 2.2.1 基于詞頻統(tǒng)計的方法15-16
- 2.2.2 基于數(shù)字指紋的方法16-17
- 2.2.3 基于語義相似的方法17
- 2.3 數(shù)學(xué)公式抄襲檢測17-18
- 2.3.1 數(shù)學(xué)公式的輸入格式17
- 2.3.2 相似度計算方法17-18
- 2.4 本章小結(jié)18-19
- 3 基于二叉樹結(jié)構(gòu)的數(shù)學(xué)公式匹配算法19-26
- 3.1 相似度的定義19-20
- 3.2 基于二叉樹的數(shù)學(xué)公式匹配算法20-25
- 3.2.1 二叉樹構(gòu)造20-22
- 3.2.2 歸一化處理22
- 3.2.3 數(shù)學(xué)公式匹配算法22-24
- 3.2.4 實驗結(jié)果及分析24-25
- 3.3 算法適用性分析25
- 3.4 本章小結(jié)25-26
- 4 基于結(jié)構(gòu)碼的數(shù)學(xué)公式抄襲檢測算法26-36
- 4.1 數(shù)學(xué)表達式檢索技術(shù)26-31
- 4.1.1 數(shù)學(xué)表達式的格式分類27-29
- 4.1.2 索引粒度29
- 4.1.3 索引方法29-31
- 4.2 基于二叉樹的數(shù)學(xué)公式抄襲檢測算法31-34
- 4.2.1 結(jié)構(gòu)碼生成31-32
- 4.2.2 公式檢測數(shù)據(jù)庫設(shè)計32
- 4.2.3 數(shù)學(xué)公式檢測算法32-34
- 4.3 算法適用性分析34-35
- 4.4 本章小結(jié)35-36
- 5 數(shù)學(xué)表達式復(fù)制檢測原型系統(tǒng)36-40
- 5.1 系統(tǒng)總體分析與設(shè)計36-37
- 5.2 系統(tǒng)功能模塊分析與設(shè)計37-39
- 5.2.1 預(yù)處理模塊功能分析與設(shè)計37
- 5.2.2 檢索模塊功能分析與設(shè)計37-38
- 5.2.3 相似度計算模塊分析與設(shè)計38-39
- 5.3 本章小結(jié)39-40
- 6 論文總結(jié)與展望40-41
- 參考文獻41-44
- 發(fā)表論文情況44-45
- 致謝45-46
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 史彥軍,滕弘飛,金博;抄襲論文識別研究與進展[J];大連理工大學(xué)學(xué)報;2005年01期
2 金博;史彥軍;滕弘飛;;基于篇章結(jié)構(gòu)相似度的復(fù)制檢測算法[J];大連理工大學(xué)學(xué)報;2007年01期
3 張成昱 ,竇天芳 ,吳濱 ,高競妹;數(shù)學(xué)公式的采集、組織和檢索[J];大學(xué)圖書館學(xué)報;2005年05期
4 郭育生;黃磊;劉昌平;;基于多候選的數(shù)學(xué)公式識別系統(tǒng)[J];計算機研究與發(fā)展;2007年07期
5 秦玉平;李祥納;王秀坤;王春立;;基于超球支持向量機的類增量學(xué)習(xí)算法研究[J];計算機科學(xué);2008年08期
6 陳康,許婷,戴文俊,武港山;基于Web的全文搜索引擎的設(shè)計與實現(xiàn)[J];計算機工程;2005年20期
7 王成;劉金剛;;一種改進的字符串匹配算法[J];計算機工程;2006年02期
8 秦玉平;冷強奎;王秀坤;王春立;;基于局部詞頻指紋的論文抄襲檢測算法[J];計算機工程;2011年06期
9 宋擒豹,楊向榮,沈鈞毅,齊勇;數(shù)字商品非法復(fù)制的檢測算法[J];計算機學(xué)報;2002年11期
10 靳簡明;江紅英;王慶人;;數(shù)學(xué)公式識別系統(tǒng):MatheReader[J];計算機學(xué)報;2006年11期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 劉志偉;數(shù)學(xué)搜索引擎研究[D];蘭州大學(xué);2011年
2 盧托;科技文檔中數(shù)學(xué)公式的描述與檢索[D];華中科技大學(xué);2007年
3 劉東閣;基于MathML的公式檢索系統(tǒng)的設(shè)計與實現(xiàn)[D];東北大學(xué);2009年
本文關(guān)鍵詞:公式相似度算法及其在論文查重中的應(yīng)用研究,由筆耕文化傳播整理發(fā)布。
本文編號:410586
本文鏈接:http://sikaile.net/wenshubaike/gzzj/410586.html