公式相似度算法及其在論文查重中的應(yīng)用研究

發(fā)布時(shí)間：2017-05-31 21:00

本文關(guān)鍵詞：公式相似度算法及其在論文查重中的應(yīng)用研究，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著信息技術(shù)的發(fā)展以及互聯(lián)網(wǎng)的普及，人們獲取信息的方式越來越便利。為了更加方便、快捷地共享與交流新的學(xué)術(shù)研究成果，學(xué)術(shù)資源網(wǎng)絡(luò)化已經(jīng)成為發(fā)展趨勢(shì)，但網(wǎng)絡(luò)學(xué)術(shù)資源的共享性質(zhì)以及獲取成本的降低，使得抄襲、剽竊等不道德行為日益增多。文本形式的數(shù)字化學(xué)術(shù)論文是網(wǎng)絡(luò)學(xué)術(shù)資源的重要組成部分，為了防止文本的非法復(fù)制與抄襲，文本復(fù)制檢測(cè)技術(shù)已成為研究熱點(diǎn)，給學(xué)術(shù)論文文本查重提供了方法，并且取得了很大進(jìn)展，，但對(duì)圖像、圖表、公式等非文本類元素的復(fù)制檢測(cè)技術(shù)尚處于起步階段，有待進(jìn)一步的研究。本文首先闡述了復(fù)制檢測(cè)技術(shù)，分析了現(xiàn)有復(fù)制檢測(cè)系統(tǒng)的處理方式。其次，分析了文本、源碼復(fù)制檢測(cè)與公式復(fù)制檢測(cè)的特點(diǎn)，提出一種基于二叉樹結(jié)構(gòu)的LaTeX格式數(shù)學(xué)表達(dá)式匹配算法，首先根據(jù)數(shù)學(xué)公式的LaTeX格式生成其二叉樹表示，并對(duì)樹形結(jié)構(gòu)作歸一化處理，然后先序遍歷二叉樹并對(duì)變量名作歸一化處理，最后根據(jù)對(duì)應(yīng)位相同的公式元素計(jì)算兩個(gè)公式的相似度。在此基礎(chǔ)上，提出了一種數(shù)學(xué)公式抄襲檢測(cè)算法。首先生成待檢測(cè)數(shù)學(xué)公式的二叉樹表示及結(jié)構(gòu)碼，然后在與結(jié)構(gòu)碼同名的表中查找記錄，計(jì)算相似度，最后根據(jù)閥值確定是否為抄襲。實(shí)驗(yàn)結(jié)果表明，該算法準(zhǔn)確地實(shí)現(xiàn)了數(shù)學(xué)公式的抄襲檢測(cè)，是一種較實(shí)用的算法。
【關(guān)鍵詞】：抄襲檢測(cè) 數(shù)學(xué)公式 相似度 LaTeX
【學(xué)位授予單位】：渤海大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2013
【分類號(hào)】：TP391.1
【目錄】：

摘要4-5
Abstract5-10
1 緒論10-14
1.1 研究背景與意義10
1.2 論文查重技術(shù)研究現(xiàn)狀10-13
1.2.1 論文查重技術(shù)11
1.2.2 國(guó)外研究現(xiàn)狀11-12
1.2.3 國(guó)內(nèi)研究現(xiàn)狀12-13
1.4 本文工作13-14
2 抄襲檢測(cè)技術(shù)14-19
2.1 程序代碼抄襲檢測(cè)技術(shù)14-15
2.1.1 屬性計(jì)數(shù)法14
2.1.2 結(jié)構(gòu)度量法14-15
2.2 文本抄襲檢測(cè)技術(shù)15-17
2.2.1 基于詞頻統(tǒng)計(jì)的方法15-16
2.2.2 基于數(shù)字指紋的方法16-17
2.2.3 基于語義相似的方法17
2.3 數(shù)學(xué)公式抄襲檢測(cè)17-18
2.3.1 數(shù)學(xué)公式的輸入格式17
2.3.2 相似度計(jì)算方法17-18
2.4 本章小結(jié)18-19
3 基于二叉樹結(jié)構(gòu)的數(shù)學(xué)公式匹配算法19-26
3.1 相似度的定義19-20
3.2 基于二叉樹的數(shù)學(xué)公式匹配算法20-25
3.2.1 二叉樹構(gòu)造20-22
3.2.2 歸一化處理22
3.2.3 數(shù)學(xué)公式匹配算法22-24
3.2.4 實(shí)驗(yàn)結(jié)果及分析24-25
3.3 算法適用性分析25
3.4 本章小結(jié)25-26
4 基于結(jié)構(gòu)碼的數(shù)學(xué)公式抄襲檢測(cè)算法26-36
4.1 數(shù)學(xué)表達(dá)式檢索技術(shù)26-31
4.1.1 數(shù)學(xué)表達(dá)式的格式分類27-29
4.1.2 索引粒度29
4.1.3 索引方法29-31
4.2 基于二叉樹的數(shù)學(xué)公式抄襲檢測(cè)算法31-34
4.2.1 結(jié)構(gòu)碼生成31-32
4.2.2 公式檢測(cè)數(shù)據(jù)庫設(shè)計(jì)32
4.2.3 數(shù)學(xué)公式檢測(cè)算法32-34
4.3 算法適用性分析34-35
4.4 本章小結(jié)35-36
5 數(shù)學(xué)表達(dá)式復(fù)制檢測(cè)原型系統(tǒng)36-40
5.1 系統(tǒng)總體分析與設(shè)計(jì)36-37
5.2 系統(tǒng)功能模塊分析與設(shè)計(jì)37-39
5.2.1 預(yù)處理模塊功能分析與設(shè)計(jì)37
5.2.2 檢索模塊功能分析與設(shè)計(jì)37-38
5.2.3 相似度計(jì)算模塊分析與設(shè)計(jì)38-39
5.3 本章小結(jié)39-40
6 論文總結(jié)與展望40-41
參考文獻(xiàn)41-44
發(fā)表論文情況44-45
致謝45-46

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫前10條

1 史彥軍,滕弘飛,金博;抄襲論文識(shí)別研究與進(jìn)展[J];大連理工大學(xué)學(xué)報(bào);2005年01期

2 金博;史彥軍;滕弘飛;;基于篇章結(jié)構(gòu)相似度的復(fù)制檢測(cè)算法[J];大連理工大學(xué)學(xué)報(bào);2007年01期

3 張成昱 ,竇天芳 ,吳濱 ,高競(jìng)妹;數(shù)學(xué)公式的采集、組織和檢索[J];大學(xué)圖書館學(xué)報(bào);2005年05期

4 郭育生;黃磊;劉昌平;;基于多候選的數(shù)學(xué)公式識(shí)別系統(tǒng)[J];計(jì)算機(jī)研究與發(fā)展;2007年07期

5 秦玉平;李祥納;王秀坤;王春立;;基于超球支持向量機(jī)的類增量學(xué)習(xí)算法研究[J];計(jì)算機(jī)科學(xué);2008年08期

6 陳康,許婷,戴文俊,武港山;基于Web的全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2005年20期

7 王成;劉金剛;;一種改進(jìn)的字符串匹配算法[J];計(jì)算機(jī)工程;2006年02期

8 秦玉平;冷強(qiáng)奎;王秀坤;王春立;;基于局部詞頻指紋的論文抄襲檢測(cè)算法[J];計(jì)算機(jī)工程;2011年06期

9 宋擒豹,楊向榮,沈鈞毅,齊勇;數(shù)字商品非法復(fù)制的檢測(cè)算法[J];計(jì)算機(jī)學(xué)報(bào);2002年11期

10 靳簡(jiǎn)明;江紅英;王慶人;;數(shù)學(xué)公式識(shí)別系統(tǒng):MatheReader[J];計(jì)算機(jī)學(xué)報(bào);2006年11期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫前3條

1 劉志偉;數(shù)學(xué)搜索引擎研究[D];蘭州大學(xué);2011年

2 盧托;科技文檔中數(shù)學(xué)公式的描述與檢索[D];華中科技大學(xué);2007年

3 劉東閣;基于MathML的公式檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];東北大學(xué);2009年

本文關(guān)鍵詞：公式相似度算法及其在論文查重中的應(yīng)用研究，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：410586

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/wenshubaike/gzzj/410586.html

上一篇：學(xué)術(shù)不端行為的另一種表現(xiàn):對(duì)論文自我剽竊
下一篇：遏制大學(xué)生論文抄襲現(xiàn)象之我見

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

公式相似度算法及其在論文查重中的應(yīng)用研究