基于語義結(jié)構(gòu)的學(xué)術(shù)論文復(fù)制檢測技術(shù)研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-07-27 03:15
本文關(guān)鍵詞:基于語義結(jié)構(gòu)的學(xué)術(shù)論文復(fù)制檢測技術(shù)研究與實(shí)現(xiàn)
更多相關(guān)文章: 復(fù)制檢測 論文剽竊 語義結(jié)構(gòu) 多層次決策
【摘要】: 隨著互聯(lián)網(wǎng)、數(shù)字圖書館和數(shù)字化分布式媒體的發(fā)展,海量信息以各種形態(tài)充斥著我們的日常生活。豐富的數(shù)字化資源給人們提供便利的同時(shí),也給復(fù)制抄襲行為提供了滋生的溫床。尤其是近幾年來,學(xué)術(shù)造假、論文剽竊等一系列學(xué)術(shù)不端事件屢見不鮮。為此,通過設(shè)計(jì)并實(shí)現(xiàn)有效的抄襲檢測系統(tǒng),從技術(shù)層面上防止學(xué)術(shù)抄襲、抵制學(xué)術(shù)造假具有重要的理論意義和使用價(jià)值。 基于文本的復(fù)制檢測技術(shù)是保護(hù)文本知識產(chǎn)權(quán)和提高信息檢索效率的最重要手段,而基于語義的論文復(fù)制檢測識別則是復(fù)制檢測的核心和重點(diǎn)。 在對復(fù)制檢測技術(shù)的基本原理和現(xiàn)有復(fù)制檢測系統(tǒng)的系統(tǒng)結(jié)構(gòu)與特點(diǎn)進(jìn)行分析和綜合的基礎(chǔ)上,研究并提出了一種基于語義的多層次多策略的復(fù)制檢測算法以提高復(fù)制檢測的準(zhǔn)確率和效率。具體主要研究工作和成果如下: 通過分析中文論文抄襲的現(xiàn)實(shí)情況,將論文抄襲劃分為一稿多投和普通抄襲兩種分類結(jié)構(gòu)。并針對這兩種抄襲分別采用不同的識別算法,一稿多投使用基于數(shù)字指紋的識別方法,普通抄襲使用詞頻統(tǒng)計(jì)的識別方法,提高了檢測效率和精度。 根據(jù)學(xué)術(shù)論文的特點(diǎn)以及算法設(shè)計(jì)的考慮,提出了將論文結(jié)構(gòu)化、分層提取特征項(xiàng)綜合考慮的思想,將學(xué)術(shù)論文結(jié)構(gòu)分為否決層、判斷層和識別層。在這三個(gè)層次中,每一層在識別流程中功能各異,依次遞推、層層推理以提高識別精度。 在文本預(yù)處理過程中,針對中文文本自然語言處理的特點(diǎn),建立同義詞詞表知識庫,對文本內(nèi)容進(jìn)行“重構(gòu)”,以實(shí)現(xiàn)同義詞替換,從語義層面檢測基于“替換同義詞”的抄襲現(xiàn)象。 在普通抄襲復(fù)制檢測識別的實(shí)現(xiàn)過程中,采用了多層次多策略的思想,根據(jù)識別層中的特征項(xiàng)在論文中的不同位置以及對相似度判斷的貢獻(xiàn)大小,分別設(shè)置不同的權(quán)值,從而提高了相似度計(jì)算的精確度。此外,考慮到不同研究領(lǐng)域的技術(shù)指標(biāo)有所差異,在閾值的設(shè)定策略上也沒有單一確定,而是根據(jù)不同的論文學(xué)科分類動態(tài)的設(shè)定閾值,利用多策略的方法提高識別算法的適用范圍。 實(shí)驗(yàn)結(jié)果表明,本文算法的準(zhǔn)確率和召回率都優(yōu)于現(xiàn)有的復(fù)制檢測原型系統(tǒng)。
【關(guān)鍵詞】:復(fù)制檢測 論文剽竊 語義結(jié)構(gòu) 多層次決策
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2010
【分類號】:TP391.1
【目錄】:
- 摘要4-6
- ABSTRACT6-10
- 第一章 緒論10-17
- 1.1 研究背景及意義10-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-15
- 1.2.1 復(fù)制檢測技術(shù)的分類12
- 1.2.2 國外的研究現(xiàn)狀12-14
- 1.2.3 國內(nèi)的研究現(xiàn)狀14-15
- 1.3 本課題研究內(nèi)容與本文組織結(jié)構(gòu)15-16
- 1.4 本章小結(jié)16-17
- 第二章 復(fù)制檢測技術(shù)概述17-30
- 2.1 數(shù)字指紋技術(shù)17-19
- 2.2 詞頻統(tǒng)計(jì)技術(shù)19-22
- 2.3 現(xiàn)有復(fù)制檢測原型系統(tǒng)22-28
- 2.3.1 COPS原型系統(tǒng)22-23
- 2.3.2 SCAM原型系統(tǒng)23-25
- 2.3.3 ROST系統(tǒng)25-26
- 2.3.4 AMLC系統(tǒng)26-28
- 2.4 通用的文檔復(fù)制檢測系統(tǒng)結(jié)構(gòu)28
- 2.5 復(fù)制檢測系統(tǒng)的測評指標(biāo)28-29
- 2.6 本章小結(jié)29-30
- 第三章 學(xué)術(shù)論文復(fù)制檢測系統(tǒng)的設(shè)計(jì)30-48
- 3.1 學(xué)術(shù)論文抄襲的界定與分類30-33
- 3.1.1 抄襲的相關(guān)概念30-31
- 3.1.2 抄襲的常見分類31-32
- 3.1.3 本文定義的抄襲類別32-33
- 3.2 學(xué)術(shù)論文的結(jié)構(gòu)和內(nèi)容特點(diǎn)33-36
- 3.3 學(xué)術(shù)論文復(fù)制檢測方法設(shè)計(jì)36-47
- 3.3.1 系統(tǒng)總體框架36-37
- 3.3.2 論文分層特征提取模塊37
- 3.3.3 預(yù)處理模塊37-40
- 3.3.4 學(xué)術(shù)論文復(fù)制檢測流程40-41
- 3.3.5 一稿多投識別算法41-44
- 3.3.6 普通抄襲識別算法44-47
- 3.4 本章小結(jié)47-48
- 第四章 實(shí)驗(yàn)驗(yàn)證及結(jié)果分析48-58
- 4.1 系統(tǒng)開發(fā)環(huán)境48
- 4.2 實(shí)驗(yàn)數(shù)據(jù)集的構(gòu)建48-50
- 4.2.1 測試數(shù)據(jù)集的構(gòu)建48-49
- 4.2.2 訓(xùn)練參數(shù)數(shù)據(jù)集的構(gòu)建49-50
- 4.3 實(shí)驗(yàn)結(jié)果與分析50-57
- 4.3.1 相似度閾值學(xué)習(xí)50-51
- 4.3.2 普通抄襲相似度計(jì)算權(quán)值判定51-52
- 4.3.3 對比試驗(yàn)52-56
- 4.3.4 文本片段實(shí)例56-57
- 4.4 本章小結(jié)57-58
- 第五章 總結(jié)與展望58-60
- 5.1 全文總結(jié)58-59
- 5.2 進(jìn)一步工作59-60
- 參考文獻(xiàn)60-64
- 致謝64-66
- 攻讀碩士學(xué)位期間發(fā)表的論文66
【引證文獻(xiàn)】
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 宋杰;改進(jìn)的基于串匹配的中文文檔復(fù)制檢測方法研究[D];湖南大學(xué);2012年
,本文編號:579572
本文鏈接:http://sikaile.net/wenshubaike/gzzj/579572.html
最近更新
教材專著