基于語義結(jié)構(gòu)的學(xué)術(shù)論文復(fù)制檢測技術(shù)研究與實現(xiàn)

發(fā)布時間：2017-07-27 03:15

本文關(guān)鍵詞：基于語義結(jié)構(gòu)的學(xué)術(shù)論文復(fù)制檢測技術(shù)研究與實現(xiàn)

【摘要】： 隨著互聯(lián)網(wǎng)、數(shù)字圖書館和數(shù)字化分布式媒體的發(fā)展,海量信息以各種形態(tài)充斥著我們的日常生活。豐富的數(shù)字化資源給人們提供便利的同時,也給復(fù)制抄襲行為提供了滋生的溫床。尤其是近幾年來,學(xué)術(shù)造假、論文剽竊等一系列學(xué)術(shù)不端事件屢見不鮮。為此,通過設(shè)計并實現(xiàn)有效的抄襲檢測系統(tǒng),從技術(shù)層面上防止學(xué)術(shù)抄襲、抵制學(xué)術(shù)造假具有重要的理論意義和使用價值。基于文本的復(fù)制檢測技術(shù)是保護(hù)文本知識產(chǎn)權(quán)和提高信息檢索效率的最重要手段,而基于語義的論文復(fù)制檢測識別則是復(fù)制檢測的核心和重點。在對復(fù)制檢測技術(shù)的基本原理和現(xiàn)有復(fù)制檢測系統(tǒng)的系統(tǒng)結(jié)構(gòu)與特點進(jìn)行分析和綜合的基礎(chǔ)上,研究并提出了一種基于語義的多層次多策略的復(fù)制檢測算法以提高復(fù)制檢測的準(zhǔn)確率和效率。具體主要研究工作和成果如下：通過分析中文論文抄襲的現(xiàn)實情況,將論文抄襲劃分為一稿多投和普通抄襲兩種分類結(jié)構(gòu)。并針對這兩種抄襲分別采用不同的識別算法,一稿多投使用基于數(shù)字指紋的識別方法,普通抄襲使用詞頻統(tǒng)計的識別方法,提高了檢測效率和精度。根據(jù)學(xué)術(shù)論文的特點以及算法設(shè)計的考慮,提出了將論文結(jié)構(gòu)化、分層提取特征項綜合考慮的思想,將學(xué)術(shù)論文結(jié)構(gòu)分為否決層、判斷層和識別層。在這三個層次中,每一層在識別流程中功能各異,依次遞推、層層推理以提高識別精度。在文本預(yù)處理過程中,針對中文文本自然語言處理的特點,建立同義詞詞表知識庫,對文本內(nèi)容進(jìn)行“重構(gòu)”,以實現(xiàn)同義詞替換,從語義層面檢測基于“替換同義詞”的抄襲現(xiàn)象。在普通抄襲復(fù)制檢測識別的實現(xiàn)過程中,采用了多層次多策略的思想,根據(jù)識別層中的特征項在論文中的不同位置以及對相似度判斷的貢獻(xiàn)大小,分別設(shè)置不同的權(quán)值,從而提高了相似度計算的精確度。此外,考慮到不同研究領(lǐng)域的技術(shù)指標(biāo)有所差異,在閾值的設(shè)定策略上也沒有單一確定,而是根據(jù)不同的論文學(xué)科分類動態(tài)的設(shè)定閾值,利用多策略的方法提高識別算法的適用范圍。實驗結(jié)果表明,本文算法的準(zhǔn)確率和召回率都優(yōu)于現(xiàn)有的復(fù)制檢測原型系統(tǒng)。
【關(guān)鍵詞】：復(fù)制檢測 論文剽竊 語義結(jié)構(gòu) 多層次決策
【學(xué)位授予單位】：北京郵電大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2010
【分類號】：TP391.1
【目錄】：

摘要4-6
ABSTRACT6-10
第一章緒論10-17
1.1 研究背景及意義10-12
1.2 國內(nèi)外研究現(xiàn)狀12-15
1.2.1 復(fù)制檢測技術(shù)的分類12
1.2.2 國外的研究現(xiàn)狀12-14
1.2.3 國內(nèi)的研究現(xiàn)狀14-15
1.3 本課題研究內(nèi)容與本文組織結(jié)構(gòu)15-16
1.4 本章小結(jié)16-17
第二章復(fù)制檢測技術(shù)概述17-30
2.1 數(shù)字指紋技術(shù)17-19
2.2 詞頻統(tǒng)計技術(shù)19-22
2.3 現(xiàn)有復(fù)制檢測原型系統(tǒng)22-28
2.3.1 COPS原型系統(tǒng)22-23
2.3.2 SCAM原型系統(tǒng)23-25
2.3.3 ROST系統(tǒng)25-26
2.3.4 AMLC系統(tǒng)26-28
2.4 通用的文檔復(fù)制檢測系統(tǒng)結(jié)構(gòu)28
2.5 復(fù)制檢測系統(tǒng)的測評指標(biāo)28-29
2.6 本章小結(jié)29-30
第三章學(xué)術(shù)論文復(fù)制檢測系統(tǒng)的設(shè)計30-48
3.1 學(xué)術(shù)論文抄襲的界定與分類30-33
3.1.1 抄襲的相關(guān)概念30-31
3.1.2 抄襲的常見分類31-32
3.1.3 本文定義的抄襲類別32-33
3.2 學(xué)術(shù)論文的結(jié)構(gòu)和內(nèi)容特點33-36
3.3 學(xué)術(shù)論文復(fù)制檢測方法設(shè)計36-47
3.3.1 系統(tǒng)總體框架36-37
3.3.2 論文分層特征提取模塊37
3.3.3 預(yù)處理模塊37-40
3.3.4 學(xué)術(shù)論文復(fù)制檢測流程40-41
3.3.5 一稿多投識別算法41-44
3.3.6 普通抄襲識別算法44-47
3.4 本章小結(jié)47-48
第四章實驗驗證及結(jié)果分析48-58
4.1 系統(tǒng)開發(fā)環(huán)境48
4.2 實驗數(shù)據(jù)集的構(gòu)建48-50
4.2.1 測試數(shù)據(jù)集的構(gòu)建48-49
4.2.2 訓(xùn)練參數(shù)數(shù)據(jù)集的構(gòu)建49-50
4.3 實驗結(jié)果與分析50-57
4.3.1 相似度閾值學(xué)習(xí)50-51
4.3.2 普通抄襲相似度計算權(quán)值判定51-52
4.3.3 對比試驗52-56
4.3.4 文本片段實例56-57
4.4 本章小結(jié)57-58
第五章總結(jié)與展望58-60
5.1 全文總結(jié)58-59
5.2 進(jìn)一步工作59-60
參考文獻(xiàn)60-64
致謝64-66
攻讀碩士學(xué)位期間發(fā)表的論文66

【引證文獻(xiàn)】

中國碩士學(xué)位論文全文數(shù)據(jù)庫前1條

1 宋杰;改進(jìn)的基于串匹配的中文文檔復(fù)制檢測方法研究[D];湖南大學(xué);2012年

，

本文編號：579572

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/wenshubaike/gzzj/579572.html

上一篇：第17屆世界無損檢測會議交流論文會場及時間安排
下一篇：非洲地區(qū)第四屆無損檢測會議論文題錄

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于語義結(jié)構(gòu)的學(xué)術(shù)論文復(fù)制檢測技術(shù)研究與實現(xiàn)