基于文本挖掘技術(shù)的論文抄襲判定研究
發(fā)布時間:2017-10-05 08:14
本文關(guān)鍵詞:基于文本挖掘技術(shù)的論文抄襲判定研究
更多相關(guān)文章: 文本挖掘 抄襲判定 文本分類 文本相似度 詞頻統(tǒng)計
【摘要】: 自20世紀(jì)90年代學(xué)術(shù)界提出反對學(xué)術(shù)腐敗以來,被揭露出來的學(xué)術(shù)腐敗事件最多的是學(xué)術(shù)造假,其中又以學(xué)術(shù)著作和論文的抄襲為最。解決論文抄襲的判定問題不但對于保護(hù)知識產(chǎn)權(quán)、提高學(xué)術(shù)論文質(zhì)量、凈化學(xué)術(shù)領(lǐng)域、防止學(xué)術(shù)腐敗都有很重要的意義,而且可以有效的防止一稿多投和減輕審稿人員的工作負(fù)擔(dān)。 文本挖掘是數(shù)據(jù)挖掘研究面向非結(jié)構(gòu)化和半結(jié)構(gòu)化文本數(shù)據(jù)的自然延伸。人們?nèi)粘I詈凸ぷ髦薪佑|到的信息有大多數(shù)都是以文本形式出現(xiàn)的,文本挖掘是從文本或文本集中發(fā)現(xiàn)和挖掘歸納性的有效、創(chuàng)新、有用和最終可理解的模式、模型、趨勢、規(guī)則等知識的非平凡過程。文本挖掘是利用智能算法,并結(jié)合文字處理技術(shù),分析大量的非結(jié)構(gòu)化文本源(如文檔、電子表格、電子郵件、書籍、網(wǎng)頁等)抽取或標(biāo)記關(guān)鍵字概念,文字間的關(guān)系,并按照內(nèi)容對分檔進(jìn)行分類,獲取有用的知識和信息。 如何將文本挖掘中的主要技術(shù)應(yīng)用于論文抄襲判定中,這是本文的主要研究目的。主要研究成果工作如下: (1)依據(jù)論文抄襲界定的法律,分析歸納了論文抄襲的類型和論文抄襲判定的主要技術(shù),包括數(shù)字指紋技術(shù)和詞頻統(tǒng)計技術(shù); (2)探討和研究了文本挖掘中涉及的信息檢索與信息抽取技術(shù)以及文本挖掘的主要方法(關(guān)聯(lián)分析、文本分類、文本聚類、自動文摘等); (3)在分析各種文本相似度計算主要方法的基礎(chǔ)上,設(shè)計和實(shí)現(xiàn)了基于文本分類的文檔相似度計算和基于段落詞頻統(tǒng)計的文檔相似度計算,在實(shí)際測試中,效果較好; (4)結(jié)合全文相似度計算、段落相似度計算和語句相似度計算的技巧,設(shè)計并實(shí)現(xiàn)一個基于文本分類思想的論文抄襲判定系統(tǒng)。
【關(guān)鍵詞】:文本挖掘 抄襲判定 文本分類 文本相似度 詞頻統(tǒng)計
【學(xué)位授予單位】:合肥工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2009
【分類號】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-7
- 致謝7-12
- 第一章 緒論12-16
- 1.1 研究背景和研究意義12
- 1.2 國內(nèi)外研究現(xiàn)狀12-13
- 1.3 本文研究內(nèi)容13-14
- 1.4 本文結(jié)構(gòu)14
- 1.5 本章小結(jié)14-16
- 第二章 論文抄襲問題概述16-23
- 2.1 論文抄襲界定的法律依據(jù)16-17
- 2.2 論文抄襲的類型17-18
- 2.2.1 論點(diǎn)抄襲17
- 2.2.2 內(nèi)容抄襲17-18
- 2.3 論文抄襲判定常用方法18-22
- 2.3.1 論點(diǎn)抄襲的判定方法18
- 2.3.2 內(nèi)容抄襲的判定方法18-22
- 2.4 本章小結(jié)22-23
- 第三章 文本挖掘技術(shù)概述23-37
- 3.1 文本挖掘概念23
- 3.2 信息檢索與信息抽取23-28
- 3.2.1 信息檢索23-26
- 3.2.2 信息抽取26-27
- 3.2.3 信息檢索和信息抽取的關(guān)系27-28
- 3.3 文本挖掘主要方法28-36
- 3.3.1 關(guān)聯(lián)分析28
- 3.3.2 文檔分類28-32
- 3.3.3 文檔聚類32-34
- 3.3.4 自動文摘34-36
- 3.4 本章小結(jié)36-37
- 第四章 文本相似度的計算37-51
- 4.1 文本相似度概念37
- 4.2 文本相似度的主要計算方法37-44
- 4.2.1 基于向量空間模型的文本相似度計算37-38
- 4.2.2 隱性語義標(biāo)引38-40
- 4.2.3 基于海明距離的文本相似度計算40-41
- 4.2.4 基于屬性論的文本相似度計算41-43
- 4.2.5 基于語義理解的文本相似度計算43-44
- 4.3 基于文本分類的文檔相似度計算44-46
- 4.4 基于段落詞頻統(tǒng)計的文檔相似度計算46-48
- 4.5 基于段落向量空間的文檔相似度計算48-49
- 4.6 本章小結(jié)49-51
- 第五章 論文抄襲判定系統(tǒng)的設(shè)計與實(shí)現(xiàn)51-57
- 5.1 系統(tǒng)分析51
- 5.2 系統(tǒng)總體框架51
- 5.3 系統(tǒng)主要模塊與具體算法51-53
- 5.4 系統(tǒng)實(shí)現(xiàn)53-55
- 5.5 實(shí)驗(yàn)結(jié)果及分析55-56
- 5.6 本章小結(jié)56-57
- 第六章 總結(jié)與展望57-59
- 6.1 全文總結(jié)57
- 6.2 后續(xù)工作57-59
- 參考文獻(xiàn)59-62
- 攻讀碩士學(xué)位期間主要科研工作及成果62
【引證文獻(xiàn)】
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 王森;基于主題樹的自上而下文本復(fù)制檢測研究[D];大連理工大學(xué);2010年
2 蔡尚輝;范例推理在智能車輛監(jiān)控數(shù)據(jù)處理系統(tǒng)中的應(yīng)用[D];河北科技大學(xué);2011年
3 楊茂;基于句子相似度的文本比對算法研究[D];電子科技大學(xué);2010年
,本文編號:975703
本文鏈接:http://sikaile.net/wenshubaike/gzzj/975703.html
最近更新
教材專著