基于文本挖掘技術(shù)的論文抄襲判定研究

發(fā)布時間：2017-10-05 08:14

本文關(guān)鍵詞：基于文本挖掘技術(shù)的論文抄襲判定研究

【摘要】： 自20世紀(jì)90年代學(xué)術(shù)界提出反對學(xué)術(shù)腐敗以來,被揭露出來的學(xué)術(shù)腐敗事件最多的是學(xué)術(shù)造假,其中又以學(xué)術(shù)著作和論文的抄襲為最。解決論文抄襲的判定問題不但對于保護(hù)知識產(chǎn)權(quán)、提高學(xué)術(shù)論文質(zhì)量、凈化學(xué)術(shù)領(lǐng)域、防止學(xué)術(shù)腐敗都有很重要的意義,而且可以有效的防止一稿多投和減輕審稿人員的工作負(fù)擔(dān)。文本挖掘是數(shù)據(jù)挖掘研究面向非結(jié)構(gòu)化和半結(jié)構(gòu)化文本數(shù)據(jù)的自然延伸。人們?nèi)粘Ｉ詈凸ぷ髦薪佑|到的信息有大多數(shù)都是以文本形式出現(xiàn)的,文本挖掘是從文本或文本集中發(fā)現(xiàn)和挖掘歸納性的有效、創(chuàng)新、有用和最終可理解的模式、模型、趨勢、規(guī)則等知識的非平凡過程。文本挖掘是利用智能算法,并結(jié)合文字處理技術(shù),分析大量的非結(jié)構(gòu)化文本源(如文檔、電子表格、電子郵件、書籍、網(wǎng)頁等)抽取或標(biāo)記關(guān)鍵字概念,文字間的關(guān)系,并按照內(nèi)容對分檔進(jìn)行分類,獲取有用的知識和信息。如何將文本挖掘中的主要技術(shù)應(yīng)用于論文抄襲判定中,這是本文的主要研究目的。主要研究成果工作如下: (1)依據(jù)論文抄襲界定的法律,分析歸納了論文抄襲的類型和論文抄襲判定的主要技術(shù),包括數(shù)字指紋技術(shù)和詞頻統(tǒng)計技術(shù); (2)探討和研究了文本挖掘中涉及的信息檢索與信息抽取技術(shù)以及文本挖掘的主要方法(關(guān)聯(lián)分析、文本分類、文本聚類、自動文摘等); (3)在分析各種文本相似度計算主要方法的基礎(chǔ)上,設(shè)計和實(shí)現(xiàn)了基于文本分類的文檔相似度計算和基于段落詞頻統(tǒng)計的文檔相似度計算,在實(shí)際測試中,效果較好; (4)結(jié)合全文相似度計算、段落相似度計算和語句相似度計算的技巧,設(shè)計并實(shí)現(xiàn)一個基于文本分類思想的論文抄襲判定系統(tǒng)。
【關(guān)鍵詞】：文本挖掘 抄襲判定 文本分類 文本相似度 詞頻統(tǒng)計
【學(xué)位授予單位】：合肥工業(yè)大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2009
【分類號】：TP391.1
【目錄】：

摘要5-6
Abstract6-7
致謝7-12
第一章緒論12-16
1.1 研究背景和研究意義12
1.2 國內(nèi)外研究現(xiàn)狀12-13
1.3 本文研究內(nèi)容13-14
1.4 本文結(jié)構(gòu)14
1.5 本章小結(jié)14-16
第二章論文抄襲問題概述16-23
2.1 論文抄襲界定的法律依據(jù)16-17
2.2 論文抄襲的類型17-18
2.2.1 論點(diǎn)抄襲17
2.2.2 內(nèi)容抄襲17-18
2.3 論文抄襲判定常用方法18-22
2.3.1 論點(diǎn)抄襲的判定方法18
2.3.2 內(nèi)容抄襲的判定方法18-22
2.4 本章小結(jié)22-23
第三章文本挖掘技術(shù)概述23-37
3.1 文本挖掘概念23
3.2 信息檢索與信息抽取23-28
3.2.1 信息檢索23-26
3.2.2 信息抽取26-27
3.2.3 信息檢索和信息抽取的關(guān)系27-28
3.3 文本挖掘主要方法28-36
3.3.1 關(guān)聯(lián)分析28
3.3.2 文檔分類28-32
3.3.3 文檔聚類32-34
3.3.4 自動文摘34-36
3.4 本章小結(jié)36-37
第四章文本相似度的計算37-51
4.1 文本相似度概念37
4.2 文本相似度的主要計算方法37-44
4.2.1 基于向量空間模型的文本相似度計算37-38
4.2.2 隱性語義標(biāo)引38-40
4.2.3 基于海明距離的文本相似度計算40-41
4.2.4 基于屬性論的文本相似度計算41-43
4.2.5 基于語義理解的文本相似度計算43-44
4.3 基于文本分類的文檔相似度計算44-46
4.4 基于段落詞頻統(tǒng)計的文檔相似度計算46-48
4.5 基于段落向量空間的文檔相似度計算48-49
4.6 本章小結(jié)49-51
第五章論文抄襲判定系統(tǒng)的設(shè)計與實(shí)現(xiàn)51-57
5.1 系統(tǒng)分析51
5.2 系統(tǒng)總體框架51
5.3 系統(tǒng)主要模塊與具體算法51-53
5.4 系統(tǒng)實(shí)現(xiàn)53-55
5.5 實(shí)驗(yàn)結(jié)果及分析55-56
5.6 本章小結(jié)56-57
第六章總結(jié)與展望57-59
6.1 全文總結(jié)57
6.2 后續(xù)工作57-59
參考文獻(xiàn)59-62
攻讀碩士學(xué)位期間主要科研工作及成果62

【引證文獻(xiàn)】

中國碩士學(xué)位論文全文數(shù)據(jù)庫前3條

1 王森;基于主題樹的自上而下文本復(fù)制檢測研究[D];大連理工大學(xué);2010年

2 蔡尚輝;范例推理在智能車輛監(jiān)控數(shù)據(jù)處理系統(tǒng)中的應(yīng)用[D];河北科技大學(xué);2011年

3 楊茂;基于句子相似度的文本比對算法研究[D];電子科技大學(xué);2010年

，

本文編號：975703

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/wenshubaike/gzzj/975703.html

上一篇：運(yùn)用SMLC系統(tǒng)檢測法學(xué)類論文存在誤檢問題及對策
下一篇：兩種學(xué)術(shù)不端檢測系統(tǒng)對醫(yī)學(xué)論文檢測結(jié)果的差異性研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于文本挖掘技術(shù)的論文抄襲判定研究