天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 論文百科 > 論文查重 >

基于文本挖掘技術(shù)的論文抄襲判定研究

發(fā)布時間:2017-10-05 08:14

  本文關(guān)鍵詞:基于文本挖掘技術(shù)的論文抄襲判定研究


  更多相關(guān)文章: 文本挖掘 抄襲判定 文本分類 文本相似度 詞頻統(tǒng)計


【摘要】: 自20世紀(jì)90年代學(xué)術(shù)界提出反對學(xué)術(shù)腐敗以來,被揭露出來的學(xué)術(shù)腐敗事件最多的是學(xué)術(shù)造假,其中又以學(xué)術(shù)著作和論文的抄襲為最。解決論文抄襲的判定問題不但對于保護(hù)知識產(chǎn)權(quán)、提高學(xué)術(shù)論文質(zhì)量、凈化學(xué)術(shù)領(lǐng)域、防止學(xué)術(shù)腐敗都有很重要的意義,而且可以有效的防止一稿多投和減輕審稿人員的工作負(fù)擔(dān)。 文本挖掘是數(shù)據(jù)挖掘研究面向非結(jié)構(gòu)化和半結(jié)構(gòu)化文本數(shù)據(jù)的自然延伸。人們?nèi)粘I詈凸ぷ髦薪佑|到的信息有大多數(shù)都是以文本形式出現(xiàn)的,文本挖掘是從文本或文本集中發(fā)現(xiàn)和挖掘歸納性的有效、創(chuàng)新、有用和最終可理解的模式、模型、趨勢、規(guī)則等知識的非平凡過程。文本挖掘是利用智能算法,并結(jié)合文字處理技術(shù),分析大量的非結(jié)構(gòu)化文本源(如文檔、電子表格、電子郵件、書籍、網(wǎng)頁等)抽取或標(biāo)記關(guān)鍵字概念,文字間的關(guān)系,并按照內(nèi)容對分檔進(jìn)行分類,獲取有用的知識和信息。 如何將文本挖掘中的主要技術(shù)應(yīng)用于論文抄襲判定中,這是本文的主要研究目的。主要研究成果工作如下: (1)依據(jù)論文抄襲界定的法律,分析歸納了論文抄襲的類型和論文抄襲判定的主要技術(shù),包括數(shù)字指紋技術(shù)和詞頻統(tǒng)計技術(shù); (2)探討和研究了文本挖掘中涉及的信息檢索與信息抽取技術(shù)以及文本挖掘的主要方法(關(guān)聯(lián)分析、文本分類、文本聚類、自動文摘等); (3)在分析各種文本相似度計算主要方法的基礎(chǔ)上,設(shè)計和實(shí)現(xiàn)了基于文本分類的文檔相似度計算和基于段落詞頻統(tǒng)計的文檔相似度計算,在實(shí)際測試中,效果較好; (4)結(jié)合全文相似度計算、段落相似度計算和語句相似度計算的技巧,設(shè)計并實(shí)現(xiàn)一個基于文本分類思想的論文抄襲判定系統(tǒng)。
【關(guān)鍵詞】:文本挖掘 抄襲判定 文本分類 文本相似度 詞頻統(tǒng)計
【學(xué)位授予單位】:合肥工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2009
【分類號】:TP391.1
【目錄】:
  • 摘要5-6
  • Abstract6-7
  • 致謝7-12
  • 第一章 緒論12-16
  • 1.1 研究背景和研究意義12
  • 1.2 國內(nèi)外研究現(xiàn)狀12-13
  • 1.3 本文研究內(nèi)容13-14
  • 1.4 本文結(jié)構(gòu)14
  • 1.5 本章小結(jié)14-16
  • 第二章 論文抄襲問題概述16-23
  • 2.1 論文抄襲界定的法律依據(jù)16-17
  • 2.2 論文抄襲的類型17-18
  • 2.2.1 論點(diǎn)抄襲17
  • 2.2.2 內(nèi)容抄襲17-18
  • 2.3 論文抄襲判定常用方法18-22
  • 2.3.1 論點(diǎn)抄襲的判定方法18
  • 2.3.2 內(nèi)容抄襲的判定方法18-22
  • 2.4 本章小結(jié)22-23
  • 第三章 文本挖掘技術(shù)概述23-37
  • 3.1 文本挖掘概念23
  • 3.2 信息檢索與信息抽取23-28
  • 3.2.1 信息檢索23-26
  • 3.2.2 信息抽取26-27
  • 3.2.3 信息檢索和信息抽取的關(guān)系27-28
  • 3.3 文本挖掘主要方法28-36
  • 3.3.1 關(guān)聯(lián)分析28
  • 3.3.2 文檔分類28-32
  • 3.3.3 文檔聚類32-34
  • 3.3.4 自動文摘34-36
  • 3.4 本章小結(jié)36-37
  • 第四章 文本相似度的計算37-51
  • 4.1 文本相似度概念37
  • 4.2 文本相似度的主要計算方法37-44
  • 4.2.1 基于向量空間模型的文本相似度計算37-38
  • 4.2.2 隱性語義標(biāo)引38-40
  • 4.2.3 基于海明距離的文本相似度計算40-41
  • 4.2.4 基于屬性論的文本相似度計算41-43
  • 4.2.5 基于語義理解的文本相似度計算43-44
  • 4.3 基于文本分類的文檔相似度計算44-46
  • 4.4 基于段落詞頻統(tǒng)計的文檔相似度計算46-48
  • 4.5 基于段落向量空間的文檔相似度計算48-49
  • 4.6 本章小結(jié)49-51
  • 第五章 論文抄襲判定系統(tǒng)的設(shè)計與實(shí)現(xiàn)51-57
  • 5.1 系統(tǒng)分析51
  • 5.2 系統(tǒng)總體框架51
  • 5.3 系統(tǒng)主要模塊與具體算法51-53
  • 5.4 系統(tǒng)實(shí)現(xiàn)53-55
  • 5.5 實(shí)驗(yàn)結(jié)果及分析55-56
  • 5.6 本章小結(jié)56-57
  • 第六章 總結(jié)與展望57-59
  • 6.1 全文總結(jié)57
  • 6.2 后續(xù)工作57-59
  • 參考文獻(xiàn)59-62
  • 攻讀碩士學(xué)位期間主要科研工作及成果62

【引證文獻(xiàn)】

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條

1 王森;基于主題樹的自上而下文本復(fù)制檢測研究[D];大連理工大學(xué);2010年

2 蔡尚輝;范例推理在智能車輛監(jiān)控數(shù)據(jù)處理系統(tǒng)中的應(yīng)用[D];河北科技大學(xué);2011年

3 楊茂;基于句子相似度的文本比對算法研究[D];電子科技大學(xué);2010年



本文編號:975703

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenshubaike/gzzj/975703.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f8e23***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com