復制粘貼的快捷鍵_基于主題樹的自上而下文本復制檢測研究
本文關鍵詞:中文文本復制檢測技術研究,由筆耕文化傳播整理發(fā)布。
《大連理工大學》 2010年
基于主題樹的自上而下文本復制檢測研究
王森
【摘要】: 最近幾年受社會一些不良風氣的影響論文抄襲現象越來越嚴重,引起越來越多的人甚至是全社會的關注。為了保護知識產權、端正學術風氣,并減少論文抄襲現象帶來的嚴重后果,進行文本復制檢測技術的研究變得十分必要。 本文針對基于字符串匹配算法的文本塊選擇難題和基于詞頻統(tǒng)計算法沒有充分考慮文本的語義和結構信息等問題,提出了基于主題樹的自上而下文本復制檢測算法。首先闡述了文本的主題樹表示方式:根結點用文本的題目、作者、單位、摘要、關鍵詞和分類號信息表示;分支結點用主題包表示,由語義聚類的方法形成主題,再由句子關系圖方法抽取具有代表性的句子,從而形成主題包;葉結點用文本的所有句子表示。然后提出自上而下的主題樹相似度計算方法:第一,計算根結點相似度,即比較兩篇文本的根結點信息,若根結點不相似則相似度計算結束,否則繼續(xù)計算下一層結點相似度;第二,計算分支結點相似度,以句子相似度為基礎計算兩篇文本的主題包之間的相似度,若分支結點總相似度小于閾值則相似度計算結束,否則繼續(xù)計算下層結點相似度;第三,計算葉結點相似度,即計算兩篇文本所有句子的相似度,若葉結點總相似度小于閾值則認為兩篇文本不存在抄襲,否則認為兩篇文本之間存在抄襲。 本文設計并實現了文本復制檢測系統(tǒng),實驗中分別收集了五個不同領域的論文各200篇。然后對每個領域的論文分別進行不同級別的復制,形成論文20篇,并收集了5篇完全無關的論文,這25篇論文作為實驗中的待檢測論文。為了驗證本文提出的新的復制檢測算法的有效性,利用作者之前提出的多種復制檢測算法作了3組對比實驗,實驗結果顯示,本文提出的算法耗費的時間少、抄襲判定的區(qū)分度好、檢測準確率高。
【關鍵詞】:
【學位授予單位】:大連理工大學
【學位級別】:碩士
【學位授予年份】:2010
【分類號】:TP391.1
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數據庫 前10條
1 湯世平;樊孝忠;;基于多示例學習的題庫重復性檢測研究[J];北京理工大學學報;2005年12期
2 呂學強,任飛亮,黃志丹,姚天順;句子相似模型和最相似句子查找算法[J];東北大學學報(自然科學版);2003年06期
3 金博;史彥軍;滕弘飛;;基于篇章結構相似度的復制檢測算法[J];大連理工大學學報;2007年01期
4 張莉,周偉達,焦李成;核聚類算法[J];計算機學報;2002年06期
5 林鴻飛,戰(zhàn)學剛,姚天順;基于概念的文本結構分析方法[J];計算機研究與發(fā)展;2000年03期
6 蔡自興,李枚毅;多示例學習及其研究現狀[J];控制與決策;2004年06期
7 鮑軍鵬,沈鈞毅,劉曉東,宋擒豹;自然語言文檔復制檢測研究綜述[J];軟件學報;2003年10期
8 黎銘,薛曉冰,周志華;基于多示例學習的中文Web目錄頁面推薦[J];軟件學報;2004年09期
9 廉站俊;呂學強;張玉杰;施水才;;基于句子相似度計算的信息抽取[J];現代圖書情報技術;2007年06期
10 林鴻飛,戰(zhàn)學剛,姚天順;文本結構分析與基于示例的文本過濾[J];小型微型計算機系統(tǒng);2000年04期
中國碩士學位論文全文數據庫 前1條
1 于海英;程序代碼相似度識別的研究[D];內蒙古師范大學;2006年
【共引文獻】
中國期刊全文數據庫 前10條
1 湯世平;樊孝忠;;基于多示例學習的題庫重復性檢測研究[J];北京理工大學學報;2005年12期
2 鄭巖,黃榮懷,戰(zhàn)曉蘇,周春光;基于遺傳算法的動態(tài)模糊聚類[J];北京郵電大學學報;2005年01期
3 姜永常;;基于知識元的知識倉庫構建[J];圖書與情報;2005年06期
4 王凌峰;;學術規(guī)范中反剽竊的信息技術視角[J];圖書與情報;2006年04期
5 呂佳;;核聚類算法及其在模式識別中的應用[J];重慶師范大學學報(自然科學版);2006年01期
6 林鴻飛,戰(zhàn)學剛,姚天順;中文文本挖掘的特征導航機制[J];東北大學學報(自然科學版);2000年03期
7 曲昭偉;鄭巖;呂廷杰;;基于聚類實現客戶行為分析[J];東北師大學報(自然科學版);2006年02期
8 楊思春;;一種改進的句子相似度計算模型[J];電子科技大學學報;2006年06期
9 林鴻飛,高仁璟;基于潛在語義索引的文本摘要方法[J];大連理工大學學報;2001年06期
10 林鴻飛;丁洪文;楊志豪;趙晶;;基于概念和統(tǒng)計的問答系統(tǒng)實現機制[J];大連理工大學學報;2006年02期
中國重要會議論文全文數據庫 前9條
1 饒鮮;李斌;楊紹全;;用核聚類法進行異常檢測[A];信號與信息處理技術第三屆信號與信息處理全國聯(lián)合學術會議論文集[C];2004年
2 程新榮;楊仁剛;;網頁自動分類在搜索引擎上的應用研究[A];2007'中國儀器儀表與測控技術交流大會論文集(二)[C];2007年
3 龔慧超;項文波;侯曉霞;茅耀斌;;基于多示例學習的不良內容圖像過濾算法研究[A];第十四屆全國圖象圖形學學術會議論文集[C];2008年
4 梁久禎;;核函數參數優(yōu)化的聚類算法[A];第三屆全國信息獲取與處理學術會議論文集[C];2005年
5 萬敏;羅振聲;郭玉箐;;自動文摘系統(tǒng)中的意義段劃分問題研究[A];自然語言理解與機器翻譯——全國第六屆計算語言學聯(lián)合學術會議論文集[C];2001年
6 連浩;劉悅;許洪波;王斌;程學旗;;一種改進的基于內容的快速網頁查重算法[A];全國第八屆計算語言學聯(lián)合學術會議(JSCL-2005)論文集[C];2005年
7 朱海軍;張桂平;蔡東風;王煒華;;科技論文的標題識別[A];內容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年
8 趙騫;趙勝川;;基于核聚類算法的交通事故主要原因分類及分析[A];第六屆交通運輸領域國際學術會議論文集(下卷)[C];2006年
9 張煜;李素建;歐陽佑;;動態(tài)多文檔自動摘要研究[A];中國計算技術與語言問題研究——第七屆中文信息處理國際會議論文集[C];2007年
中國博士學位論文全文數據庫 前10條
1 張道強;基于核的聯(lián)想記憶及聚類算法的研究與應用[D];南京航空航天大學;2005年
2 潘志松;基于神經網絡的入侵檢測研究[D];南京航空航天大學;2003年
3 張莉;支撐矢量機與核方法研究[D];西安電子科技大學;2002年
4 周偉達;核機器學習方法研究[D];西安電子科技大學;2003年
5 解應春;基于Kernel學習機的建模與分類的應用算法研究[D];浙江大學;2003年
6 王莉;數據挖掘中聚類方法的研究[D];天津大學;2004年
7 郭秀娟;基于關聯(lián)規(guī)則數據挖掘算法的研究[D];吉林大學;2004年
8 彭強;復雜系統(tǒng)遠程智能故障診斷技術研究[D];南京理工大學;2004年
9 陳才扣;基于核的非線性特征抽取與圖象識別研究[D];南京理工大學;2004年
10 李良炎;基于詞聯(lián)接的自然語言處理技術及其應用研究[D];重慶大學;2004年
中國碩士學位論文全文數據庫 前10條
1 何宏;數字水印及其在網絡版權保護中的應用研究[D];武漢大學;2005年
2 楊海東;基于Ajax技術的異步搜索引擎研究與實現[D];南京信息工程大學;2007年
3 張昭濤;數據挖掘聚類算法研究[D];西南交通大學;2005年
4 王萌;基于概念向量空間模型的中文自動文摘研究[D];華中師范大學;2005年
5 葛強;親屬關系邏輯推理專家系統(tǒng)的研究[D];河南大學;2005年
6 周舫;漢語句子相似度計算方法及其應用的研究[D];河南大學;2005年
7 錢昱;數據挖掘在入侵檢測中的應用研究[D];安徽大學;2004年
8 馬長林;中文自動文摘技術若干問題的研究[D];華中師范大學;2002年
9 章成志;基于文本層次模型的Web概念挖掘研究[D];南京農業(yè)大學;2002年
10 傅賽香;基于Internet的智能信息檢索技術研究[D];廣西師范大學;2002年
【二級參考文獻】
中國期刊全文數據庫 前10條
1 駱正華,樊孝忠,劉林,龔永罡;基于E-Chunk的問句實例分析系統(tǒng)[J];北京理工大學學報;2005年01期
2 呂學強,任飛亮,黃志丹,姚天順;句子相似模型和最相似句子查找算法[J];東北大學學報(自然科學版);2003年06期
3 朱靖波,王寶庫,姚天順;一種規(guī)則描述語言NPRDL語言[J];東北大學學報(自然科學版);1996年06期
4 史彥軍,滕弘飛,金博;抄襲論文識別研究與進展[J];大連理工大學學報;2005年01期
5 金博,史彥軍,滕弘飛;基于語義理解的文本相似度算法[J];大連理工大學學報;2005年02期
6 金博;史彥軍;滕弘飛;;基于篇章結構相似度的復制檢測算法[J];大連理工大學學報;2007年01期
7 谷波,張永奎;文本聚類算法的分析與比較[J];電腦開發(fā)與應用;2003年11期
8 鄭逢斌,陳志國,姜保慶,喬保軍;語義校對系統(tǒng)中的句子語義骨架模糊匹配算法[J];電子學報;2003年08期
9 楊新倫,唐培和,劉浩;ASP.NET對XML文檔的支持與處理方式[J];廣西工學院學報;2003年01期
10 李廣原,陳丹;文本信息檢索技術[J];廣西科學院學報;2001年02期
中國重要會議論文全文數據庫 前1條
1 車萬翔;劉挺;秦兵;李生;;面向雙語句對檢索的漢語句子相似度計算[A];語言計算與基于內容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年
中國博士學位論文全文數據庫 前1條
1 李素建;漢語組塊計算的若干研究[D];中國科學院研究生院(計算技術研究所);2002年
中國碩士學位論文全文數據庫 前2條
1 沈斌;基于分詞的中文文本相似度計算研究[D];天津財經大學;2006年
2 于海英;程序代碼相似度識別的研究[D];內蒙古師范大學;2006年
【相似文獻】
中國期刊全文數據庫 前10條
1 鄧愛萍;徐國梁;肖奔;;基于串匹配方法的源代碼復制檢測技術研究[J];科學技術與工程;2007年10期
2 金博,史彥軍,滕弘飛;基于語義理解的文本相似度算法[J];大連理工大學學報;2005年02期
3 李靜柏;;多信息源圖像的融合技術研究[J];黑龍江科技信息;2011年12期
4 王鐘斐;;一種改進的PageRank算法[J];計算機與數字工程;2011年06期
5 范偉,宣國榮;VR系統(tǒng)三維建模中細節(jié)水平分割的分析[J];計算機工程;1998年01期
6 李振星,徐澤平,唐衛(wèi)清,唐榮錫;網頁多詞元快速聚類算法[J];計算機工程;2003年02期
7 孫宏偉,田新廣,李學春,張爾揚;一種改進的IDS異常檢測模型[J];計算機學報;2003年11期
8 賀曉,劉景寧,李淑霞;基于灰色關聯(lián)理論的案例推理在故障智能診斷系統(tǒng)中的應用[J];中國機械工程;2004年22期
9 田捷,何余良,陳宏,楊鑫;一種基于相似度聚類方法的指紋識別算法[J];中國科學E輯;2005年02期
10 李志東,云曉春,楊武,辛毅;基于相似通信特征擴散分析的未知蠕蟲檢測[J];計算機工程與應用;2005年19期
中國重要會議論文全文數據庫 前10條
1 李嬈嬈;雷沛霖;黃蘭嵐;原思通;劉營;;芫花藥材高效液相指紋圖譜研究[A];中華中醫(yī)藥學會四大懷藥與地道藥材研究論壇暨中藥炮制分會第二屆第五次學術會與第三屆會員代表大會論文集[C];2007年
2 張虎;郭玉翠;宮尚寶;;移動Ad-hoc網絡中基于第三方觀察機制的信任管理研究[A];第十六屆全國青年通信學術會議論文集(上)[C];2011年
3 王志松;;決策樹中數據遺失值填充方法的研究[A];2001年中國智能自動化會議論文集(下冊)[C];2001年
4 湯麗華;趙吳靜;金菊良;張明;;基于熵的水質綜合評價的相似插值模型[A];第八屆中國管理科學學術年會論文集[C];2006年
5 王娟;;一種基于粗糙集理論的操作風險判別方法[A];科學發(fā)展觀與系統(tǒng)工程——中國系統(tǒng)工程學會第十四屆學術年會論文集[C];2006年
6 劉曉林;郁濱;;基于相似度的遺傳算法模式理論研究[A];全國第19屆計算機技術與應用(CACIS)學術會議論文集(下冊)[C];2008年
7 金保華;高湘飛;柳雪環(huán);張磊;;基于XML框架與CBR智能預案管理的研究[A];2009年中國智能自動化會議論文集(第二分冊)[C];2009年
8 王超;許方;;一種基于奇異值分解的印刷體數字識別算法[A];圖像圖形技術與應用進展——第三屆圖像圖形技術與應用學術會議論文集[C];2008年
9 麥智毅;楊春玲;;基于結構相似度的H.264幀內預測快速算法[A];通信理論與信號處理新進展——2005年通信理論與信號處理年會論文集[C];2005年
10 李增揚;李兵;何克清;;本體中復雜網絡特性的發(fā)現[A];2006全國復雜網絡學術會議論文集[C];2006年
中國重要報紙全文數據庫 前10條
1 證券時報記者 韓如冰;[N];證券時報;2006年
2 聶磊 曹進 羅國安;[N];中國醫(yī)藥報;2006年
3 孟祥寧 張亞萌 郭青劍;[N];中國藝術報;2009年
4 聶磊;曹進;羅國安;[N];中國醫(yī)藥報;2005年
5 海潮;[N];中國醫(yī)藥報;2007年
6 欒海;[N];醫(yī)藥經濟報;2007年
7 沈陽藥科大學藥學院 孫國祥;[N];中國中醫(yī)藥報;2007年
8 記者 李學梅;[N];新華每日電訊;2009年
9 小新;[N];中國醫(yī)藥報;2007年
10 天相投顧 王聃聃;[N];證券時報;2007年
中國博士學位論文全文數據庫 前10條
1 李旭;基于指紋和語義知識表示的中文文檔復制檢測方法[D];燕山大學;2010年
2 顧本柏;客體相似性表征的認知和發(fā)展機制研究[D];西南大學;2011年
3 劉磊;概念內涵屬性計算研究[D];上海交通大學;2011年
4 杜方;復雜網絡系統(tǒng)間相似性識別及其應用[D];浙江大學;2010年
5 肖宇;聚類分析及其在圖像處理中的應用[D];北京交通大學;2012年
6 游揚聲;一般分布模式下GIS位置數據的不確定性研究[D];武漢大學;2005年
7 孫平;高科技品牌延伸的評價模型與消費者評價實證研究[D];山東大學;2008年
8 張旭秀;盲源分離及其在腦電信號處理中應用的研究[D];大連理工大學;2006年
9 劉曉東;面向無線傳感器網絡數據傳輸與查詢的節(jié)能算法與理論研究[D];中國海洋大學;2009年
10 劉建華;粒子群算法的基本理論及其改進研究[D];中南大學;2009年
中國碩士學位論文全文數據庫 前10條
1 王森;基于主題樹的自上而下文本復制檢測研究[D];大連理工大學;2010年
2 劉雙明;文檔復制檢測的應用研究[D];太原理工大學;2010年
3 馬勤;文檔復制檢測技術在學術監(jiān)管中的應用研究[D];鄭州大學;2012年
4 宋杰;改進的基于串匹配的中文文檔復制檢測方法研究[D];湖南大學;2012年
5 盧小康;中文文本復制檢測技術研究[D];杭州電子科技大學;2009年
6 李旭;基于串匹配方法的文檔復制檢測系統(tǒng)研究[D];燕山大學;2006年
7 李婷婷;基于語義結構的學術論文復制檢測技術研究與實現[D];北京郵電大學;2010年
8 孫偉;基于文檔復制檢測技術的研究與實現[D];遼寧工程技術大學;2010年
9 伍星宇;基于相似度的社區(qū)發(fā)現算法研究[D];華中科技大學;2012年
10 閆小龍;文檔復制計算機輔助檢測系統(tǒng)的研究與實現[D];太原理工大學;2008年
本文關鍵詞:中文文本復制檢測技術研究,由筆耕文化傳播整理發(fā)布。
,本文編號:202527
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/202527.html