基于句子相似度的論文抄襲檢測模型研究
本文關(guān)鍵詞:基于句子相似度的論文抄襲檢測模型研究,由筆耕文化傳播整理發(fā)布。
【摘要】:提出一種基于句子相似度的論文抄襲檢測模型。利用局部詞頻指紋算法對大規(guī)模文檔進行快速檢測,找出疑似抄襲文檔。根據(jù)最長有序公共子序列算法計算句子間的相似度,并標注抄襲細節(jié),給出抄襲依據(jù)。在標準中文數(shù)據(jù)集SOGOU-T上進行的實驗表明,該模型具有較強的局部信息挖掘能力,在一定程度上克服了現(xiàn)有的論文抄襲檢測算法精度不高的缺點。
【作者單位】: 渤海大學(xué)信息科學(xué)與工程學(xué)院;大連海事大學(xué)信息科學(xué)技術(shù)學(xué)院;
【關(guān)鍵詞】: 句子相似度 抄襲檢測 局部詞頻 最長有序公共子序列
【基金】:國家自然科學(xué)基金(No.60603023) 遼寧省教育廳重點實驗室項目(No.LS2010180)~~
【分類號】:TP391.1
【正文快照】: 1引言剽竊他人研究成果,篡改或偽造數(shù)據(jù)并繼續(xù)發(fā)表,給學(xué)術(shù)研究帶來嚴重危害。建立一種快速、準確的論文抄襲檢測模型具有現(xiàn)實意義,論文抄襲檢測算法已成為當(dāng)前研究的熱點。與英文學(xué)術(shù)論文不同,中文學(xué)術(shù)論文語法形式靈活多變,語用歧義性大,且詞與詞之間無明顯分隔,所以檢測難
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 林賢明,李堂秋,陳毅東;句子相似度的動態(tài)規(guī)劃求解及改進[J];計算機工程與應(yīng)用;2004年35期
2 李彬,劉挺,秦兵,李生;基于語義依存的漢語句子相似度計算[J];計算機應(yīng)用研究;2003年12期
3 史彥軍,滕弘飛,金博;抄襲論文識別研究與進展[J];大連理工大學(xué)學(xué)報;2005年01期
4 金博;史彥軍;滕弘飛;;基于篇章結(jié)構(gòu)相似度的復(fù)制檢測算法[J];大連理工大學(xué)學(xué)報;2007年01期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前6條
1 楊思春;;一種改進的句子相似度計算模型[J];電子科技大學(xué)學(xué)報;2006年06期
2 金博;史彥軍;滕弘飛;;基于篇章結(jié)構(gòu)相似度的復(fù)制檢測算法[J];大連理工大學(xué)學(xué)報;2007年01期
3 張小艷;;中文主觀題自動批改中相似句子檢索算法[J];南京師范大學(xué)學(xué)報(工程技術(shù)版);2007年02期
4 龔如義;;學(xué)術(shù)論文署名失范、違規(guī)、侵權(quán)的分析及應(yīng)對[J];四川教育學(xué)院學(xué)報;2006年01期
5 馬治國;李曉鳴;;學(xué)術(shù)論文剽竊的認定及法律責(zé)任[J];西安交通大學(xué)學(xué)報(社會科學(xué)版);2005年04期
6 廉站俊;呂學(xué)強;張玉杰;施水才;;基于句子相似度計算的信息抽取[J];現(xiàn)代圖書情報技術(shù);2007年06期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 趙妍妍;秦兵;劉挺;張俐;蘇中;;基于多特征融合的句子相似度計算[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
2 菅小艷;鄭家恒;;一種改進的句子相似度計算方法[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
3 劉寶艷;林鴻飛;楊志豪;;基于改進編輯距離和依存結(jié)構(gòu)的句子相似度計算[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
4 宋彥;張桂平;蔡東風(fēng);;基于N-gram的句子相似度計算技術(shù)[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 謝能付;基于語義Web技術(shù)的知識融合和同步方法研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 曾錦麒;語義WEB的知識表示語言及其應(yīng)用研究[D];中南大學(xué);2004年
2 張瑞霞;基于語義的漢語句法分析系統(tǒng)的研究與實現(xiàn)[D];西北大學(xué);2005年
3 張學(xué);EBMT系統(tǒng)中翻譯模板的抽取與匹配[D];大連理工大學(xué);2006年
4 張艷;面向高校師生的應(yīng)用文機輔寫作關(guān)鍵技術(shù)研究[D];大連理工大學(xué);2006年
5 菅小艷;基于HMM模型的農(nóng)作物信息抽取方法研究[D];山西大學(xué);2006年
6 陳志敏;基于主題劃分的Web文檔自動摘要研究[D];揚州大學(xué);2006年
7 曲曉;受限條件下學(xué)生作業(yè)文本相似度的研究[D];內(nèi)蒙古師范大學(xué);2006年
8 黃日茂;語義Web知識表示方法的研究[D];貴州大學(xué);2006年
9 于國權(quán);面向C語言題庫的相似試題辨別方法研究[D];哈爾濱工業(yè)大學(xué);2006年
10 張玉娟;基于《知網(wǎng)》的句子相似度計算的研究[D];中國地質(zhì)大學(xué)(北京);2006年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 史彥軍,滕弘飛,金博;抄襲論文識別研究與進展[J];大連理工大學(xué)學(xué)報;2005年01期
2 郭艷華,周昌樂;一種漢語語句依存關(guān)系網(wǎng)協(xié)動生成方法研究[J];杭州電子工業(yè)學(xué)院學(xué)報;2000年04期
3 王繼成 ,武港山 ,周源遠 ,張福炎;一種篇章結(jié)構(gòu)指導(dǎo)的中文Web文檔自動摘要方法[J];計算機研究與發(fā)展;2003年03期
4 張曦煌;須文波;;基于增量學(xué)習(xí)的超球支持向量機設(shè)計[J];計算機工程與應(yīng)用;2006年13期
5 宋擒豹,楊向榮,沈鈞毅,齊勇;數(shù)字商品非法復(fù)制的檢測算法[J];計算機學(xué)報;2002年11期
6 唐發(fā)明,王仲東,陳綿云;支持向量機多類分類算法研究[J];控制與決策;2005年07期
7 孔銳,張冰;一種快速支持向量機增量學(xué)習(xí)算法[J];控制與決策;2005年10期
8 張益民,陸汝占,沈李斌;一種混合型的漢語篇章結(jié)構(gòu)自動分析方法[J];軟件學(xué)報;2000年11期
9 鮑軍鵬,沈鈞毅,劉曉東,宋擒豹;自然語言文檔復(fù)制檢測研究綜述[J];軟件學(xué)報;2003年10期
10 董振東,董強;面向信息處理的詞匯語義研究中的若干問題[J];語言文字應(yīng)用;2001年03期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 車萬翔;劉挺;秦兵;李生;;面向依存文法分析的搭配抽取方法研究[A];自然語言理解與機器翻譯——全國第六屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2001年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 呂學(xué)強,任飛亮,黃志丹,姚天順;句子相似模型和最相似句子查找算法[J];東北大學(xué)學(xué)報(自然科學(xué)版);2003年06期
2 趙巾幗;徐德智;羅慶云;;漢語句子相似度計算方法比對之研究[J];福建電腦;2007年10期
3 耿崇;薛德軍;;中文文檔復(fù)制檢測方法研究[J];現(xiàn)代圖書情報技術(shù);2007年06期
4 秦新國;;基于句子相似度的文檔復(fù)制檢測算法研究[J];現(xiàn)代圖書情報技術(shù);2007年11期
5 秦兵,劉挺,王洋,鄭實福,李生;基于常問問題集的中文問答系統(tǒng)研究[J];哈爾濱工業(yè)大學(xué)學(xué)報;2003年10期
6 薛慧芳;;句子相似度計算初探[J];科技信息;2009年19期
7 吉勝軍;;基于Levenshtein distance算法的句子相似度計算[J];電腦知識與技術(shù);2009年09期
8 何維;王宇;;基于句子關(guān)系圖的網(wǎng)頁文本主題句抽取[J];現(xiàn)代圖書情報技術(shù);2009年03期
9 郭書杰;黃明;梁旭;;陪護機器人口語對話系統(tǒng)設(shè)計與實現(xiàn)[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2010年12期
10 劉建舟;劉曉華;;主觀題自動批改技術(shù)的研究[J];湖北工業(yè)大學(xué)學(xué)報;2006年04期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 宋彥;張桂平;蔡東風(fēng);;基于N-gram的句子相似度計算技術(shù)[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
2 周法國;楊炳儒;;一種新改進的句子相似度計算方法[A];中國計算技術(shù)與語言問題研究——第七屆中文信息處理國際會議論文集[C];2007年
3 張宇;劉挺;高立琦;車萬翔;朱傳靖;;基于常問問題集的在線客服實驗研究[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
4 菅小艷;鄭家恒;;一種改進的句子相似度計算方法[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 謝學(xué)敏;基于動態(tài)流通語料庫(DCC)的流行語釋義信息自動提取研究[D];北京語言大學(xué);2006年
2 宋玲;語義相似度計算及其應(yīng)用研究[D];山東大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 薛慧芳;句子相似度計算理論及應(yīng)用研究[D];西北大學(xué);2011年
2 楊茂;基于句子相似度的文本比對算法研究[D];電子科技大學(xué);2010年
3 張振幸;基于知網(wǎng)的模塊化的中文句子相似度計算研究[D];安徽工業(yè)大學(xué);2010年
4 李雙紅;基于框架核心語義依存圖的句子相似度計算研究[D];山西大學(xué);2010年
5 張磊;基于聚類算法的中文自動文摘方法研究[D];廈門大學(xué);2009年
6 吳全娥;漢語句子相似度計算及其在自動問答系統(tǒng)中的應(yīng)用[D];西南大學(xué);2011年
7 侯麗敏;基于網(wǎng)絡(luò)的智能答疑系統(tǒng)的研究與實現(xiàn)[D];河南大學(xué);2005年
8 方瑩;基于句子聚類的信息抽取方法研究[D];山西大學(xué);2005年
9 黃麗瓊;中文自動文摘及評價方法的研究[D];重慶大學(xué);2007年
10 張yN挺;語義角色標注及其在句子相似度計算上的應(yīng)用[D];北京郵電大學(xué);2008年
本文關(guān)鍵詞:基于句子相似度的論文抄襲檢測模型研究,由筆耕文化傳播整理發(fā)布。
,本文編號:378277
本文鏈接:http://sikaile.net/wenshubaike/gzzj/378277.html