短信復(fù)制的文本在哪里_基于語(yǔ)句相似度的中文文本復(fù)制檢測(cè)技術(shù)研究
本文關(guān)鍵詞:中文文本復(fù)制檢測(cè)技術(shù)研究,由筆耕文化傳播整理發(fā)布。
《北京郵電大學(xué)》 2015年
基于語(yǔ)句相似度的中文文本復(fù)制檢測(cè)技術(shù)研究
張慧云
【摘要】:隨著網(wǎng)絡(luò)和計(jì)算機(jī)的普及,電子文檔成為一種應(yīng)用廣泛的信息存儲(chǔ)形式。電子文檔方便共享、存儲(chǔ)代價(jià)低,為知識(shí)的傳播提供了很大的便利,但是這一特性也導(dǎo)致了復(fù)制抄襲的普遍性,文本復(fù)制檢測(cè)技術(shù)應(yīng)運(yùn)而生。文本復(fù)制檢測(cè)技術(shù)主要用于檢測(cè)文本之間是否存在復(fù)制、抄襲等,是自然語(yǔ)言處理領(lǐng)域重要的研究方向,該技術(shù)可以應(yīng)用在數(shù)字圖書(shū)館系統(tǒng)、搜索系統(tǒng)、論文提交系統(tǒng)等很多領(lǐng)域。 在研究基于知網(wǎng)的詞語(yǔ)相似度計(jì)算方法的基礎(chǔ)上,本文提出一種改進(jìn)的詞語(yǔ)相似度計(jì)算方法。該方法通過(guò)知網(wǎng)的KDML語(yǔ)言,把詞語(yǔ)的相似度轉(zhuǎn)換為義原集合的相似度,綜合詞語(yǔ)含義的共性和差異性,使得相似度計(jì)算結(jié)果更加合理。此外,還提出一種改進(jìn)的基于詞語(yǔ)結(jié)構(gòu)和詞語(yǔ)順序的文本相似度計(jì)算方法。該方法綜合考慮了文本的詞語(yǔ)語(yǔ)義特征、局部結(jié)構(gòu)特征和詞序特征,提取的特征更為全面,計(jì)算得到的文本相似度結(jié)果更加準(zhǔn)確。 最后,本文利用提出的基于詞語(yǔ)結(jié)構(gòu)和詞序的相似度計(jì)算方法,實(shí)現(xiàn)了中文文本復(fù)制檢測(cè)系統(tǒng)。該復(fù)制檢測(cè)系統(tǒng)基于B/S結(jié)構(gòu),采用SSH技術(shù)框架,包含文本預(yù)處理模塊、文本檢測(cè)模塊、結(jié)果顯示模塊和樣本庫(kù)模塊。論文利用該復(fù)制檢測(cè)系統(tǒng)進(jìn)行了算法驗(yàn)證,結(jié)果證明了改進(jìn)方法的有效性。
【關(guān)鍵詞】:
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP391.1
【目錄】:
下載全文 更多同類(lèi)文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購(gòu)買(mǎi)知網(wǎng)充值卡、在線充值、在線咨詢(xún))
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前9條
1 田久樂(lè);趙蔚;;基于同義詞詞林的詞語(yǔ)相似度計(jì)算方法[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2010年06期
2 梅家駒;竺一鳴;高蘊(yùn)琦;殷鴻翔;;編纂漢語(yǔ)類(lèi)義詞典的嘗試——《同義詞詞林》簡(jiǎn)介[J];辭書(shū)研究;1983年01期
3 呂學(xué)強(qiáng),任飛亮,黃志丹,姚天順;句子相似模型和最相似句子查找算法[J];東北大學(xué)學(xué)報(bào);2003年06期
4 董振東,董強(qiáng);知網(wǎng)和漢語(yǔ)研究[J];當(dāng)代語(yǔ)言學(xué);2001年01期
5 楊小平,丁浩,黃都培;基于向量空間模型的中文信息檢索技術(shù)研究[J];計(jì)算機(jī)工程與應(yīng)用;2003年15期
6 章志凌;虞立群;陳奕秋;羅海飛;邵曉敏;;基于Corpus庫(kù)的詞語(yǔ)相似度計(jì)算方法[J];計(jì)算機(jī)應(yīng)用;2006年03期
7 于江生 ,俞士汶;中文概念詞典的結(jié)構(gòu)[J];中文信息學(xué)報(bào);2002年04期
8 李峰;李芳;;中文詞語(yǔ)語(yǔ)義相似度計(jì)算——基于《知網(wǎng)》2000[J];中文信息學(xué)報(bào);2007年03期
9 董振東;語(yǔ)義關(guān)系的表達(dá)和知識(shí)系統(tǒng)的建造[J];語(yǔ)言文字應(yīng)用;1998年03期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 劉高軍;馬硯忠;段建勇;;基于維基百科的中文命名實(shí)體關(guān)聯(lián)度計(jì)算[J];北方工業(yè)大學(xué)學(xué)報(bào);2012年01期
2 趙欣欣;索紅光;劉玉樹(shù);張利萍;;基于帶權(quán)語(yǔ)義距離的網(wǎng)頁(yè)預(yù)取方法[J];北京理工大學(xué)學(xué)報(bào);2006年08期
3 耿增民;劉萬(wàn)春;朱玉文;;受限領(lǐng)域的自動(dòng)文摘方法研究[J];北京理工大學(xué)學(xué)報(bào);2006年08期
4 陳康;樊孝忠;劉杰;賈可亮;;基于問(wèn)句語(yǔ)義表征的中文問(wèn)句相似度計(jì)算方法[J];北京理工大學(xué)學(xué)報(bào);2007年12期
5 王濤;樊孝忠;林培光;陳康;;基于復(fù)雜特征集的剽竊檢測(cè)[J];北京理工大學(xué)學(xué)報(bào);2008年02期
6 齊波;王成良;;現(xiàn)代漢語(yǔ)短語(yǔ)的機(jī)器識(shí)別[J];重慶工學(xué)院學(xué)報(bào)(自然科學(xué)版);2007年12期
7 王東海;張志毅;王麗英;;電子詞典編纂中的語(yǔ)義網(wǎng)與義鏈研究[J];長(zhǎng)江學(xué)術(shù);2007年04期
8 伍瑩;;基于“詞群—詞位變體”理論的現(xiàn)代漢語(yǔ)形容詞語(yǔ)義網(wǎng)絡(luò)構(gòu)建——以“胖”類(lèi)形容詞為例[J];長(zhǎng)江學(xué)術(shù);2011年02期
9 高元梓;;基于CEF和WordNet的詞匯拓展框架的構(gòu)建[J];重慶文理學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版);2010年03期
10 張燕;宋錦斌;;卡通動(dòng)畫(huà)數(shù)字媒體資源管理系統(tǒng)[J];長(zhǎng)沙醫(yī)學(xué)院學(xué)報(bào);2010年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 哈斯那順烏日?qǐng)D;;蒙古文WordNet名詞同義詞集合構(gòu)建算法[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
2 徐文堪;;信息革命時(shí)代的語(yǔ)言理論和詞典編纂[A];中國(guó)辭書(shū)論集2000[C];2000年
3 鄧輝;林柏鋼;;一種基于《知網(wǎng)》的敏感信息預(yù)測(cè)技術(shù)[A];第十屆中國(guó)科協(xié)年會(huì)論文集(三)[C];2008年
4 戴玲真;;從《朗文多功能分類(lèi)詞典》看語(yǔ)義場(chǎng)理論在分類(lèi)詞典編撰中的應(yīng)用[A];福建省外國(guó)語(yǔ)文學(xué)會(huì)2005年年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2005年
5 王惠;蘇新春;;XHK基于語(yǔ)法知識(shí)的漢語(yǔ)詞義描述[A];第六屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì)論文集[C];2005年
6 馬春雷;;基于向量空間模型的中文文本檢索研究[A];2007年河北省電子學(xué)會(huì)、河北省計(jì)算機(jī)學(xué)會(huì)、河北省自動(dòng)化學(xué)會(huì)、河北省人工智能學(xué)會(huì)、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會(huì)、河北省軟件行業(yè)協(xié)會(huì)聯(lián)合學(xué)術(shù)年會(huì)論文集[C];2007年
7 胡金柱;陳俊平;盧麗君;趙東萌;張琮;王益維;;基于本體視圖的特征項(xiàng)抽取方法研究[A];第二十二屆中國(guó)(天津)'2008IT、網(wǎng)絡(luò)、信息技術(shù)、電子、儀器儀表創(chuàng)新學(xué)術(shù)會(huì)議論文集[C];2008年
8 胡金柱;陳俊平;盧麗君;趙東萌;張琮;王益維;;基于本體視圖的特征項(xiàng)抽取方法研究[A];第二十三屆中國(guó)(天津)2009IT、網(wǎng)絡(luò)、信息技術(shù)、電子、儀器儀表創(chuàng)新學(xué)術(shù)會(huì)議論文集[C];2009年
9 陳慧清;林世平;;基于知網(wǎng)和模式自舉的概念間分類(lèi)關(guān)系獲取方法[A];2009通信理論與技術(shù)新發(fā)展——第十四屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2009年
10 劉國(guó)剛;;人工智能客戶(hù)服務(wù)體系的研究與實(shí)現(xiàn)[A];2008年中國(guó)通信學(xué)會(huì)無(wú)線及移動(dòng)通信委員會(huì)學(xué)術(shù)年會(huì)論文集[C];2008年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 劉洋;基于本體的醫(yī)保審計(jì)知識(shí)庫(kù)構(gòu)建研究[D];哈爾濱工程大學(xué);2010年
2 王森;基于主題樹(shù)的自上而下文本復(fù)制檢測(cè)研究[D];大連理工大學(xué);2010年
3 孔勝;文本資源的知識(shí)抽取研究[D];大連理工大學(xué);2010年
4 呂韶華;面向中文評(píng)論文本的情感傾向性研究[D];大連理工大學(xué);2010年
5 邢鑫巖;基于序列模型的情感分析研究[D];大連理工大學(xué);2010年
6 蔡頌梅;語(yǔ)義增強(qiáng)的關(guān)系相似度度量算法研究[D];華東師范大學(xué);2011年
7 楊朝玉;基于知網(wǎng)的受限域問(wèn)答系統(tǒng)原型的設(shè)計(jì)與實(shí)現(xiàn)[D];華南理工大學(xué);2010年
8 王阿婷;基于概念集合的網(wǎng)頁(yè)內(nèi)容過(guò)濾方法的研究[D];北京交通大學(xué);2010年
9 樊春雷;基于語(yǔ)義分析的糖尿病健康教育系統(tǒng)研究與實(shí)現(xiàn)[D];華東理工大學(xué);2011年
10 胡青;語(yǔ)義目錄的實(shí)現(xiàn)機(jī)制研究[D];武漢科技大學(xué);2010年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 趙蔚;劉秀琴;邱百爽;;語(yǔ)義網(wǎng)自適應(yīng)學(xué)習(xí)系統(tǒng)中領(lǐng)域本體的構(gòu)建[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2008年05期
2 朱靖波,王寶庫(kù),姚天順;一種規(guī)則描述語(yǔ)言NPRDL語(yǔ)言[J];東北大學(xué)學(xué)報(bào);1996年06期
3 程濤;施水才;王霞;呂學(xué)強(qiáng);;基于同義詞詞林的中文文本主題詞提取[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年02期
4 魯川,緱瑞隆,劉欽榮;交易類(lèi)四價(jià)動(dòng)詞及漢語(yǔ)謂詞配價(jià)的分類(lèi)系統(tǒng)[J];漢語(yǔ)學(xué)習(xí);2000年06期
5 邱百爽;趙蔚;劉秀琴;;基于語(yǔ)義網(wǎng)的自適應(yīng)學(xué)習(xí)系統(tǒng)中用戶(hù)模型的研究[J];開(kāi)放教育研究;2008年04期
6 黃河燕,陳肇雄,胡曾劍;IHSMTS中實(shí)例模式獲取機(jī)制的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)研究與發(fā)展;2002年05期
7 王長(zhǎng)勝,劉群;基于實(shí)例的漢英機(jī)器翻譯系統(tǒng)研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2002年08期
8 吳健,吳朝暉,李瑩,鄧水光;基于本體論和詞匯語(yǔ)義相似度的Web服務(wù)發(fā)現(xiàn)[J];計(jì)算機(jī)學(xué)報(bào);2005年04期
9 章志凌;虞立群;陳奕秋;羅海飛;邵曉敏;;基于Corpus庫(kù)的詞語(yǔ)相似度計(jì)算方法[J];計(jì)算機(jī)應(yīng)用;2006年03期
10 余正濤,高盛祥,紀(jì)鵬程;RDAQAS中問(wèn)句相似度計(jì)算方法研究[J];昆明理工大學(xué)學(xué)報(bào)(理工版);2004年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條
1 魯松;白碩;;詞距離的計(jì)算方法[A];自然語(yǔ)言理解與機(jī)器翻譯——全國(guó)第六屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2001年
2 關(guān)毅;王曉龍;;基于統(tǒng)計(jì)的漢語(yǔ)詞匯間語(yǔ)義相似度計(jì)算[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
3 顏偉;荀恩東;;基于WordNet的英語(yǔ)詞語(yǔ)相似度計(jì)算[A];第二屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2004年
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 郭帆;余敏;葉繼華;;一種基于分類(lèi)和相似度的報(bào)警聚合方法[J];計(jì)算機(jī)應(yīng)用;2007年10期
2 許鵬遠(yuǎn);黨延忠;;基于元相似度的推薦算法[J];計(jì)算機(jī)應(yīng)用研究;2011年10期
3 孫喜來(lái);王欣;葛昂;鄭家民;鄧宏斌;;面向相似度的多維異構(gòu)數(shù)據(jù)比對(duì)模型研究[J];信息安全與技術(shù);2011年09期
4 楊云;朱學(xué)峰;;一種新的計(jì)算中藥指紋圖譜相似度方法與實(shí)現(xiàn)[J];計(jì)算機(jī)測(cè)量與控制;2007年10期
5 熊子奇;張暉;林茂松;;基于相似度的中文網(wǎng)頁(yè)正文提取算法[J];西南科技大學(xué)學(xué)報(bào);2010年01期
6 劉萍;陳燁;;詞匯相似度研究進(jìn)展綜述[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2012年Z1期
7 孫瑤瑤;劉杰;;基于Embedded MATLAB函數(shù)模塊的圖像相似度的實(shí)現(xiàn)[J];計(jì)算機(jī)與數(shù)字工程;2010年02期
8 朱新懿;耿國(guó)華;;顱面重構(gòu)中顱面相似度比較[J];計(jì)算機(jī)應(yīng)用研究;2010年08期
9 厲晗;徐向民;尤芳敏;錢(qián)民;馬東;;利用相似度分割特征集的混合核構(gòu)造方法[J];科學(xué)技術(shù)與工程;2007年04期
10 邢長(zhǎng)征;孫偉;;一種改進(jìn)的基于句子相似度的檢測(cè)算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2010年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條
1 杜琦;鞏政;;基于字符串相似度的自動(dòng)評(píng)分算法實(shí)現(xiàn)[A];2011年全國(guó)電子信息技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2011年
2 韓敏;唐常杰;段磊;李川;鞏杰;;基于TF/IDF相似度的標(biāo)簽聚類(lèi)方法[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(A輯)[C];2009年
3 郭帆;葉繼華;余敏;;分布式IDS報(bào)警聚合研究與實(shí)現(xiàn)[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
4 何梅;劉亞軍;陳耿;;詞性劃分和差額法在主觀題閱卷中的應(yīng)用[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 朱新懿;三維顱面相似度比較的研究[D];西北大學(xué);2012年
2 吳迪;基于加權(quán)相似度的序列聚類(lèi)算法研究[D];燕山大學(xué);2014年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 唐凌志;基于語(yǔ)義理解的論文相似度研究[D];湘潭大學(xué);2011年
2 梁浩;網(wǎng)絡(luò)新聞相似度檢測(cè)系統(tǒng)[D];吉林大學(xué);2011年
3 單晗懷;跨媒體相似度機(jī)制研究和實(shí)現(xiàn)[D];浙江大學(xué);2006年
4 朱松;術(shù)語(yǔ)相似度和術(shù)語(yǔ)相關(guān)度的融合研究及應(yīng)用[D];河北大學(xué);2008年
5 裴冬梅;程序代碼相似度中的代碼轉(zhuǎn)換技術(shù)的研究[D];內(nèi)蒙古師范大學(xué);2008年
6 徐德玉;中文文檔內(nèi)容相似度檢測(cè)方法研究[D];長(zhǎng)春工業(yè)大學(xué);2010年
7 黃妮;網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)中的分詞與句子相似度算法研究[D];陜西師范大學(xué);2012年
8 張金鵬;基于語(yǔ)義的文本相似度算法研究及應(yīng)用[D];重慶理工大學(xué);2014年
9 張慧云;基于語(yǔ)句相似度的中文文本復(fù)制檢測(cè)技術(shù)研究[D];北京郵電大學(xué);2015年
10 王艷紅;基于節(jié)點(diǎn)相似度的復(fù)雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法的研究[D];西安電子科技大學(xué);2014年
本文關(guān)鍵詞:中文文本復(fù)制檢測(cè)技術(shù)研究,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):168438
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/168438.html