基于罰分因子的論文相似度檢測研究
本文關(guān)鍵詞:基于罰分因子的論文相似度檢測研究
【摘要】:提出一種特殊標記符和詞根沙普利值二步驟分詞模型,提高分詞的準確率,通過搜索引擎指數(shù)來識別新詞。在相似度比較方面,提出了帶行列順序罰分因子距離矩陣模型,該模型綜合了向量檢測、漢明距離和最長公共子串的特點,重新定義了距離矩陣。與傳統(tǒng)的論文相似性檢索相比,具有分詞準確,計算量小等優(yōu)點。
【作者單位】: 湖北工業(yè)大學計算機學院;
【關(guān)鍵詞】: 中文分詞 相似度比較 距離矩陣
【基金】:湖北省教育廳科學研究計劃資助項目(D20141403)
【分類號】:TP391.1
【正文快照】: 論文檢測以相似度計算為基礎(chǔ),利用計算機自動計算文本間的相似度[1]。文本相似度的計算廣泛應(yīng)用于信息檢索、機器翻譯、自動問答系統(tǒng)、文本挖掘等領(lǐng)域,是一個非;A(chǔ)而關(guān)鍵的問題,長期以來一直是人們研究的熱點和難點[2]。當前文本相似度檢測的主要算法有:向量空間模型Vector
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前5條
1 張煥炯,王國勝,鐘義信;基于漢明距離的文本相似度計算[J];計算機工程與應(yīng)用;2001年19期
2 王春紅;張敏;;隱含語義索引模型的分析與研究[J];計算機應(yīng)用;2007年05期
3 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機制——雙字哈希機制[J];中文信息學報;2003年04期
4 陳飛;王秀峰;饒一梅;;一種混合的中文分詞算法[J];南開大學學報(自然科學版);2007年05期
5 張春霞,郝天永;漢語自動分詞的研究現(xiàn)狀與困難[J];系統(tǒng)仿真學報;2005年01期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 高艷萍;于紅;尹祥貴;綦孝姬;王春永;趙志強;;基于雙數(shù)組Trie樹的漁業(yè)領(lǐng)域分詞研究[J];安徽農(nóng)業(yè)科學;2008年11期
2 敖成龍,蘇英,龔元明;基于相似度的復雜數(shù)據(jù)對象比較[J];北京理工大學學報;2003年05期
3 游福成;;一種基于反饋機制的Web文本挖掘分類算法[J];北京印刷學院學報;2009年02期
4 張林曼;吳升;;地理編碼系統(tǒng)中地名地址分詞算法研究[J];測繪科學;2010年02期
5 田占霄;韓憲忠;王克儉;;一種改進的長詞優(yōu)先逆向最大匹配分詞消歧策略[J];河北農(nóng)業(yè)大學學報;2009年04期
6 趙春紅;高希龍;王檸;趙威;劉國華;;一種應(yīng)用分治策略的中文分詞方法[J];燕山大學學報;2009年05期
7 曲維光;唐旭日;俞敬松;;超大規(guī)模語料庫精加工技術(shù)研究[J];當代語言學;2009年02期
8 于源,衣襲;中文全切分快速分詞方法[J];大連鐵道學院學報;2005年02期
9 范卓華;李茹;梅瑞;張虎;;IUC構(gòu)建在農(nóng)業(yè)專家系統(tǒng)中的應(yīng)用[J];電腦開發(fā)與應(yīng)用;2007年02期
10 謝紅薇;王棟;;基于Web文本挖掘中的一種中文分詞算法研究[J];電腦開發(fā)與應(yīng)用;2007年07期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 刮俊杰;吳樹國;伊勝偉;;基于詞效應(yīng)的中文術(shù)語提取方法[A];第三屆中國智能計算大會論文集[C];2009年
2 蘇亮;孫斌;;一種基于Lucene的Hash改進中文分詞算法的實現(xiàn)[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學術(shù)會議論文集(上冊)[C];2007年
3 吳晶晶;荊繼武;王平建;;一種基于詞典的新型中文分詞機制[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年
4 李江波;周強;陳祖舜;;漢語詞典快速查詢算法研究[A];第二屆全國學生計算語言學研討會論文集[C];2004年
5 楊超;李仁發(fā);蔣斌;;一種高效的漢語自動分詞詞典機制[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2004年
6 李江波;周強;陳祖舜;;漢語詞典的快速查詢算法研究[A];第二屆全國信息檢索與內(nèi)容安全學術(shù)會議(NCIRCS-2005)論文集[C];2005年
7 劉悅;許洪波;程學旗;;互聯(lián)網(wǎng)挖掘和搜索的研究進展[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術(shù)會議論文集[C];2006年
8 滿正行;高璐;;藏語單語料庫分析及標注探討[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學術(shù)研討會論文集[C];2007年
9 劉東生;尹寶生;張桂平;徐立軍;苗雪雷;;面向?qū)@墨I的中文分詞技術(shù)的研究[A];第五屆全國信息檢索學術(shù)會議論文集[C];2009年
10 嚴燦勛;劉慧敏;;從語義關(guān)系的復雜性看語義詞典建設(shè)[A];第五屆全國青年計算語言學研討會論文集[C];2010年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 單建芳;面向事件的文本表示研究[D];上海大學;2012年
2 隋巖;基于“動態(tài)流通語料庫”的“有效字符串”提取研究[D];北京語言大學;2004年
3 易勇;計算機輔助詩詞創(chuàng)作中的風格辨析及聯(lián)語應(yīng)對研究[D];重慶大學;2005年
4 楊雨圖;支持雙語的協(xié)同CAPP系統(tǒng)若干關(guān)鍵技術(shù)研究[D];南京航空航天大學;2006年
5 劉濤;現(xiàn)代信息檢索中的文本分類及圖像恢復研究[D];北京郵電大學;2006年
6 熊文新;信息檢索Query語言分析[D];北京語言大學;2006年
7 張春霞;領(lǐng)域文本知識獲取方法研究及其在考古領(lǐng)域中的應(yīng)用[D];中國科學院研究生院(計算技術(shù)研究所);2005年
8 姜韶華;科研項目管理中的文本挖掘方法研究及應(yīng)用[D];大連理工大學;2006年
9 曹錦丹;多視角信息組織模式研究[D];吉林大學;2006年
10 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復旦大學;2007年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 劉洋;基于本體的醫(yī)保審計知識庫構(gòu)建研究[D];哈爾濱工程大學;2010年
2 劉靖媛;個性搜索引擎中用戶興趣模型研究[D];哈爾濱工程大學;2010年
3 孫萍;面向事件的多文檔自動文摘研究[D];江蘇大學;2010年
4 劉金鳳;面向自然語言處理的漢語句子語義知識庫構(gòu)建研究[D];魯東大學;2009年
5 李丹;基于規(guī)則與統(tǒng)計的漢語自動分詞研究[D];長春工業(yè)大學;2010年
6 呂靖;互聯(lián)網(wǎng)搜索詞分類關(guān)鍵技術(shù)研究[D];浙江大學;2011年
7 梁楨;基于尾字詞典的逆向回溯中文分詞技術(shù)研究[D];武漢工業(yè)學院;2010年
8 司圣濤;領(lǐng)域知識庫的構(gòu)建方法及其應(yīng)用研究[D];昆明理工大學;2009年
9 李福轉(zhuǎn);基于內(nèi)容的垃圾郵件過濾技術(shù)的研究[D];電子科技大學;2010年
10 曹亞輝;非結(jié)構(gòu)文本最佳近似匹配系統(tǒng)的研究與實現(xiàn)[D];東華大學;2011年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 高軍,陳錫先;無監(jiān)督的動態(tài)分詞方法[J];北京郵電大學學報;1997年04期
2 王錫江;王啟祥;陳家駿;;基于鄰接知識的漢語自動分詞系統(tǒng)[J];計算機研究與發(fā)展;1992年11期
3 付國宏,王曉龍;漢語詞語邊界自動劃分的模型與算法[J];計算機研究與發(fā)展;1999年09期
4 吳勝遠;一種漢語分詞方法[J];計算機研究與發(fā)展;1996年04期
5 孫茂松,黃昌寧,鄒嘉彥,陸方,沈達陽;利用漢字二元語法關(guān)系解決漢語自動分詞中的交集型歧義[J];計算機研究與發(fā)展;1997年05期
6 吳勝遠;并行分詞方法的研究[J];計算機研究與發(fā)展;1997年07期
7 李振星,徐澤平,唐衛(wèi)清,唐榮錫;全二分最大匹配快速分詞算法[J];計算機工程與應(yīng)用;2002年11期
8 譚瓊,史忠植;分詞中的歧義處理[J];計算機工程與應(yīng)用;2002年11期
9 潘謙紅,王炬,史忠植;基于屬性論的文本相似度計算[J];計算機學報;1999年06期
10 趙軍,黃昌寧;漢語基本名詞短語結(jié)構(gòu)分析模型[J];計算機學報;1999年02期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 郭帆;余敏;葉繼華;;一種基于分類和相似度的報警聚合方法[J];計算機應(yīng)用;2007年10期
2 許鵬遠;黨延忠;;基于元相似度的推薦算法[J];計算機應(yīng)用研究;2011年10期
3 孫喜來;王欣;葛昂;鄭家民;鄧宏斌;;面向相似度的多維異構(gòu)數(shù)據(jù)比對模型研究[J];信息安全與技術(shù);2011年09期
4 楊云;朱學峰;;一種新的計算中藥指紋圖譜相似度方法與實現(xiàn)[J];計算機測量與控制;2007年10期
5 熊子奇;張暉;林茂松;;基于相似度的中文網(wǎng)頁正文提取算法[J];西南科技大學學報;2010年01期
6 劉萍;陳燁;;詞匯相似度研究進展綜述[J];現(xiàn)代圖書情報技術(shù);2012年Z1期
7 孫瑤瑤;劉杰;;基于Embedded MATLAB函數(shù)模塊的圖像相似度的實現(xiàn)[J];計算機與數(shù)字工程;2010年02期
8 朱新懿;耿國華;;顱面重構(gòu)中顱面相似度比較[J];計算機應(yīng)用研究;2010年08期
9 厲晗;徐向民;尤芳敏;錢民;馬東;;利用相似度分割特征集的混合核構(gòu)造方法[J];科學技術(shù)與工程;2007年04期
10 邢長征;孫偉;;一種改進的基于句子相似度的檢測算法[J];計算機系統(tǒng)應(yīng)用;2010年02期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 杜琦;鞏政;;基于字符串相似度的自動評分算法實現(xiàn)[A];2011年全國電子信息技術(shù)與應(yīng)用學術(shù)會議論文集[C];2011年
2 韓敏;唐常杰;段磊;李川;鞏杰;;基于TF/IDF相似度的標簽聚類方法[A];第26屆中國數(shù)據(jù)庫學術(shù)會議論文集(A輯)[C];2009年
3 郭帆;葉繼華;余敏;;分布式IDS報警聚合研究與實現(xiàn)[A];2008'中國信息技術(shù)與應(yīng)用學術(shù)論壇論文集(二)[C];2008年
4 何梅;劉亞軍;陳耿;;詞性劃分和差額法在主觀題閱卷中的應(yīng)用[A];第二十四屆中國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2007年
中國博士學位論文全文數(shù)據(jù)庫 前2條
1 朱新懿;三維顱面相似度比較的研究[D];西北大學;2012年
2 吳迪;基于加權(quán)相似度的序列聚類算法研究[D];燕山大學;2014年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 唐凌志;基于語義理解的論文相似度研究[D];湘潭大學;2011年
2 梁浩;網(wǎng)絡(luò)新聞相似度檢測系統(tǒng)[D];吉林大學;2011年
3 單晗懷;跨媒體相似度機制研究和實現(xiàn)[D];浙江大學;2006年
4 朱松;術(shù)語相似度和術(shù)語相關(guān)度的融合研究及應(yīng)用[D];河北大學;2008年
5 裴冬梅;程序代碼相似度中的代碼轉(zhuǎn)換技術(shù)的研究[D];內(nèi)蒙古師范大學;2008年
6 徐德玉;中文文檔內(nèi)容相似度檢測方法研究[D];長春工業(yè)大學;2010年
7 黃妮;網(wǎng)絡(luò)學習平臺中的分詞與句子相似度算法研究[D];陜西師范大學;2012年
8 張金鵬;基于語義的文本相似度算法研究及應(yīng)用[D];重慶理工大學;2014年
9 王艷紅;基于節(jié)點相似度的復雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法的研究[D];西安電子科技大學;2014年
10 呂瑞鵬;基于移動概括的新用戶相似度衡量方法[D];山東大學;2014年
,本文編號:707313
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/707313.html