天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于馬爾科夫模型詞序因子的文本相似度研究

發(fā)布時間:2018-08-14 09:45
【摘要】:在中文信息處理的應用中,文本相似度計算是最底層的工作,在所有的文字處理系統(tǒng)中都要用到文本相似度,使用非常廣泛,比如搜索引擎、文本查重、信息檢索等領域,一個文本相似度算法的好壞,主要體現(xiàn)在正確率和運行效率上,結果要盡可能的接近人工的方法,運行時間要盡可能的少。目前用的方法主要是基于關鍵詞匹配的方法,很多算法的文本的特征項的抽取都是基于空間向量模型的(VSM),查詢速度快,但是該類方法有明顯不足之處,很多對文本相似度的計算帶來的影響的因素沒考慮在內,比如同義詞、多義詞、詞序等因素。 本文提出了一種基于馬爾科夫模型詞序因子的中文文本相似度算法,參考了很多國內外相關文獻,對當前文本相似度計算方法的情況做了進一步研究,提出了新的文本相似度計算方法——采用《知網》知識結構進行相似度計算的方法,把多義詞和同義詞等因素考慮在內,然后結合馬爾科夫模型,,把詞序因素結合進去,即把語義相似度應用到馬爾科夫模型當中去,綜合考慮了詞頻、同義詞、多義詞、詞序等因素。從傳統(tǒng)的空間向量模型和語義相似度計算方法的對比結果可以看出,該算法具有較高的正確率,具有一定的實用性。 最后,利用幾個較小的文本文檔對該算法進行測試,對幾種不同的相似度計算方法進行測試對比,說明基于馬爾科夫的相似度方法,正確率和可行性方面比傳統(tǒng)幾種計算方法有一定的提高。通過在準確度方面對本課題的研究成果進行測試上的比對。為文本相似度算法的發(fā)展提供一種新的思路。
[Abstract]:In the application of Chinese information processing, text similarity calculation is the lowest work. It is widely used in all word processing systems, such as search engine, text search, information retrieval and so on. A text similarity algorithm, mainly reflected in the accuracy and efficiency, the results should be as close as possible to the artificial method, running time should be as little as possible. At present, the methods used are mainly based on keyword matching. The extraction of text feature items in many algorithms is based on (VSM), query speed based on spatial vector model, but this kind of method has obvious shortcomings. Many factors, such as synonyms, polysemous words, word order and so on, are not taken into account. In this paper, we propose a Chinese text similarity algorithm based on word order factor of Markov model. Referring to a lot of relevant literatures at home and abroad, this paper makes further research on the current text similarity calculation method. In this paper, a new method of text similarity calculation is proposed, which uses knowledge structure to calculate similarity, including polysemous words and synonyms, and then combines word order factors with Markov model. The semantic similarity is applied to Markov model, and the factors such as word frequency, synonym, polysemy, word order and so on are considered. From the comparison of the traditional space vector model and the semantic similarity calculation method, it can be seen that the algorithm has higher accuracy and practicability. Finally, several smaller text documents are used to test the algorithm, and several different similarity calculation methods are tested and compared to illustrate the similarity method based on Markov. The accuracy and feasibility are improved compared with the traditional calculation methods. Through the accuracy of the research results of the subject to test the comparison. It provides a new idea for the development of text similarity algorithm.
【學位授予單位】:湖北工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.1

【相似文獻】

相關期刊論文 前10條

1 李歡,宋麥玲,楊捷;基于內容的圖像檢索系統(tǒng)[J];自動化博覽;2005年04期

2 張婧;李玨峰;;數(shù)據(jù)挖掘技術在BBS管理中的應用[J];福建電腦;2008年04期

3 史豪杰;邢清華;劉付顯;;基于引入概率的范例匹配新方法[J];計算機工程與應用;2009年10期

4 大魚兒;;自動擴展大小的TEdit[J];軟件;2001年07期

5 王煜;白石;王正歐;;用于Web文本分類的快速KNN算法[J];情報學報;2007年01期

6 趙俊杰;胡學鋼;;基于文本分類的文檔相似度計算[J];微型電腦應用;2008年12期

7 郝祥根;楊思春;高遠飆;張偉;;基于向量空間模型的中文問答系統(tǒng)研究與實現(xiàn)[J];蘇州科技學院學報(自然科學版);2009年01期

8 王波;薛媛媚;;網上銷售常問問答系統(tǒng)的構建[J];軟件導刊;2009年02期

9 袁正午;李玉森;張雪英;;基于屬性的文本相似度計算算法改進[J];計算機工程;2009年17期

10 繆勇;宋斌;;基于Web日志的典型匿名用戶路徑挖掘研究[J];計算機應用;2009年10期

相關會議論文 前10條

1 王凱;李紹穩(wěn);張友華;劉超;;缺值背景中的粗糙形式概念相似度計算理論與方法[A];中國農業(yè)工程學會電氣信息與自動化專業(yè)委員會、中國電機工程學會農村電氣化分會科技與教育專委會2010年學術年會論文摘要[C];2010年

2 陳立;宋自林;鄭世明;張英;;基于本體的概念相似度計算研究[A];江蘇省系統(tǒng)工程學會第十一屆學術年會論文集[C];2009年

3 吳志雄;;不精確數(shù)據(jù)的相似度計算[A];邏輯學及其應用研究——第四屆全國邏輯系統(tǒng)、智能科學與信息科學學術會議論文集[C];2008年

4 陳光強;楊樹強;張曉輝;李潤恒;賈焰;;面向海量文本數(shù)據(jù)的多任務并行調度加載技術研究與實現(xiàn)[A];第15屆全國信息存儲技術學術會議論文集[C];2008年

5 車萬翔;劉挺;秦兵;李生;;面向雙語句對檢索的漢語句子相似度計算[A];語言計算與基于內容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年

6 李虎;鄒鵬;賈焰;周斌;;一種基于Map Reduce的分布式文本數(shù)據(jù)過濾模型研究[A];第26次全國計算機安全學術交流會論文集[C];2011年

7 丁兆云;賈焰;周斌;;基于文本數(shù)據(jù)的多維層次式輿情計算模型的研究與實現(xiàn)[A];第二十五屆中國數(shù)據(jù)庫學術會議論文集(一)[C];2008年

8 沈君;馬生全;;兩種新的相似性度量在模糊推理中的應用[A];中國運籌學會模糊信息與模糊工程分會第五屆學術年會論文集[C];2010年

9 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年

10 蔡嘉榮;印鑒;劉玉葆;黃志蘭;;一種有效的文本聚類算法[A];第二十三屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2006年

相關重要報紙文章 前10條

1 曾華q

本文編號:2182476


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2182476.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶d90ca***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
欧美不雅视频午夜福利| 日韩av亚洲一区二区三区| 91偷拍视频久久精品| 午夜视频成人在线观看| 亚洲深夜精品福利一区| 国产精品免费视频视频| 国内自拍偷拍福利视频| 中文字幕一区二区久久综合| 日韩一区二区三区久久| 年轻女房东2中文字幕| 伊人欧美一区二区三区| 久久精品久久久精品久久| 99久久免费中文字幕| 黄色在线免费高清观看| 久久经典一区二区三区| 色婷婷久久五月中文字幕| 欧洲偷拍视频中文字幕| 日韩中文字幕有码午夜美女| 精品国产亚洲区久久露脸| 成人精品一级特黄大片| 亚洲av一区二区三区精品| 邻居人妻人公侵犯人妻视频| 激情五月综五月综合网| 免费性欧美重口味黄色| 久久99爱爱视频视频| 丁香六月婷婷基地伊人| 亚洲中文字幕人妻系列| 丁香六月啪啪激情综合区| 国产欧美精品对白性色| 视频在线免费观看你懂的 | 蜜桃传媒视频麻豆第一区| 日韩女优精品一区二区三区| 国产美女网红精品演绎| 日本妇女高清一区二区三区| 亚洲一区二区三区三州| 日韩三极片在线免费播放| 中文文精品字幕一区二区| 日本高清不卡在线一区| 国产一级内片内射免费看 | 欧美三级精品在线观看| 色欧美一区二区三区在线|