基于馬爾科夫模型詞序因子的文本相似度研究
[Abstract]:In the application of Chinese information processing, text similarity calculation is the lowest work. It is widely used in all word processing systems, such as search engine, text search, information retrieval and so on. A text similarity algorithm, mainly reflected in the accuracy and efficiency, the results should be as close as possible to the artificial method, running time should be as little as possible. At present, the methods used are mainly based on keyword matching. The extraction of text feature items in many algorithms is based on (VSM), query speed based on spatial vector model, but this kind of method has obvious shortcomings. Many factors, such as synonyms, polysemous words, word order and so on, are not taken into account. In this paper, we propose a Chinese text similarity algorithm based on word order factor of Markov model. Referring to a lot of relevant literatures at home and abroad, this paper makes further research on the current text similarity calculation method. In this paper, a new method of text similarity calculation is proposed, which uses knowledge structure to calculate similarity, including polysemous words and synonyms, and then combines word order factors with Markov model. The semantic similarity is applied to Markov model, and the factors such as word frequency, synonym, polysemy, word order and so on are considered. From the comparison of the traditional space vector model and the semantic similarity calculation method, it can be seen that the algorithm has higher accuracy and practicability. Finally, several smaller text documents are used to test the algorithm, and several different similarity calculation methods are tested and compared to illustrate the similarity method based on Markov. The accuracy and feasibility are improved compared with the traditional calculation methods. Through the accuracy of the research results of the subject to test the comparison. It provides a new idea for the development of text similarity algorithm.
【學位授予單位】:湖北工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.1
【相似文獻】
相關期刊論文 前10條
1 李歡,宋麥玲,楊捷;基于內容的圖像檢索系統(tǒng)[J];自動化博覽;2005年04期
2 張婧;李玨峰;;數(shù)據(jù)挖掘技術在BBS管理中的應用[J];福建電腦;2008年04期
3 史豪杰;邢清華;劉付顯;;基于引入概率的范例匹配新方法[J];計算機工程與應用;2009年10期
4 大魚兒;;自動擴展大小的TEdit[J];軟件;2001年07期
5 王煜;白石;王正歐;;用于Web文本分類的快速KNN算法[J];情報學報;2007年01期
6 趙俊杰;胡學鋼;;基于文本分類的文檔相似度計算[J];微型電腦應用;2008年12期
7 郝祥根;楊思春;高遠飆;張偉;;基于向量空間模型的中文問答系統(tǒng)研究與實現(xiàn)[J];蘇州科技學院學報(自然科學版);2009年01期
8 王波;薛媛媚;;網上銷售常問問答系統(tǒng)的構建[J];軟件導刊;2009年02期
9 袁正午;李玉森;張雪英;;基于屬性的文本相似度計算算法改進[J];計算機工程;2009年17期
10 繆勇;宋斌;;基于Web日志的典型匿名用戶路徑挖掘研究[J];計算機應用;2009年10期
相關會議論文 前10條
1 王凱;李紹穩(wěn);張友華;劉超;;缺值背景中的粗糙形式概念相似度計算理論與方法[A];中國農業(yè)工程學會電氣信息與自動化專業(yè)委員會、中國電機工程學會農村電氣化分會科技與教育專委會2010年學術年會論文摘要[C];2010年
2 陳立;宋自林;鄭世明;張英;;基于本體的概念相似度計算研究[A];江蘇省系統(tǒng)工程學會第十一屆學術年會論文集[C];2009年
3 吳志雄;;不精確數(shù)據(jù)的相似度計算[A];邏輯學及其應用研究——第四屆全國邏輯系統(tǒng)、智能科學與信息科學學術會議論文集[C];2008年
4 陳光強;楊樹強;張曉輝;李潤恒;賈焰;;面向海量文本數(shù)據(jù)的多任務并行調度加載技術研究與實現(xiàn)[A];第15屆全國信息存儲技術學術會議論文集[C];2008年
5 車萬翔;劉挺;秦兵;李生;;面向雙語句對檢索的漢語句子相似度計算[A];語言計算與基于內容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年
6 李虎;鄒鵬;賈焰;周斌;;一種基于Map Reduce的分布式文本數(shù)據(jù)過濾模型研究[A];第26次全國計算機安全學術交流會論文集[C];2011年
7 丁兆云;賈焰;周斌;;基于文本數(shù)據(jù)的多維層次式輿情計算模型的研究與實現(xiàn)[A];第二十五屆中國數(shù)據(jù)庫學術會議論文集(一)[C];2008年
8 沈君;馬生全;;兩種新的相似性度量在模糊推理中的應用[A];中國運籌學會模糊信息與模糊工程分會第五屆學術年會論文集[C];2010年
9 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年
10 蔡嘉榮;印鑒;劉玉葆;黃志蘭;;一種有效的文本聚類算法[A];第二十三屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2006年
相關重要報紙文章 前10條
1 曾華q
本文編號:2182476
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2182476.html