基于馬爾科夫模型詞序因子的文本相似度研究
[Abstract]:In the application of Chinese information processing, text similarity calculation is the lowest work. It is widely used in all word processing systems, such as search engine, text search, information retrieval and so on. A text similarity algorithm, mainly reflected in the accuracy and efficiency, the results should be as close as possible to the artificial method, running time should be as little as possible. At present, the methods used are mainly based on keyword matching. The extraction of text feature items in many algorithms is based on (VSM), query speed based on spatial vector model, but this kind of method has obvious shortcomings. Many factors, such as synonyms, polysemous words, word order and so on, are not taken into account. In this paper, we propose a Chinese text similarity algorithm based on word order factor of Markov model. Referring to a lot of relevant literatures at home and abroad, this paper makes further research on the current text similarity calculation method. In this paper, a new method of text similarity calculation is proposed, which uses knowledge structure to calculate similarity, including polysemous words and synonyms, and then combines word order factors with Markov model. The semantic similarity is applied to Markov model, and the factors such as word frequency, synonym, polysemy, word order and so on are considered. From the comparison of the traditional space vector model and the semantic similarity calculation method, it can be seen that the algorithm has higher accuracy and practicability. Finally, several smaller text documents are used to test the algorithm, and several different similarity calculation methods are tested and compared to illustrate the similarity method based on Markov. The accuracy and feasibility are improved compared with the traditional calculation methods. Through the accuracy of the research results of the subject to test the comparison. It provides a new idea for the development of text similarity algorithm.
【學(xué)位授予單位】:湖北工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李歡,宋麥玲,楊捷;基于內(nèi)容的圖像檢索系統(tǒng)[J];自動化博覽;2005年04期
2 張婧;李玨峰;;數(shù)據(jù)挖掘技術(shù)在BBS管理中的應(yīng)用[J];福建電腦;2008年04期
3 史豪杰;邢清華;劉付顯;;基于引入概率的范例匹配新方法[J];計(jì)算機(jī)工程與應(yīng)用;2009年10期
4 大魚兒;;自動擴(kuò)展大小的TEdit[J];軟件;2001年07期
5 王煜;白石;王正歐;;用于Web文本分類的快速KNN算法[J];情報(bào)學(xué)報(bào);2007年01期
6 趙俊杰;胡學(xué)鋼;;基于文本分類的文檔相似度計(jì)算[J];微型電腦應(yīng)用;2008年12期
7 郝祥根;楊思春;高遠(yuǎn)飆;張偉;;基于向量空間模型的中文問答系統(tǒng)研究與實(shí)現(xiàn)[J];蘇州科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2009年01期
8 王波;薛媛媚;;網(wǎng)上銷售常問問答系統(tǒng)的構(gòu)建[J];軟件導(dǎo)刊;2009年02期
9 袁正午;李玉森;張雪英;;基于屬性的文本相似度計(jì)算算法改進(jìn)[J];計(jì)算機(jī)工程;2009年17期
10 繆勇;宋斌;;基于Web日志的典型匿名用戶路徑挖掘研究[J];計(jì)算機(jī)應(yīng)用;2009年10期
相關(guān)會議論文 前10條
1 王凱;李紹穩(wěn);張友華;劉超;;缺值背景中的粗糙形式概念相似度計(jì)算理論與方法[A];中國農(nóng)業(yè)工程學(xué)會電氣信息與自動化專業(yè)委員會、中國電機(jī)工程學(xué)會農(nóng)村電氣化分會科技與教育專委會2010年學(xué)術(shù)年會論文摘要[C];2010年
2 陳立;宋自林;鄭世明;張英;;基于本體的概念相似度計(jì)算研究[A];江蘇省系統(tǒng)工程學(xué)會第十一屆學(xué)術(shù)年會論文集[C];2009年
3 吳志雄;;不精確數(shù)據(jù)的相似度計(jì)算[A];邏輯學(xué)及其應(yīng)用研究——第四屆全國邏輯系統(tǒng)、智能科學(xué)與信息科學(xué)學(xué)術(shù)會議論文集[C];2008年
4 陳光強(qiáng);楊樹強(qiáng);張曉輝;李潤恒;賈焰;;面向海量文本數(shù)據(jù)的多任務(wù)并行調(diào)度加載技術(shù)研究與實(shí)現(xiàn)[A];第15屆全國信息存儲技術(shù)學(xué)術(shù)會議論文集[C];2008年
5 車萬翔;劉挺;秦兵;李生;;面向雙語句對檢索的漢語句子相似度計(jì)算[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
6 李虎;鄒鵬;賈焰;周斌;;一種基于Map Reduce的分布式文本數(shù)據(jù)過濾模型研究[A];第26次全國計(jì)算機(jī)安全學(xué)術(shù)交流會論文集[C];2011年
7 丁兆云;賈焰;周斌;;基于文本數(shù)據(jù)的多維層次式輿情計(jì)算模型的研究與實(shí)現(xiàn)[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(一)[C];2008年
8 沈君;馬生全;;兩種新的相似性度量在模糊推理中的應(yīng)用[A];中國運(yùn)籌學(xué)會模糊信息與模糊工程分會第五屆學(xué)術(shù)年會論文集[C];2010年
9 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年
10 蔡嘉榮;印鑒;劉玉葆;黃志蘭;;一種有效的文本聚類算法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2006年
相關(guān)重要報(bào)紙文章 前10條
1 曾華q
本文編號:2182476
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2182476.html