基于馬爾科夫模型詞序因子的文本相似度研究

發(fā)布時間：2018-08-14 09:45

【摘要】：在中文信息處理的應(yīng)用中，文本相似度計(jì)算是最底層的工作，在所有的文字處理系統(tǒng)中都要用到文本相似度，使用非常廣泛，比如搜索引擎、文本查重、信息檢索等領(lǐng)域，一個文本相似度算法的好壞，主要體現(xiàn)在正確率和運(yùn)行效率上，結(jié)果要盡可能的接近人工的方法，運(yùn)行時間要盡可能的少。目前用的方法主要是基于關(guān)鍵詞匹配的方法，很多算法的文本的特征項(xiàng)的抽取都是基于空間向量模型的（VSM），查詢速度快，但是該類方法有明顯不足之處，很多對文本相似度的計(jì)算帶來的影響的因素沒考慮在內(nèi)，比如同義詞、多義詞、詞序等因素。本文提出了一種基于馬爾科夫模型詞序因子的中文文本相似度算法，參考了很多國內(nèi)外相關(guān)文獻(xiàn)，對當(dāng)前文本相似度計(jì)算方法的情況做了進(jìn)一步研究，提出了新的文本相似度計(jì)算方法——采用《知網(wǎng)》知識結(jié)構(gòu)進(jìn)行相似度計(jì)算的方法，把多義詞和同義詞等因素考慮在內(nèi)，然后結(jié)合馬爾科夫模型，，把詞序因素結(jié)合進(jìn)去，即把語義相似度應(yīng)用到馬爾科夫模型當(dāng)中去，綜合考慮了詞頻、同義詞、多義詞、詞序等因素。從傳統(tǒng)的空間向量模型和語義相似度計(jì)算方法的對比結(jié)果可以看出，該算法具有較高的正確率，具有一定的實(shí)用性。最后，利用幾個較小的文本文檔對該算法進(jìn)行測試，對幾種不同的相似度計(jì)算方法進(jìn)行測試對比，說明基于馬爾科夫的相似度方法，正確率和可行性方面比傳統(tǒng)幾種計(jì)算方法有一定的提高。通過在準(zhǔn)確度方面對本課題的研究成果進(jìn)行測試上的比對。為文本相似度算法的發(fā)展提供一種新的思路。
[Abstract]:In the application of Chinese information processing, text similarity calculation is the lowest work. It is widely used in all word processing systems, such as search engine, text search, information retrieval and so on. A text similarity algorithm, mainly reflected in the accuracy and efficiency, the results should be as close as possible to the artificial method, running time should be as little as possible. At present, the methods used are mainly based on keyword matching. The extraction of text feature items in many algorithms is based on (VSM), query speed based on spatial vector model, but this kind of method has obvious shortcomings. Many factors, such as synonyms, polysemous words, word order and so on, are not taken into account. In this paper, we propose a Chinese text similarity algorithm based on word order factor of Markov model. Referring to a lot of relevant literatures at home and abroad, this paper makes further research on the current text similarity calculation method. In this paper, a new method of text similarity calculation is proposed, which uses knowledge structure to calculate similarity, including polysemous words and synonyms, and then combines word order factors with Markov model. The semantic similarity is applied to Markov model, and the factors such as word frequency, synonym, polysemy, word order and so on are considered. From the comparison of the traditional space vector model and the semantic similarity calculation method, it can be seen that the algorithm has higher accuracy and practicability. Finally, several smaller text documents are used to test the algorithm, and several different similarity calculation methods are tested and compared to illustrate the similarity method based on Markov. The accuracy and feasibility are improved compared with the traditional calculation methods. Through the accuracy of the research results of the subject to test the comparison. It provides a new idea for the development of text similarity algorithm.
【學(xué)位授予單位】：湖北工業(yè)大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2012
【分類號】：TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 李歡,宋麥玲,楊捷;基于內(nèi)容的圖像檢索系統(tǒng)[J];自動化博覽;2005年04期

2 張婧;李玨峰;;數(shù)據(jù)挖掘技術(shù)在BBS管理中的應(yīng)用[J];福建電腦;2008年04期

3 史豪杰;邢清華;劉付顯;;基于引入概率的范例匹配新方法[J];計(jì)算機(jī)工程與應(yīng)用;2009年10期

4 大魚兒;;自動擴(kuò)展大小的TEdit[J];軟件;2001年07期

5 王煜;白石;王正歐;;用于Web文本分類的快速KNN算法[J];情報(bào)學(xué)報(bào);2007年01期

6 趙俊杰;胡學(xué)鋼;;基于文本分類的文檔相似度計(jì)算[J];微型電腦應(yīng)用;2008年12期

7 郝祥根;楊思春;高遠(yuǎn)飆;張偉;;基于向量空間模型的中文問答系統(tǒng)研究與實(shí)現(xiàn)[J];蘇州科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2009年01期

8 王波;薛媛媚;;網(wǎng)上銷售常問問答系統(tǒng)的構(gòu)建[J];軟件導(dǎo)刊;2009年02期

9 袁正午;李玉森;張雪英;;基于屬性的文本相似度計(jì)算算法改進(jìn)[J];計(jì)算機(jī)工程;2009年17期

10 繆勇;宋斌;;基于Web日志的典型匿名用戶路徑挖掘研究[J];計(jì)算機(jī)應(yīng)用;2009年10期

相關(guān)會議論文前10條

1 王凱;李紹穩(wěn);張友華;劉超;;缺值背景中的粗糙形式概念相似度計(jì)算理論與方法[A];中國農(nóng)業(yè)工程學(xué)會電氣信息與自動化專業(yè)委員會、中國電機(jī)工程學(xué)會農(nóng)村電氣化分會科技與教育專委會2010年學(xué)術(shù)年會論文摘要[C];2010年

2 陳立;宋自林;鄭世明;張英;;基于本體的概念相似度計(jì)算研究[A];江蘇省系統(tǒng)工程學(xué)會第十一屆學(xué)術(shù)年會論文集[C];2009年

3 吳志雄;;不精確數(shù)據(jù)的相似度計(jì)算[A];邏輯學(xué)及其應(yīng)用研究——第四屆全國邏輯系統(tǒng)、智能科學(xué)與信息科學(xué)學(xué)術(shù)會議論文集[C];2008年

4 陳光強(qiáng);楊樹強(qiáng);張曉輝;李潤恒;賈焰;;面向海量文本數(shù)據(jù)的多任務(wù)并行調(diào)度加載技術(shù)研究與實(shí)現(xiàn)[A];第15屆全國信息存儲技術(shù)學(xué)術(shù)會議論文集[C];2008年

5 車萬翔;劉挺;秦兵;李生;;面向雙語句對檢索的漢語句子相似度計(jì)算[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年

6 李虎;鄒鵬;賈焰;周斌;;一種基于Map Reduce的分布式文本數(shù)據(jù)過濾模型研究[A];第26次全國計(jì)算機(jī)安全學(xué)術(shù)交流會論文集[C];2011年

7 丁兆云;賈焰;周斌;;基于文本數(shù)據(jù)的多維層次式輿情計(jì)算模型的研究與實(shí)現(xiàn)[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集（一）[C];2008年

8 沈君;馬生全;;兩種新的相似性度量在模糊推理中的應(yīng)用[A];中國運(yùn)籌學(xué)會模糊信息與模糊工程分會第五屆學(xué)術(shù)年會論文集[C];2010年

9 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年

10 蔡嘉榮;印鑒;劉玉葆;黃志蘭;;一種有效的文本聚類算法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集（技術(shù)報(bào)告篇）[C];2006年

相關(guān)重要報(bào)紙文章前10條

1 曾華q

本文編號：2182476

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2182476.html

上一篇：Zebra—Z39.50的搜索引擎的搜索和索引機(jī)理
下一篇：CALIS三期吉林省中心共享域平臺建設(shè)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于馬爾科夫模型詞序因子的文本相似度研究