基于統(tǒng)計學(xué)習(xí)方法的高斯LDA模型的文本聚類研究
本文關(guān)鍵詞: 文本聚類 主題模型 詞向量 高斯LDA模型 出處:《華僑大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
【摘要】:科學(xué)技術(shù)的發(fā)展日新月異,人們與互聯(lián)網(wǎng)的聯(lián)系越來越緊密,隨著智能設(shè)備的普及,人們在使用智能設(shè)備的過程中不斷產(chǎn)生大量的文本數(shù)據(jù),如何從這些文本數(shù)據(jù)中汲取我們所需的信息,是當(dāng)前文本信息挖掘的熱點,而文本聚類是文本挖掘信息領(lǐng)域的研究重點,而文本標(biāo)記的關(guān)鍵基礎(chǔ)又是文本聚類,與此同時,文本聚類技術(shù)又是自然語言處理技術(shù)的最基礎(chǔ)技術(shù),在文本聚類領(lǐng)域,困難主要可以概括為以下三點:第一,聚類的結(jié)果與客觀使用需求的匹配;第二,聚類的結(jié)果的描述問題;第三,文本聚類結(jié)果的有效性評估問題。本文綜合討論以上三點,提出了基于統(tǒng)計學(xué)習(xí)方法的高斯LDA主題模型的文本聚類方法。本文主要在以下三個方面進行了相關(guān)工作:第一,針對國內(nèi)外相關(guān)研究進行了詳細的對比研究和綜述,并指出現(xiàn)階段研究的優(yōu)勢及不足。第二,將詞向量模型以文本擴展的形式引入,對LDA模型的先驗信息進行改進,引入高斯LDA模型,將潛在主題特征知識融入詞向量空間,深層次挖掘出文本內(nèi)部語義知識,提高文本聚類質(zhì)量,并在Python下實現(xiàn)了高斯LDA模型。第三,利用基于統(tǒng)計學(xué)習(xí)方法高斯LDA模型,結(jié)合文本相關(guān)主題詞及主題的概率分布情況,以及詞向量模型,提出了一種基于詞向量語義相似度的聚類結(jié)果評價方法。中英文語料上的試驗結(jié)果對比分析顯示,本文方法相對于傳統(tǒng)的LDA以及傳統(tǒng)的高斯LDA模型,聚類有效性有了一定的提升,且基于主題詞對主題的描述較為清晰,從而驗證了基于統(tǒng)計方法的改良高斯LDA模型的文本聚類方法的有效性。
[Abstract]:With the rapid development of science and technology, people are more and more closely connected with the Internet. With the popularity of smart devices, people continue to produce a large number of text data in the process of using smart devices. How to extract the information we need from these text data is a hot topic in text information mining. Text clustering is the research focus in the field of text mining information, and the key foundation of text marking is text clustering. At the same time, text clustering technology is the most basic technology of natural language processing technology. In the field of text clustering, the difficulties can be summarized as follows: first, the result of clustering and objective use of the needs of matching; Second, the description of clustering results; Thirdly, the effectiveness of text clustering results is evaluated. The above three points are discussed comprehensively in this paper. This paper proposes a text clustering method of Gao Si LDA topic model based on statistical learning method. This paper mainly focuses on the following three aspects: first. This paper makes a detailed comparative study and a summary of relevant studies at home and abroad, and points out the advantages and disadvantages of the current research. Secondly, the word vector model is introduced in the form of text expansion. The priori information of LDA model is improved, Gao Si LDA model is introduced, the latent subject feature knowledge is integrated into the word vector space, the semantic knowledge inside the text is mined deeply, and the quality of text clustering is improved. Gao Si LDA model is implemented under Python. Thirdly, the statistical learning method Gao Si LDA model is used to combine the probability distribution of text related theme words and topics, as well as word vector model. This paper proposes a clustering result evaluation method based on semantic similarity of word vectors. The comparative analysis of the experimental results in Chinese and English corpus shows that this method is compared with the traditional LDA and Gao Si LDA model. The clustering validity has been improved, and the topic description is clear based on the theme words, which verifies the validity of the text clustering method based on the improved Gao Si LDA model.
【學(xué)位授予單位】:華僑大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1
【參考文獻】
相關(guān)期刊論文 前8條
1 馬化騰;;“互聯(lián)網(wǎng)+”激活更多信息能源[J];中國中小企業(yè);2015年06期
2 楊中國;李洪奇;朱麗萍;劉薔;;基于語義模式和引用分布的科技文獻信息抽取[J];山東大學(xué)學(xué)報(理學(xué)版);2015年03期
3 朱建平;劉曉葳;歐陽漢;;《統(tǒng)計研究》的歷史階段性回顧與特征分析[J];統(tǒng)計研究;2014年09期
4 冷伏海;白如江;祝清松;;面向科技文獻的混合語義信息抽取方法研究[J];圖書情報工作;2013年11期
5 周麗紅;劉勘;;基于關(guān)聯(lián)規(guī)則的科技文獻分類研究[J];圖書情報工作;2012年04期
6 胡燕;吳虎子;鐘珞;;中文文本分類中基于詞性的特征提取方法研究[J];武漢理工大學(xué)學(xué)報;2007年04期
7 李彥平,張佳驥;文本聚類中的降維技術(shù)研究[J];無線電工程;2005年06期
8 侯漢清;;分類法的發(fā)展趨勢簡論[J];情報科學(xué);1981年01期
相關(guān)碩士學(xué)位論文 前2條
1 耿大偉;基于Python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計與實現(xiàn)[D];燕山大學(xué);2015年
2 王俊英;基于科技文獻的中文文本分類算法研究[D];燕山大學(xué);2007年
,本文編號:1472511
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1472511.html