天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于統(tǒng)計學(xué)習(xí)方法的高斯LDA模型的文本聚類研究

發(fā)布時間:2018-01-29 04:23

  本文關(guān)鍵詞: 文本聚類 主題模型 詞向量 高斯LDA模型 出處:《華僑大學(xué)》2017年碩士論文 論文類型:學(xué)位論文


【摘要】:科學(xué)技術(shù)的發(fā)展日新月異,人們與互聯(lián)網(wǎng)的聯(lián)系越來越緊密,隨著智能設(shè)備的普及,人們在使用智能設(shè)備的過程中不斷產(chǎn)生大量的文本數(shù)據(jù),如何從這些文本數(shù)據(jù)中汲取我們所需的信息,是當(dāng)前文本信息挖掘的熱點,而文本聚類是文本挖掘信息領(lǐng)域的研究重點,而文本標(biāo)記的關(guān)鍵基礎(chǔ)又是文本聚類,與此同時,文本聚類技術(shù)又是自然語言處理技術(shù)的最基礎(chǔ)技術(shù),在文本聚類領(lǐng)域,困難主要可以概括為以下三點:第一,聚類的結(jié)果與客觀使用需求的匹配;第二,聚類的結(jié)果的描述問題;第三,文本聚類結(jié)果的有效性評估問題。本文綜合討論以上三點,提出了基于統(tǒng)計學(xué)習(xí)方法的高斯LDA主題模型的文本聚類方法。本文主要在以下三個方面進行了相關(guān)工作:第一,針對國內(nèi)外相關(guān)研究進行了詳細的對比研究和綜述,并指出現(xiàn)階段研究的優(yōu)勢及不足。第二,將詞向量模型以文本擴展的形式引入,對LDA模型的先驗信息進行改進,引入高斯LDA模型,將潛在主題特征知識融入詞向量空間,深層次挖掘出文本內(nèi)部語義知識,提高文本聚類質(zhì)量,并在Python下實現(xiàn)了高斯LDA模型。第三,利用基于統(tǒng)計學(xué)習(xí)方法高斯LDA模型,結(jié)合文本相關(guān)主題詞及主題的概率分布情況,以及詞向量模型,提出了一種基于詞向量語義相似度的聚類結(jié)果評價方法。中英文語料上的試驗結(jié)果對比分析顯示,本文方法相對于傳統(tǒng)的LDA以及傳統(tǒng)的高斯LDA模型,聚類有效性有了一定的提升,且基于主題詞對主題的描述較為清晰,從而驗證了基于統(tǒng)計方法的改良高斯LDA模型的文本聚類方法的有效性。
[Abstract]:With the rapid development of science and technology, people are more and more closely connected with the Internet. With the popularity of smart devices, people continue to produce a large number of text data in the process of using smart devices. How to extract the information we need from these text data is a hot topic in text information mining. Text clustering is the research focus in the field of text mining information, and the key foundation of text marking is text clustering. At the same time, text clustering technology is the most basic technology of natural language processing technology. In the field of text clustering, the difficulties can be summarized as follows: first, the result of clustering and objective use of the needs of matching; Second, the description of clustering results; Thirdly, the effectiveness of text clustering results is evaluated. The above three points are discussed comprehensively in this paper. This paper proposes a text clustering method of Gao Si LDA topic model based on statistical learning method. This paper mainly focuses on the following three aspects: first. This paper makes a detailed comparative study and a summary of relevant studies at home and abroad, and points out the advantages and disadvantages of the current research. Secondly, the word vector model is introduced in the form of text expansion. The priori information of LDA model is improved, Gao Si LDA model is introduced, the latent subject feature knowledge is integrated into the word vector space, the semantic knowledge inside the text is mined deeply, and the quality of text clustering is improved. Gao Si LDA model is implemented under Python. Thirdly, the statistical learning method Gao Si LDA model is used to combine the probability distribution of text related theme words and topics, as well as word vector model. This paper proposes a clustering result evaluation method based on semantic similarity of word vectors. The comparative analysis of the experimental results in Chinese and English corpus shows that this method is compared with the traditional LDA and Gao Si LDA model. The clustering validity has been improved, and the topic description is clear based on the theme words, which verifies the validity of the text clustering method based on the improved Gao Si LDA model.
【學(xué)位授予單位】:華僑大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1

【參考文獻】

相關(guān)期刊論文 前8條

1 馬化騰;;“互聯(lián)網(wǎng)+”激活更多信息能源[J];中國中小企業(yè);2015年06期

2 楊中國;李洪奇;朱麗萍;劉薔;;基于語義模式和引用分布的科技文獻信息抽取[J];山東大學(xué)學(xué)報(理學(xué)版);2015年03期

3 朱建平;劉曉葳;歐陽漢;;《統(tǒng)計研究》的歷史階段性回顧與特征分析[J];統(tǒng)計研究;2014年09期

4 冷伏海;白如江;祝清松;;面向科技文獻的混合語義信息抽取方法研究[J];圖書情報工作;2013年11期

5 周麗紅;劉勘;;基于關(guān)聯(lián)規(guī)則的科技文獻分類研究[J];圖書情報工作;2012年04期

6 胡燕;吳虎子;鐘珞;;中文文本分類中基于詞性的特征提取方法研究[J];武漢理工大學(xué)學(xué)報;2007年04期

7 李彥平,張佳驥;文本聚類中的降維技術(shù)研究[J];無線電工程;2005年06期

8 侯漢清;;分類法的發(fā)展趨勢簡論[J];情報科學(xué);1981年01期

相關(guān)碩士學(xué)位論文 前2條

1 耿大偉;基于Python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計與實現(xiàn)[D];燕山大學(xué);2015年

2 王俊英;基于科技文獻的中文文本分類算法研究[D];燕山大學(xué);2007年

,

本文編號:1472511

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1472511.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a0aa4***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
欧美视频在线观看一区| 国产成人精品国产亚洲欧洲 | 国产91色综合久久高清| 中文字幕亚洲精品在线播放| 蜜桃av人妻精品一区二区三区| 91亚洲人人在字幕国产| 99久久国产精品亚洲| 国产免费成人激情视频| 91欧美一区二区三区成人| 欧美极品欧美精品欧美| 日本和亚洲的香蕉视频| 亚洲做性视频在线播放| 99久久无色码中文字幕免费| 国产在线成人免费高清观看av| 狠狠做深爱婷婷久久综合| 日韩国产传媒在线精品| 偷拍美女洗澡免费视频| 狠狠干狠狠操亚洲综合| 麻豆视频传媒入口在线看| 久久机热频这里只精品| 国产丝袜美女诱惑一区二区| 欧美日韩免费黄片观看| 日韩一区二区三区有码| 青草草在线视频免费视频| 国产水滴盗摄一区二区| 精品欧美一区二区三久久| 亚洲免费观看一区二区三区| 国产精品一区欧美二区| 亚洲欧美日本成人在线| 小黄片大全欧美一区二区| 老熟女露脸一二三四区| 国产精品成人免费精品自在线观看| 精品国产亚洲区久久露脸| 91亚洲国产—区=区a| 婷婷基地五月激情五月| 丰满熟女少妇一区二区三区| 欧美欧美欧美欧美一区| 香蕉久久夜色精品国产尤物| 丰满的人妻一区二区三区| 亚洲精品成人综合色在线| 日韩成人中文字幕在线一区|