基于深度學(xué)習(xí)的主題建模方法研究
本文選題:神經(jīng)網(wǎng)絡(luò)主題模型 + 深度學(xué)習(xí); 參考:《武漢大學(xué)》2017年碩士論文
【摘要】:主題模型是文本語義信息的抽取模型,也是文本語義表征的有效方法。通過主題建模,不僅可以識(shí)別出隱含在文本中的主題語義單元,還能夠?qū)⑽谋颈硎驹谡Z義信息更為豐富的主題特征空間上,從而有助于文本分類聚類、突發(fā)事件檢測、主題演化分析、推薦系統(tǒng)等任務(wù)。然而,傳統(tǒng)的概率主題模型由于其淺層的特征結(jié)構(gòu)以及概率化的生成模式依舊面臨著模型可擴(kuò)展性不足、主題語義連貫性不足、推斷上下文一致性不足、特征表達(dá)能力不足等問題。深度學(xué)習(xí)技術(shù)的不斷成熟為自然語言處理領(lǐng)域帶來了新的發(fā)展契機(jī),也為主題模型提供了新的構(gòu)建思路。當(dāng)前,詞嵌入、知識(shí)嵌入、神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法在文本語義特征表達(dá)方面取得了突破性的進(jìn)展,為構(gòu)建深層次的具有語義連貫性的主題模型提供了可能。然而,基于深度學(xué)習(xí)的主題建模尚在起步階段,如何將兩者有機(jī)結(jié)合仍是一個(gè)亟待解決的研究課題。本文將深度學(xué)習(xí)技術(shù)運(yùn)用到傳統(tǒng)的文本主題建模過程中,旨在構(gòu)建具有深層語義表征的深度主題模型。具體來說,本文工作主要分為以下三部分:首先,本文提出了基于知識(shí)庫約束的詞嵌入模型SG_TransE(Skip-Gram with TransE)來實(shí)現(xiàn)詞匯的向量化表示。SG_TransE融合了 Skip-Gram模型和TransE知識(shí)翻譯模型,能夠使產(chǎn)生的詞嵌入蘊(yùn)含知識(shí)語義。其次,本文提出了基于深度語義強(qiáng)化的概率主題模型DGPU-LDA(Double Generalized Polya Urn with LDA)。該模型一方面結(jié)合本文設(shè)計(jì)的基于雙向LSTM的文檔語義編碼框架 DS-Bi-LSTM(Document Semantic Bi-directional LSTM)來實(shí)現(xiàn)文檔宏觀語義的嵌入表示,另一方面采用文檔-主題和詞匯-詞匯雙GPU語義強(qiáng)化機(jī)制以及LSTM來刻畫參數(shù)推斷過程中的吉布斯采樣過程。最后,本文對(duì)DGPU-LDA模型進(jìn)行神經(jīng)網(wǎng)絡(luò)重構(gòu),提出了 NS-LDA(Neural Semantic LDA)模型。NS-LDA同樣融合了 DS-Bi-LSTM文檔語義編碼框架,并使用隱藏層分別將文檔-主題和主題-詞匯兩部分信息進(jìn)行編碼,進(jìn)而通過乘積操作得到詞匯在文檔中的打分并將其作為神經(jīng)網(wǎng)絡(luò)的輸出。在搜狗新聞數(shù)據(jù)集以及20新聞組數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的基于深度學(xué)習(xí)的主題模型DGPU-LDA以及NS-LDA在主題語義連貫性、文本分類準(zhǔn)確率方面相對(duì)于一些比較前沿的主題模型具有一定的優(yōu)勢,同時(shí)也表明了本文提出的深度主題模型在文本語義特征表達(dá)方面的有效性。
[Abstract]:Topic model is not only a text semantic information extraction model, but also an effective method of text semantic representation.Through the topic modeling, not only can the topic semantic unit hidden in the text be identified, but also the text can be represented in the topic feature space with more abundant semantic information, which is helpful to the text classification and clustering, and the detection of unexpected events.Topic evolution analysis, recommendation system and other tasks.However, the traditional probabilistic topic models are still faced with insufficient extensibility, semantic coherence and contextual consistency due to their shallow feature structures and probabilistic generation patterns.Lack of feature expression and other problems.The maturity of deep learning technology brings new opportunities to the field of natural language processing and provides a new way to construct thematic models.At present, depth learning methods such as word embedding, knowledge embedding and neural network have made a breakthrough in the representation of semantic features of text, which provides the possibility for the construction of a deep semantic coherence thematic model.However, the topic modeling based on deep learning is still in its infancy, and how to combine the two is still a research topic to be solved urgently.In this paper, the deep learning technology is applied to the traditional text topic modeling process, aiming at constructing the deep topic model with deep semantic representation.Specifically, the work of this paper is divided into three parts: firstly, this paper proposes a word embedding model based on knowledge base constraint (SG_TransE(Skip-Gram with Transe) to realize the vectorization of vocabulary. SGSP integrates Skip-Gram model and TransE knowledge translation model.The resulting words can be embedded in the knowledge semantics.Secondly, a probabilistic topic model, DGPU-LDA(Double Generalized Polya Urn with LDAA, is proposed based on deep semantic enhancement.On the one hand, this model combines the document semantic coding framework DS-Bi-LSTM(Document Semantic Bi-directional LSTM based on bidirectional LSTM designed in this paper to realize the embedded representation of document macro semantics.On the other hand, document topic and lexical lexical dual GPU semantic enhancement mechanism and LSTM are used to describe Gibbs sampling process in the process of parameter inference.Finally, this paper reconstructs the DGPU-LDA model by neural network, and proposes the NS-LDA(Neural Semantic LDA-model. NS-LDA also integrates the DS-Bi-LSTM document semantic coding framework, and uses the hidden layer to encode the document-topic and subject-vocabulary information separately.Then the word score in the document is obtained by the product operation and used as the output of the neural network.The experimental results on Sogou news data set and 20 newsgroup data set show that the topic model DGPU-LDA and NS-LDA proposed in this paper are subject semantic coherence based on in-depth learning.The accuracy of text classification has some advantages over some advanced topic models, and it also shows the effectiveness of the depth topic model proposed in this paper in the semantic feature representation of text.
【學(xué)位授予單位】:武漢大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 吳玲達(dá),謝毓湘,欒悉道,肖鵬;互聯(lián)網(wǎng)多媒體主題信息自動(dòng)收集與處理系統(tǒng)的研制[J];計(jì)算機(jī)應(yīng)用研究;2005年05期
2 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2005年31期
3 周亦鵬;杜軍平;;基于時(shí)空情境模型的主題跟蹤[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年08期
4 陳雄;都云程;李渝勤;施水才;;基于頁面結(jié)構(gòu)分析的論壇主題信息定位方法研究[J];微計(jì)算機(jī)信息;2010年27期
5 何利益;陸國鋒;羅鵬;;動(dòng)態(tài)新聞主題信息推薦系統(tǒng)設(shè)計(jì)[J];指揮信息系統(tǒng)與技術(shù);2013年04期
6 關(guān)慧芬;師軍;;基于本體的主題爬蟲技術(shù)研究[J];計(jì)算機(jī)仿真;2009年10期
7 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計(jì)算機(jī)研究與發(fā)展;2012年06期
8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
9 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報(bào)技術(shù);2008年12期
10 朱夢(mèng)麟;李光耀;周毅敏;;基于樹比較的Web頁面主題信息抽取[J];微型機(jī)與應(yīng)用;2011年19期
相關(guān)會(huì)議論文 前6條
1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識(shí)別及表示[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動(dòng)提取[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評(píng)論發(fā)現(xiàn)[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
相關(guān)博士學(xué)位論文 前4條
1 楊肖;基于主題的互聯(lián)網(wǎng)信息抓取研究[D];浙江大學(xué);2014年
2 趙一鳴;基于多維尺度分析的潛在主題可視化研究[D];華中師范大學(xué);2013年
3 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
4 薛利;面向證券應(yīng)用的WEB主題觀點(diǎn)挖掘若干關(guān)鍵問題研究[D];復(fù)旦大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 解琰;主題優(yōu)化過濾方法研究與應(yīng)用[D];大連海事大學(xué);2015年
2 楊春艷;基于語義和引用加權(quán)的文獻(xiàn)主題提取研究[D];浙江大學(xué);2015年
3 盧洋;基于主題模型的混合推薦算法研究[D];電子科技大學(xué);2014年
4 黃志;基于維基歧義頁的搜索結(jié)果聚類方法研究[D];北京理工大學(xué);2015年
5 王亮;基于主題模型的文本挖掘的研究[D];大連理工大學(xué);2015年
6 任昱鳳;基于Hadoop的分布式主題爬蟲及其實(shí)現(xiàn)[D];陜西師范大學(xué);2015年
7 韓琳;基于貝葉斯主題爬蟲的研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2015年
8 黎楠;面向?qū)@闹黝}挖掘技術(shù)研究及應(yīng)用[D];北京工業(yè)大學(xué);2015年
9 劉學(xué)江;超大規(guī)模社交網(wǎng)絡(luò)中基于結(jié)構(gòu)與主題的社團(tuán)挖掘[D];電子科技大學(xué);2015年
10 黃文強(qiáng);安卓技術(shù)信息的主題爬蟲技術(shù)研究與實(shí)現(xiàn)[D];東南大學(xué);2015年
,本文編號(hào):1762401
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1762401.html