基于主題模型的大規(guī)模文本集建模問題研究

發(fā)布時間：2017-09-22 06:33

本文關(guān)鍵詞：基于主題模型的大規(guī)模文本集建模問題研究

【摘要】：主題模型是一種概率統(tǒng)計方法，常被用來分析文本數(shù)據(jù)集的隱藏結(jié)構(gòu)。近年來，主題模型已成為一種流行的分析數(shù)據(jù)的方法，它們可以用于分析文本，圖像，視頻等等類型的數(shù)據(jù)。然而，在當(dāng)今這個數(shù)據(jù)爆炸的時代，它們面臨著大數(shù)據(jù)帶來的嚴(yán)峻挑戰(zhàn)。對大規(guī)模數(shù)據(jù)集進行建模已成為機器學(xué)習(xí)領(lǐng)域的一個重要的方向。為了滿足大數(shù)據(jù)時代對機器學(xué)習(xí)算法的需求，Hoffman等人提出了具有代表性的隨機變分方法(stochastic variational inference, SVI)。隱狄利克雷分配(latent Dirichlet Allocation, LDA)被認(rèn)為是主題模型的基礎(chǔ)，因此，Hoffman等人將SVI應(yīng)用于LDA之上，近似計算LDA的后驗概率分布。針對LDA的SVI算法(online LDA)已被成功用于處理許多大規(guī)模數(shù)據(jù)集。每一次迭代，算法使用數(shù)據(jù)集中的一個子集的數(shù)據(jù)計算得到隨機自然梯度(stochastic natural gradient)，并使用它優(yōu)化LDA的全局變分參數(shù)。然而，文本數(shù)據(jù)集的復(fù)雜性限制了online LDA的性能。算法存在兩個主要問題。第一，子集中的唯一詞的數(shù)量通常比文本集詞典中唯一詞的數(shù)量要少得到，使得算法計算得到的隨機梯度噪聲非常大。第二，不同的唯一詞它們在文本集中出現(xiàn)的頻率是不同的，導(dǎo)致與不同唯一詞相關(guān)的參數(shù)的收斂速度不同。為了解決第一個問題，我們提出了一種更好的算法，稱為動量online LDA算法(Momentum online LDA, MOLDA)。MOLDA在更新全局變分參數(shù)時不僅使用隨機梯度，同時還使用動量。動量是過去迭代中計算得到隨機梯度的加權(quán)和，它非常容易計算。因此，，MOLDA是我們能夠有效地利用過去樣本的信息平滑隨機梯度的噪聲。針對第二個問題，我們?yōu)閛nline LDA設(shè)計了一個針對每個參數(shù)的自適應(yīng)的步長(per-parameter adaptive learning rate, PPAR)。PPAR使用參數(shù)二階導(dǎo)數(shù)控制每個參數(shù)的步長的減小。步長可以根據(jù)采樣得到的樣本數(shù)據(jù)和參數(shù)進行自適應(yīng)地調(diào)整。因此，PPAR可以幫助online LDA找到一個更好的收斂軌跡，收斂至一個更好的解。為了評估我們算法的性能，我們采集了兩個超大型數(shù)據(jù)集。這兩個數(shù)據(jù)集中都包含了上百萬個文檔。對于MOLDA，我們使用online LDA作為對比算法，測試算法的性能。對于PPRA，我們將它與其他三個針對online LDA的現(xiàn)今最好的步長算法作比較。實驗結(jié)果表明，動量對算法的執(zhí)行有積極的影響，MOLDA的收斂速度要快于online LDA，且它可以得到一個更好的預(yù)測分布。PPAR的性能要優(yōu)于其他三個步長算法。
【關(guān)鍵詞】：主題模型 隱狄利克雷分配 貝葉斯變分方法 隨機變分方法 帶動量的隨機梯度法 自適應(yīng)步長 在線學(xué)習(xí)
【學(xué)位授予單位】：吉林大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2015
【分類號】：O212.1;TP391.1
【目錄】：

摘要4-6
Abstract6-10
第1章引言10-14
1.1 研究背景10-11
1.2 本文工作11-14
第2章背景知識14-24
2.1 隱狄利克雷分配(Latent Dirichlet Allocation, LDA)14-15
2.2 指示符向量與狄利克雷分布15-16
2.3 針對 LDA 的變分算法16-20
2.4 針對 LDA 的隨機變分算法(online LDA )20-21
2.5 online LDA 的收斂性21-22
2.6 本章小結(jié)22-24
第3章動量 online LDA24-30
3.1 概述24-25
3.2 動量 online LDA(momentum online LDA, MOLDA)25-27
3.3 實驗27-29
3.3.1 數(shù)據(jù)集27
3.3.2 度量標(biāo)準(zhǔn)27-28
3.3.3 實驗結(jié)果28-29
3.4 本章小結(jié)29-30
第4章針對每個參數(shù)的自適應(yīng)步長方法30-44
4.1 概述30-31
4.2 針對每個參數(shù)的自適應(yīng)步長31-33
4.3 算法細節(jié)33-34
4.4 算法收斂性分析34-35
4.5 相關(guān)工作35-36
4.6 實驗與分析36-43
4.6.1 實驗設(shè)置36-37
4.6.2 PPAR 參數(shù)對算法的影響37-39
4.6.3 步長的變化39-40
4.6.4 PPAR 與其他步長算法的比較40-43
4.7 本章小結(jié)43-44
第5章總結(jié)與展望44-46
5.1 工作總結(jié)44-45
5.2 工作展望45-46
參考文獻46-49
作者簡介及科研成果49-50
致謝50

【共引文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 孫顯;付琨;王宏琦;;基于空間語義對象混合學(xué)習(xí)的復(fù)雜圖像場景自動分類方法研究[J];電子與信息學(xué)報;2011年02期

2 董自健;宋鐵成;袁創(chuàng);;基于基因擾動及變分逼近技術(shù)的基因調(diào)控網(wǎng)絡(luò)推斷[J];東南大學(xué)學(xué)報(自然科學(xué)版);2013年06期

3 潘琪;張海;;加權(quán)網(wǎng)絡(luò)結(jié)構(gòu)分析[J];純粹數(shù)學(xué)與應(yīng)用數(shù)學(xué);2013年06期

4 蔣卓人;陳燕;高良才;湯幟;劉曉鐘;;一種結(jié)合有監(jiān)督學(xué)習(xí)的動態(tài)主題模型[J];北京大學(xué)學(xué)報(自然科學(xué)版);2015年02期

5 廖士中;陳亞瑞;;高斯均值場變分推理的收斂性和精確性[J];計算機研究與發(fā)展;2008年S1期

6 焦斌亮;陳爽;;基于PCA算法的人臉識別[J];計算機工程與應(yīng)用;2011年18期

7 劉啟元;張聰;沈一棟;;信度網(wǎng)近似推理算法(下)[J];計算機科學(xué);2001年02期

8 陳亞瑞;廖士中;;Ising圖模型概率推理的參數(shù)化復(fù)雜性[J];計算機科學(xué);2010年10期

9 張凱;沈宏;;基于貝葉斯理論的機械故障源盲分離[J];機械研究與應(yīng)用;2009年03期

10 肖秦琨;高曉光;;進化算法與動態(tài)貝葉斯網(wǎng)絡(luò)混合優(yōu)化研究[J];模式識別與人工智能;2006年03期

中國重要會議論文全文數(shù)據(jù)庫前1條

1 李文波;孫樂;;一種LDA模型的高效并行求解算法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年

中國博士學(xué)位論文全文數(shù)據(jù)庫前10條

1 丁軼群;基于概率生成模型的文本主題建模及其應(yīng)用[D];浙江大學(xué);2010年

2 張小平;主題模型及其在中醫(yī)臨床診療中的應(yīng)用研究[D];北京交通大學(xué);2011年

3 陳亞瑞;基于消息傳播的圖模型近似變分推理[D];天津大學(xué);2010年

4 張翔;視頻序列中的目標(biāo)分割[D];上海交通大學(xué);2009年

5 谷小婧;基于圖像分析的自然彩色夜視成像方法研究[D];東華大學(xué);2011年

6 姚拓中;結(jié)合主動學(xué)習(xí)的視覺場景理解[D];浙江大學(xué);2011年

7 金卓軍;逆向增強學(xué)習(xí)和示教學(xué)習(xí)算法研究及其在智能機器人中的應(yīng)用[D];浙江大學(xué);2011年

8 李儉川;貝葉斯網(wǎng)絡(luò)故障診斷與維修決策方法及應(yīng)用研究[D];中國人民解放軍國防科學(xué)技術(shù)大學(xué);2002年

9 王慧瓊;計算機視覺中的二分光問題研究[D];浙江大學(xué);2008年

10 潘晴;生物視覺模型在自動目標(biāo)識別技術(shù)中的應(yīng)用研究[D];華中科技大學(xué);2007年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 薛維;基于非對稱先驗的作者主題模型[D];浙江大學(xué);2011年

2 馬秀敏;中國典型管理期刊文獻主題發(fā)現(xiàn)與演化分析[D];大連理工大學(xué);2011年

3 龐濤;運動模糊圖像的模糊核估計及圖像恢復(fù)[D];西南大學(xué);2011年

4 王輝登;基于振鈴抑制的運動模糊圖像復(fù)原方法研究[D];南京理工大學(xué);2011年

5 張禮;尋找差異基因的概率方法研究[D];南京航空航天大學(xué);2010年

6 殷霞;GMRF模型近似變分消息傳播方法[D];天津大學(xué);2010年

7 饒e

本文編號：899327

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/yysx/899327.html

上一篇：兩類加工時間可變的排序問題
下一篇：廣義納什均衡的一類優(yōu)化方法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于主題模型的大規(guī)模文本集建模問題研究