基于主題模型的大規(guī)模文本集建模問題研究
本文關(guān)鍵詞:基于主題模型的大規(guī)模文本集建模問題研究
更多相關(guān)文章: 主題模型 隱狄利克雷分配 貝葉斯變分方法 隨機變分方法 帶動量的隨機梯度法 自適應(yīng)步長 在線學(xué)習(xí)
【摘要】:主題模型是一種概率統(tǒng)計方法,常被用來分析文本數(shù)據(jù)集的隱藏結(jié)構(gòu)。近年來,主題模型已成為一種流行的分析數(shù)據(jù)的方法,它們可以用于分析文本,圖像,視頻等等類型的數(shù)據(jù)。然而,在當(dāng)今這個數(shù)據(jù)爆炸的時代,它們面臨著大數(shù)據(jù)帶來的嚴(yán)峻挑戰(zhàn)。對大規(guī)模數(shù)據(jù)集進行建模已成為機器學(xué)習(xí)領(lǐng)域的一個重要的方向。為了滿足大數(shù)據(jù)時代對機器學(xué)習(xí)算法的需求,Hoffman等人提出了具有代表性的隨機變分方法(stochastic variational inference, SVI)。隱狄利克雷分配(latent Dirichlet Allocation, LDA)被認(rèn)為是主題模型的基礎(chǔ),因此,Hoffman等人將SVI應(yīng)用于LDA之上,近似計算LDA的后驗概率分布。 針對LDA的SVI算法(online LDA)已被成功用于處理許多大規(guī)模數(shù)據(jù)集。每一次迭代,算法使用數(shù)據(jù)集中的一個子集的數(shù)據(jù)計算得到隨機自然梯度(stochastic natural gradient),并使用它優(yōu)化LDA的全局變分參數(shù)。然而,文本數(shù)據(jù)集的復(fù)雜性限制了online LDA的性能。算法存在兩個主要問題。第一,子集中的唯一詞的數(shù)量通常比文本集詞典中唯一詞的數(shù)量要少得到,使得算法計算得到的隨機梯度噪聲非常大。第二,不同的唯一詞它們在文本集中出現(xiàn)的頻率是不同的,導(dǎo)致與不同唯一詞相關(guān)的參數(shù)的收斂速度不同。 為了解決第一個問題,我們提出了一種更好的算法,稱為動量online LDA算法(Momentum online LDA, MOLDA)。MOLDA在更新全局變分參數(shù)時不僅使用隨機梯度,同時還使用動量。動量是過去迭代中計算得到隨機梯度的加權(quán)和,它非常容易計算。因此,,MOLDA是我們能夠有效地利用過去樣本的信息平滑隨機梯度的噪聲。 針對第二個問題,我們?yōu)閛nline LDA設(shè)計了一個針對每個參數(shù)的自適應(yīng)的步長(per-parameter adaptive learning rate, PPAR)。PPAR使用參數(shù)二階導(dǎo)數(shù)控制每個參數(shù)的步長的減小。步長可以根據(jù)采樣得到的樣本數(shù)據(jù)和參數(shù)進行自適應(yīng)地調(diào)整。因此,PPAR可以幫助online LDA找到一個更好的收斂軌跡,收斂至一個更好的解。 為了評估我們算法的性能,我們采集了兩個超大型數(shù)據(jù)集。這兩個數(shù)據(jù)集中都包含了上百萬個文檔。對于MOLDA,我們使用online LDA作為對比算法,測試算法的性能。對于PPRA,我們將它與其他三個針對online LDA的現(xiàn)今最好的步長算法作比較。實驗結(jié)果表明,動量對算法的執(zhí)行有積極的影響,MOLDA的收斂速度要快于online LDA,且它可以得到一個更好的預(yù)測分布。PPAR的性能要優(yōu)于其他三個步長算法。
【關(guān)鍵詞】:主題模型 隱狄利克雷分配 貝葉斯變分方法 隨機變分方法 帶動量的隨機梯度法 自適應(yīng)步長 在線學(xué)習(xí)
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:O212.1;TP391.1
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 引言10-14
- 1.1 研究背景10-11
- 1.2 本文工作11-14
- 第2章 背景知識14-24
- 2.1 隱狄利克雷分配(Latent Dirichlet Allocation, LDA)14-15
- 2.2 指示符向量與狄利克雷分布15-16
- 2.3 針對 LDA 的變分算法16-20
- 2.4 針對 LDA 的隨機變分算法(online LDA )20-21
- 2.5 online LDA 的收斂性21-22
- 2.6 本章小結(jié)22-24
- 第3章 動量 online LDA24-30
- 3.1 概述24-25
- 3.2 動量 online LDA(momentum online LDA, MOLDA)25-27
- 3.3 實驗27-29
- 3.3.1 數(shù)據(jù)集27
- 3.3.2 度量標(biāo)準(zhǔn)27-28
- 3.3.3 實驗結(jié)果28-29
- 3.4 本章小結(jié)29-30
- 第4章 針對每個參數(shù)的自適應(yīng)步長方法30-44
- 4.1 概述30-31
- 4.2 針對每個參數(shù)的自適應(yīng)步長31-33
- 4.3 算法細節(jié)33-34
- 4.4 算法收斂性分析34-35
- 4.5 相關(guān)工作35-36
- 4.6 實驗與分析36-43
- 4.6.1 實驗設(shè)置36-37
- 4.6.2 PPAR 參數(shù)對算法的影響37-39
- 4.6.3 步長的變化39-40
- 4.6.4 PPAR 與其他步長算法的比較40-43
- 4.7 本章小結(jié)43-44
- 第5章 總結(jié)與展望44-46
- 5.1 工作總結(jié)44-45
- 5.2 工作展望45-46
- 參考文獻46-49
- 作者簡介及科研成果49-50
- 致謝50
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 孫顯;付琨;王宏琦;;基于空間語義對象混合學(xué)習(xí)的復(fù)雜圖像場景自動分類方法研究[J];電子與信息學(xué)報;2011年02期
2 董自健;宋鐵成;袁創(chuàng);;基于基因擾動及變分逼近技術(shù)的基因調(diào)控網(wǎng)絡(luò)推斷[J];東南大學(xué)學(xué)報(自然科學(xué)版);2013年06期
3 潘琪;張海;;加權(quán)網(wǎng)絡(luò)結(jié)構(gòu)分析[J];純粹數(shù)學(xué)與應(yīng)用數(shù)學(xué);2013年06期
4 蔣卓人;陳燕;高良才;湯幟;劉曉鐘;;一種結(jié)合有監(jiān)督學(xué)習(xí)的動態(tài)主題模型[J];北京大學(xué)學(xué)報(自然科學(xué)版);2015年02期
5 廖士中;陳亞瑞;;高斯均值場變分推理的收斂性和精確性[J];計算機研究與發(fā)展;2008年S1期
6 焦斌亮;陳爽;;基于PCA算法的人臉識別[J];計算機工程與應(yīng)用;2011年18期
7 劉啟元;張聰;沈一棟;;信度網(wǎng)近似推理算法(下)[J];計算機科學(xué);2001年02期
8 陳亞瑞;廖士中;;Ising圖模型概率推理的參數(shù)化復(fù)雜性[J];計算機科學(xué);2010年10期
9 張凱;沈宏;;基于貝葉斯理論的機械故障源盲分離[J];機械研究與應(yīng)用;2009年03期
10 肖秦琨;高曉光;;進化算法與動態(tài)貝葉斯網(wǎng)絡(luò)混合優(yōu)化研究[J];模式識別與人工智能;2006年03期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 李文波;孫樂;;一種LDA模型的高效并行求解算法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 丁軼群;基于概率生成模型的文本主題建模及其應(yīng)用[D];浙江大學(xué);2010年
2 張小平;主題模型及其在中醫(yī)臨床診療中的應(yīng)用研究[D];北京交通大學(xué);2011年
3 陳亞瑞;基于消息傳播的圖模型近似變分推理[D];天津大學(xué);2010年
4 張翔;視頻序列中的目標(biāo)分割[D];上海交通大學(xué);2009年
5 谷小婧;基于圖像分析的自然彩色夜視成像方法研究[D];東華大學(xué);2011年
6 姚拓中;結(jié)合主動學(xué)習(xí)的視覺場景理解[D];浙江大學(xué);2011年
7 金卓軍;逆向增強學(xué)習(xí)和示教學(xué)習(xí)算法研究及其在智能機器人中的應(yīng)用[D];浙江大學(xué);2011年
8 李儉川;貝葉斯網(wǎng)絡(luò)故障診斷與維修決策方法及應(yīng)用研究[D];中國人民解放軍國防科學(xué)技術(shù)大學(xué);2002年
9 王慧瓊;計算機視覺中的二分光問題研究[D];浙江大學(xué);2008年
10 潘晴;生物視覺模型在自動目標(biāo)識別技術(shù)中的應(yīng)用研究[D];華中科技大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 薛維;基于非對稱先驗的作者主題模型[D];浙江大學(xué);2011年
2 馬秀敏;中國典型管理期刊文獻主題發(fā)現(xiàn)與演化分析[D];大連理工大學(xué);2011年
3 龐濤;運動模糊圖像的模糊核估計及圖像恢復(fù)[D];西南大學(xué);2011年
4 王輝登;基于振鈴抑制的運動模糊圖像復(fù)原方法研究[D];南京理工大學(xué);2011年
5 張禮;尋找差異基因的概率方法研究[D];南京航空航天大學(xué);2010年
6 殷霞;GMRF模型近似變分消息傳播方法[D];天津大學(xué);2010年
7 饒e
本文編號:899327
本文鏈接:http://sikaile.net/kejilunwen/yysx/899327.html