天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 數(shù)學(xué)論文 >

基于主題模型的大規(guī)模文本集建模問題研究

發(fā)布時間:2017-09-22 06:33

  本文關(guān)鍵詞:基于主題模型的大規(guī)模文本集建模問題研究


  更多相關(guān)文章: 主題模型 隱狄利克雷分配 貝葉斯變分方法 隨機變分方法 帶動量的隨機梯度法 自適應(yīng)步長 在線學(xué)習(xí)


【摘要】:主題模型是一種概率統(tǒng)計方法,常被用來分析文本數(shù)據(jù)集的隱藏結(jié)構(gòu)。近年來,主題模型已成為一種流行的分析數(shù)據(jù)的方法,它們可以用于分析文本,圖像,視頻等等類型的數(shù)據(jù)。然而,在當(dāng)今這個數(shù)據(jù)爆炸的時代,它們面臨著大數(shù)據(jù)帶來的嚴(yán)峻挑戰(zhàn)。對大規(guī)模數(shù)據(jù)集進行建模已成為機器學(xué)習(xí)領(lǐng)域的一個重要的方向。為了滿足大數(shù)據(jù)時代對機器學(xué)習(xí)算法的需求,Hoffman等人提出了具有代表性的隨機變分方法(stochastic variational inference, SVI)。隱狄利克雷分配(latent Dirichlet Allocation, LDA)被認(rèn)為是主題模型的基礎(chǔ),因此,Hoffman等人將SVI應(yīng)用于LDA之上,近似計算LDA的后驗概率分布。 針對LDA的SVI算法(online LDA)已被成功用于處理許多大規(guī)模數(shù)據(jù)集。每一次迭代,算法使用數(shù)據(jù)集中的一個子集的數(shù)據(jù)計算得到隨機自然梯度(stochastic natural gradient),并使用它優(yōu)化LDA的全局變分參數(shù)。然而,文本數(shù)據(jù)集的復(fù)雜性限制了online LDA的性能。算法存在兩個主要問題。第一,子集中的唯一詞的數(shù)量通常比文本集詞典中唯一詞的數(shù)量要少得到,使得算法計算得到的隨機梯度噪聲非常大。第二,不同的唯一詞它們在文本集中出現(xiàn)的頻率是不同的,導(dǎo)致與不同唯一詞相關(guān)的參數(shù)的收斂速度不同。 為了解決第一個問題,我們提出了一種更好的算法,稱為動量online LDA算法(Momentum online LDA, MOLDA)。MOLDA在更新全局變分參數(shù)時不僅使用隨機梯度,同時還使用動量。動量是過去迭代中計算得到隨機梯度的加權(quán)和,它非常容易計算。因此,,MOLDA是我們能夠有效地利用過去樣本的信息平滑隨機梯度的噪聲。 針對第二個問題,我們?yōu)閛nline LDA設(shè)計了一個針對每個參數(shù)的自適應(yīng)的步長(per-parameter adaptive learning rate, PPAR)。PPAR使用參數(shù)二階導(dǎo)數(shù)控制每個參數(shù)的步長的減小。步長可以根據(jù)采樣得到的樣本數(shù)據(jù)和參數(shù)進行自適應(yīng)地調(diào)整。因此,PPAR可以幫助online LDA找到一個更好的收斂軌跡,收斂至一個更好的解。 為了評估我們算法的性能,我們采集了兩個超大型數(shù)據(jù)集。這兩個數(shù)據(jù)集中都包含了上百萬個文檔。對于MOLDA,我們使用online LDA作為對比算法,測試算法的性能。對于PPRA,我們將它與其他三個針對online LDA的現(xiàn)今最好的步長算法作比較。實驗結(jié)果表明,動量對算法的執(zhí)行有積極的影響,MOLDA的收斂速度要快于online LDA,且它可以得到一個更好的預(yù)測分布。PPAR的性能要優(yōu)于其他三個步長算法。
【關(guān)鍵詞】:主題模型 隱狄利克雷分配 貝葉斯變分方法 隨機變分方法 帶動量的隨機梯度法 自適應(yīng)步長 在線學(xué)習(xí)
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:O212.1;TP391.1
【目錄】:
  • 摘要4-6
  • Abstract6-10
  • 第1章 引言10-14
  • 1.1 研究背景10-11
  • 1.2 本文工作11-14
  • 第2章 背景知識14-24
  • 2.1 隱狄利克雷分配(Latent Dirichlet Allocation, LDA)14-15
  • 2.2 指示符向量與狄利克雷分布15-16
  • 2.3 針對 LDA 的變分算法16-20
  • 2.4 針對 LDA 的隨機變分算法(online LDA )20-21
  • 2.5 online LDA 的收斂性21-22
  • 2.6 本章小結(jié)22-24
  • 第3章 動量 online LDA24-30
  • 3.1 概述24-25
  • 3.2 動量 online LDA(momentum online LDA, MOLDA)25-27
  • 3.3 實驗27-29
  • 3.3.1 數(shù)據(jù)集27
  • 3.3.2 度量標(biāo)準(zhǔn)27-28
  • 3.3.3 實驗結(jié)果28-29
  • 3.4 本章小結(jié)29-30
  • 第4章 針對每個參數(shù)的自適應(yīng)步長方法30-44
  • 4.1 概述30-31
  • 4.2 針對每個參數(shù)的自適應(yīng)步長31-33
  • 4.3 算法細節(jié)33-34
  • 4.4 算法收斂性分析34-35
  • 4.5 相關(guān)工作35-36
  • 4.6 實驗與分析36-43
  • 4.6.1 實驗設(shè)置36-37
  • 4.6.2 PPAR 參數(shù)對算法的影響37-39
  • 4.6.3 步長的變化39-40
  • 4.6.4 PPAR 與其他步長算法的比較40-43
  • 4.7 本章小結(jié)43-44
  • 第5章 總結(jié)與展望44-46
  • 5.1 工作總結(jié)44-45
  • 5.2 工作展望45-46
  • 參考文獻46-49
  • 作者簡介及科研成果49-50
  • 致謝50

【共引文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 孫顯;付琨;王宏琦;;基于空間語義對象混合學(xué)習(xí)的復(fù)雜圖像場景自動分類方法研究[J];電子與信息學(xué)報;2011年02期

2 董自健;宋鐵成;袁創(chuàng);;基于基因擾動及變分逼近技術(shù)的基因調(diào)控網(wǎng)絡(luò)推斷[J];東南大學(xué)學(xué)報(自然科學(xué)版);2013年06期

3 潘琪;張海;;加權(quán)網(wǎng)絡(luò)結(jié)構(gòu)分析[J];純粹數(shù)學(xué)與應(yīng)用數(shù)學(xué);2013年06期

4 蔣卓人;陳燕;高良才;湯幟;劉曉鐘;;一種結(jié)合有監(jiān)督學(xué)習(xí)的動態(tài)主題模型[J];北京大學(xué)學(xué)報(自然科學(xué)版);2015年02期

5 廖士中;陳亞瑞;;高斯均值場變分推理的收斂性和精確性[J];計算機研究與發(fā)展;2008年S1期

6 焦斌亮;陳爽;;基于PCA算法的人臉識別[J];計算機工程與應(yīng)用;2011年18期

7 劉啟元;張聰;沈一棟;;信度網(wǎng)近似推理算法(下)[J];計算機科學(xué);2001年02期

8 陳亞瑞;廖士中;;Ising圖模型概率推理的參數(shù)化復(fù)雜性[J];計算機科學(xué);2010年10期

9 張凱;沈宏;;基于貝葉斯理論的機械故障源盲分離[J];機械研究與應(yīng)用;2009年03期

10 肖秦琨;高曉光;;進化算法與動態(tài)貝葉斯網(wǎng)絡(luò)混合優(yōu)化研究[J];模式識別與人工智能;2006年03期

中國重要會議論文全文數(shù)據(jù)庫 前1條

1 李文波;孫樂;;一種LDA模型的高效并行求解算法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 丁軼群;基于概率生成模型的文本主題建模及其應(yīng)用[D];浙江大學(xué);2010年

2 張小平;主題模型及其在中醫(yī)臨床診療中的應(yīng)用研究[D];北京交通大學(xué);2011年

3 陳亞瑞;基于消息傳播的圖模型近似變分推理[D];天津大學(xué);2010年

4 張翔;視頻序列中的目標(biāo)分割[D];上海交通大學(xué);2009年

5 谷小婧;基于圖像分析的自然彩色夜視成像方法研究[D];東華大學(xué);2011年

6 姚拓中;結(jié)合主動學(xué)習(xí)的視覺場景理解[D];浙江大學(xué);2011年

7 金卓軍;逆向增強學(xué)習(xí)和示教學(xué)習(xí)算法研究及其在智能機器人中的應(yīng)用[D];浙江大學(xué);2011年

8 李儉川;貝葉斯網(wǎng)絡(luò)故障診斷與維修決策方法及應(yīng)用研究[D];中國人民解放軍國防科學(xué)技術(shù)大學(xué);2002年

9 王慧瓊;計算機視覺中的二分光問題研究[D];浙江大學(xué);2008年

10 潘晴;生物視覺模型在自動目標(biāo)識別技術(shù)中的應(yīng)用研究[D];華中科技大學(xué);2007年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 薛維;基于非對稱先驗的作者主題模型[D];浙江大學(xué);2011年

2 馬秀敏;中國典型管理期刊文獻主題發(fā)現(xiàn)與演化分析[D];大連理工大學(xué);2011年

3 龐濤;運動模糊圖像的模糊核估計及圖像恢復(fù)[D];西南大學(xué);2011年

4 王輝登;基于振鈴抑制的運動模糊圖像復(fù)原方法研究[D];南京理工大學(xué);2011年

5 張禮;尋找差異基因的概率方法研究[D];南京航空航天大學(xué);2010年

6 殷霞;GMRF模型近似變分消息傳播方法[D];天津大學(xué);2010年

7 饒e

本文編號:899327


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/yysx/899327.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶887f5***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com