天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

變分推理及貝葉斯方法在主題模型中應(yīng)用的研究

發(fā)布時(shí)間:2020-05-10 13:36
【摘要】:貝葉斯方法作為機(jī)器學(xué)習(xí)的主流方法之一,為推動(dòng)人工智能等諸多領(lǐng)域的發(fā)展做出了重要貢獻(xiàn)。貝葉斯模型的推理是貝葉斯方法的核心。貝葉斯模型的一個(gè)關(guān)鍵問題是計(jì)算后驗(yàn)分布,然而在很多實(shí)際應(yīng)用中,后驗(yàn)分布難以計(jì)算精確解,只能尋求近似解,變分方法是目前解決這一問題的一種常用方法。貝葉斯方法的一個(gè)重要應(yīng)用是文本挖掘。隨著大數(shù)據(jù)的快速發(fā)展,挖掘文本隱含的主題信息受到工業(yè)界和學(xué)術(shù)界的極大關(guān)注。主題模型作為一類重要的貝葉斯模型是挖掘文本主題信息的主流模型。該模型將主題定義成關(guān)于詞項(xiàng)的多項(xiàng)分布,用邊緣概率最大的前M個(gè)單詞組成前端單詞列表作為主題的一種表示。本文圍繞著貝葉斯方法及其應(yīng)用進(jìn)行研究,主要包括兩個(gè)部分。第一部分是對貝葉斯方法中的一類主流方法,即變分推理方法進(jìn)行研究。第二部分是對貝葉斯方法在主題模型中的應(yīng)用進(jìn)行研究。具體工作內(nèi)容如下:1.主流的傳統(tǒng)變分推理方法主要包括標(biāo)準(zhǔn)的變分推理(mean-field variational inference,MFVI),可積分的變分推理(collapsed variational Bayesian inference,CVB),hybrid變分推理(hybird variational-Gibbs,HVG)以及期望傳播方法(expectation propagation,EP)。上述方法被廣泛用于各種實(shí)際問題中,但是哪種方法適合哪類應(yīng)用是沒有衡量標(biāo)準(zhǔn)的。因此對于一個(gè)實(shí)際的應(yīng)用,在沒有執(zhí)行完所有的推理方法之前,很難準(zhǔn)確地直接找到一個(gè)適合于此應(yīng)用的推理方法。因此,本文面向LDA(latent Dirichlet allocation)模型從兩個(gè)方面:(1)變分分布的形式;(2)a-散度類型,對上述這四種推理方法進(jìn)行了系統(tǒng)地理論分析,得到關(guān)于計(jì)算精度的排名是CVBEP≈HVGMFVI,時(shí)間復(fù)雜度的排名為MFVIEP=HVGCVB(從高到低),空間復(fù)雜度的排名為CVBEP=HVG=MFVI(從高到低)。為了進(jìn)一步驗(yàn)證上述理論分析,本文面向LDA模型,在2個(gè)人工合成數(shù)據(jù)集和5個(gè)實(shí)際應(yīng)用數(shù)據(jù)集上,使用兩種常用的評價(jià)標(biāo)準(zhǔn),即perplexity和pointwise mutual information(PMI)評分,分別對這四種方法的預(yù)測性能和推斷出的主題質(zhì)量進(jìn)行比較。實(shí)驗(yàn)結(jié)果和理論分析幾乎保持一致,即CVB方法比其他三種方法近似效果更好、效率更快。對于大多數(shù)的實(shí)際應(yīng)用,在不考慮空間要求的情況下建議使用CVB方法。2.大多數(shù)傳統(tǒng)變分推理方法都是基于平均場假設(shè)的,忽略了變量之間的依賴關(guān)系,這對于某些具有變量依賴關(guān)系的模型來說是不適用的,常常會(huì)導(dǎo)致變分過程計(jì)算精度下降,出現(xiàn)低估的趨勢。Copula變分推理(copula variational inference,CVI)使用copula函數(shù)可以很好地解決模型中變量依賴問題,提高變分過程的計(jì)算精度。但是CVI方法需要從copula擴(kuò)展的變分分布中采樣形成目標(biāo)函數(shù)的蒙特卡洛梯度,這是一個(gè)非常耗時(shí)的過程,特別是對于變量較多的復(fù)雜模型,因此CVI方法對于很多實(shí)際應(yīng)用是不可行的。為了加快CVI方法的推理速度,本文提出fast CVI方法(FCVI)。FCVI方法將目標(biāo)函數(shù)的蒙特卡洛梯度表示成相對于平均場的期望形式,因此只需要從更簡單的平均場分布中采樣,而不需要從copula擴(kuò)展的變分分布中采樣,就可以對蒙特卡洛梯度進(jìn)行估計(jì)。因此本文提出的方法在采樣過程中效率更高,將時(shí)間復(fù)雜度從O(D~2)降低到O(D)。本文使用高斯混合模型(Gaussian mixture model)和隱空間模型(latent space model),在人工合成數(shù)據(jù)集和實(shí)際應(yīng)用數(shù)據(jù)集上驗(yàn)證FCVI方法的高效性和可行性。實(shí)驗(yàn)結(jié)果表明FCVI方法在保證計(jì)算精度的同時(shí),加速了CVI方法的推理時(shí)間。3.傳統(tǒng)的主題表示方法是用邊緣概率最大的前M個(gè)單詞組成前端單詞列表作為主題的一種表示方法。但是在某些實(shí)驗(yàn)中發(fā)現(xiàn)主題的前M個(gè)單詞列表中經(jīng)常包含一些不具有代表性(representative)的單詞,甚至是無意義的噪聲詞。因此,本文通過考慮某個(gè)主題的主題詞在其他主題上的邊緣概率,重排該主題的前端單詞列表。本文提出三種主題詞重排策略:(1)使用標(biāo)準(zhǔn)差權(quán)重(standard deviation weight);(2)使用帶有主題規(guī)模的標(biāo)準(zhǔn)差權(quán)重;(3)使用卡方檢驗(yàn)(Chi SquareX~2)。本文針對LDA模型,在兩個(gè)實(shí)際應(yīng)用數(shù)據(jù)集上,首先驗(yàn)證這三種重排策略是否能夠準(zhǔn)確地過濾掉類停用詞,然后通過單詞侵入(word intrusion)任務(wù)驗(yàn)證這三種重排策略是否能夠輸出語義更相關(guān)的主題詞。實(shí)驗(yàn)結(jié)果表明這三種重排策略能夠輸出更具代表性的主題詞,使主題在語義上更具一致性和可解釋性。
【圖文】:

固定參數(shù),數(shù)據(jù)集,博士學(xué)位論文,吉林大學(xué)


吉林大學(xué)博士學(xué)位論文法的 perplexity 值低于 MFVI 方法的 perplexity 值。在 WEBKB、NIPS上,MFVI 方法的 perplexity 值低于 HVG 方法的 perplexity 值。然而,它特別小。這些實(shí)驗(yàn)結(jié)果和之前的分析是不匹配的,,原因可能是 HVG 方法程導(dǎo)致了額外的偏差。

固定參數(shù),數(shù)據(jù)集


(b)固定參數(shù)的情況下在NIPS數(shù)據(jù)集上的perplexity結(jié)果
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP391.1;TP181

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 苗義烽;周曉昭;;主觀貝葉斯方法在列車占用丟失報(bào)警原因分析中的應(yīng)用[J];鐵路計(jì)算機(jī)應(yīng)用;2014年12期

2 艾艷杰;;基于貝葉斯方法的比例數(shù)據(jù)分位數(shù)推斷及其應(yīng)用[J];散文百家(新語文活頁);2017年01期

3 云連英;汪榮偉;;保費(fèi)調(diào)整的貝葉斯方法[J];統(tǒng)計(jì)與決策;2006年05期

4 張渭彬;;應(yīng)力與強(qiáng)度相關(guān)條件下產(chǎn)品可靠度的Bayes估計(jì)[J];強(qiáng)度與環(huán)境;1988年06期

5 張建國;;貝葉斯方法及其問題淺識(shí)[J];醫(yī)學(xué)與哲學(xué);1988年11期

6 王宏洲;引信的可靠性評定——貝葉斯方法和經(jīng)驗(yàn)貝葉斯方法[J];現(xiàn)代引信;1989年02期

7 石國楨;;工程診斷和診斷中的貝葉斯方法[J];機(jī)械強(qiáng)度;1984年02期

8 鄒亞娟;;貝葉斯方法在數(shù)據(jù)挖掘中的應(yīng)用進(jìn)展[J];科技致富向?qū)?2014年14期

9 丁東洋;劉希陽;;風(fēng)險(xiǎn)分析中的穩(wěn)健貝葉斯方法[J];內(nèi)蒙古財(cái)經(jīng)學(xué)院學(xué)報(bào);2011年04期

10 丁東洋;周麗莉;;貝葉斯方法在污水處理收費(fèi)研究中的應(yīng)用[J];統(tǒng)計(jì)教育;2009年03期

相關(guān)會(huì)議論文 前10條

1 丁東洋;劉希陽;;風(fēng)險(xiǎn)分析中的穩(wěn)健貝葉斯方法[A];2011年全國電子信息技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2011年

2 David Z.D'Argenio;;貝葉斯方法在實(shí)驗(yàn)室研究向臨床的轉(zhuǎn)化以及辨識(shí)隱含亞群體中的應(yīng)用(英文)[A];中國藥理學(xué)會(huì)臨床藥理學(xué)專業(yè)委員會(huì)會(huì)議暨第十次全國臨床藥理學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

3 胡桂華;易躍明;林敏;;稀少項(xiàng)目子總體估計(jì)的貝葉斯方法——基于一個(gè)抽樣審計(jì)問題的討論[A];中國會(huì)計(jì)學(xué)會(huì)高等工科院校分會(huì)2008年學(xué)術(shù)年會(huì)(第十五屆年會(huì))暨中央在鄂集團(tuán)企業(yè)財(cái)務(wù)管理研討會(huì)論文集(下冊)[C];2008年

4 楊麗;武海濱;李康;;無金標(biāo)準(zhǔn)診斷試驗(yàn)評價(jià)的貝葉斯方法及應(yīng)用[A];2011年中國衛(wèi)生統(tǒng)計(jì)學(xué)年會(huì)會(huì)議論文集[C];2011年

5 朱永生;;貝葉斯方法確定泊松變量的置信上限[A];中國物理學(xué)會(huì)高能物理分會(huì)第七屆學(xué)術(shù)年會(huì)實(shí)驗(yàn)分會(huì)場論文集[C];2006年

6 王增忠;柳玉杰;施建剛;;建筑工程項(xiàng)目全壽命安全管理決策的貝葉斯方法[A];中國優(yōu)選法統(tǒng)籌法與經(jīng)濟(jì)數(shù)學(xué)研究會(huì)第七屆全國會(huì)員代表大會(huì)暨第七屆中國管理科學(xué)學(xué)術(shù)年會(huì)論文集[C];2005年

7 馬東輝;;ASReml在分子育種中的應(yīng)用[A];第一屆全國玉米生物學(xué)學(xué)術(shù)研討會(huì)論文匯編[C];2015年

8 費(fèi)斌軍;陳勃;;疲勞強(qiáng)度參數(shù)概率分布的貝葉斯方法[A];新世紀(jì) 新機(jī)遇 新挑戰(zhàn)——知識(shí)創(chuàng)新和高新技術(shù)產(chǎn)業(yè)發(fā)展(下冊)[C];2001年

9 翟鐸;李風(fēng)華;;基于變分貝葉斯的水平陣模態(tài)分離[A];中國聲學(xué)學(xué)會(huì)水聲學(xué)分會(huì)2019年學(xué)術(shù)會(huì)議論文集[C];2019年

10 龔盛夏;黃乘利;;貝葉斯方法反演類地行星內(nèi)部結(jié)構(gòu)[A];中國地球物理2013——第二十五專題論文集[C];2013年

相關(guān)重要報(bào)紙文章 前1條

1 本報(bào)記者 計(jì)紅梅;向機(jī)器理解人類行為邁出一小步[N];中國科學(xué)報(bào);2019年

相關(guān)博士學(xué)位論文 前10條

1 遲晉進(jìn);變分推理及貝葉斯方法在主題模型中應(yīng)用的研究[D];吉林大學(xué);2019年

2 錢永青;結(jié)構(gòu)化貝葉斯壓縮感知技術(shù)及其應(yīng)用研究[D];武漢大學(xué);2013年

3 張少中;基于貝葉斯網(wǎng)絡(luò)的知識(shí)發(fā)現(xiàn)與決策應(yīng)用研究[D];大連理工大學(xué);2003年

4 李小琳;面向智能數(shù)據(jù)處理的貝葉斯網(wǎng)絡(luò)研究與應(yīng)用[D];吉林大學(xué);2005年

5 黃友平;貝葉斯網(wǎng)絡(luò)研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年

6 胡笑旋;貝葉斯網(wǎng)建模技術(shù)及其在決策中的應(yīng)用[D];合肥工業(yè)大學(xué);2006年

7 王紅梅;保護(hù)隱私的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)研究[D];天津大學(xué);2006年

8 董立巖;貝葉斯網(wǎng)絡(luò)應(yīng)用基礎(chǔ)研究[D];吉林大學(xué);2007年

9 周忠寶;基于貝葉斯網(wǎng)絡(luò)的概率安全評估方法及應(yīng)用研究[D];國防科學(xué)技術(shù)大學(xué);2006年

10 李旭升;貝葉斯網(wǎng)絡(luò)分類模型研究及其在信用評估中的應(yīng)用[D];西南交通大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 張小圓;保險(xiǎn)精算中風(fēng)險(xiǎn)保費(fèi)的貝葉斯預(yù)測與統(tǒng)計(jì)分析[D];江西師范大學(xué);2018年

2 萬闖;基于貝葉斯Expectile模型的股指期貨風(fēng)險(xiǎn)研究[D];湖南大學(xué);2018年

3 任德鑫;中國大陸地區(qū)地震數(shù)據(jù)的空間貝葉斯建模[D];昆明理工大學(xué);2018年

4 孫慕白;應(yīng)用貝葉斯方法對柯薩奇病毒A組6型分子進(jìn)化的研究[D];吉林大學(xué);2018年

5 鄭姝婷;基于貝葉斯網(wǎng)絡(luò)的地鐵列車制動(dòng)系統(tǒng)可靠性分析[D];北京交通大學(xué);2018年

6 馬曉彤;基于貝葉斯網(wǎng)絡(luò)的重特大交通事故影響研究[D];長安大學(xué);2018年

7 周昱;基于貝葉斯網(wǎng)的高速公路隧道交通事故預(yù)測及應(yīng)急預(yù)案研究[D];長安大學(xué);2018年

8 蓋迪;基于改進(jìn)貝葉斯網(wǎng)絡(luò)的變電站故障診斷的研究[D];東北石油大學(xué);2018年

9 黃鸝;近似貝葉斯方法及其應(yīng)用研究[D];蘇州大學(xué);2018年

10 劉康;貝葉斯濾波的概率似然乘積方法研究[D];昆明理工大學(xué);2018年



本文編號(hào):2657383

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2657383.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3e1df***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com