LDA模型穩(wěn)定性的研究及其改進(jìn)
發(fā)布時(shí)間:2021-05-20 21:28
主題模型能夠提取文本數(shù)據(jù)中潛在的主題,進(jìn)而根據(jù)每篇文本所屬的主題對(duì)大規(guī)模文檔集進(jìn)行聚類。一個(gè)廣泛使用的主題模型是LDA(Latent Dirichlet allocation)模型,但是LDA模型存在“順序效應(yīng)”,也就是說,如果建模時(shí)改變文本數(shù)據(jù)的讀入順序,模型會(huì)產(chǎn)生不同的主題,文本也可能會(huì)被劃分到不同的主題中。這種“順序效應(yīng)”使結(jié)果具有誤導(dǎo)性,嚴(yán)重降低文本挖掘的效率和準(zhǔn)確性。有學(xué)者曾提出基于遺傳進(jìn)化算法(Genetic algorithms)的LDA模型,在某種程度上提高了模型的穩(wěn)定性,但這種基于遺傳進(jìn)化算法的LDA模型收斂速度相對(duì)較慢,易陷入局部最優(yōu)解,且對(duì)聚類結(jié)果的解釋性較差。針對(duì)這些不足,本文應(yīng)用差分進(jìn)化算法對(duì)LDA模型的相關(guān)參數(shù)進(jìn)行優(yōu)化,并將優(yōu)化之后的模型稱為L(zhǎng)DA-DE模型。在建立LDA-DE模型之后,本文定義了描述模型穩(wěn)定性的概念:主題穩(wěn)定度,之后以主題穩(wěn)定度和文本聚類的準(zhǔn)確度作為模型評(píng)價(jià)指標(biāo),對(duì)LDA模型和LDA-DE模型的建模結(jié)果進(jìn)行對(duì)比。結(jié)果表明,LDA-DE模型具有更高的主題穩(wěn)定度和準(zhǔn)確度。最后,本文以“2019年315消費(fèi)者權(quán)益日”熱點(diǎn)新聞為語料庫,建立LDA模...
【文章來源】:中國(guó)石油大學(xué)(北京)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:57 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景
1.2 研究意義
1.3 研究現(xiàn)狀
1.4 研究?jī)?nèi)容
第2章 理論基礎(chǔ)
2.1 前置知識(shí)
2.1.1 Beta分布
2.1.2 Dirichlet分布
2.1.3 共軛先驗(yàn)分布
2.2 記號(hào)和術(shù)語
2.3 LDA模型
2.4 LDA模型與可交換性
2.5 推斷和參數(shù)估計(jì)
2.5.1 推斷
2.5.2 變分推斷
2.5.3 參數(shù)估計(jì)
第3章 基于差分進(jìn)化算法的LDA-DE模型
3.1 LDA模型參數(shù)
3.2 LDA模型的不穩(wěn)定性
3.3 差分進(jìn)化算法
3.4 LDA-DE模型
3.5 本章小結(jié)
第4章 LDA-DE模型的熱點(diǎn)新聞發(fā)現(xiàn)
4.1 LDA-DE模型用于熱點(diǎn)新聞主題挖掘
4.2 數(shù)據(jù)來源
4.3 數(shù)據(jù)預(yù)處理
4.4 模型比較與選擇
4.5 主題挖掘
第5章 總結(jié)與展望
參考文獻(xiàn)
附錄 A.推斷與參數(shù)估計(jì)
A.1 計(jì)算E_q[log(θ_i)|γ]
A.2 變分推斷
A.3 E步
A.3.1 求解φ_(n,i)
A.3.2 求解γ_i
A.4 M步
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于GV-LDA的微博話題檢測(cè)研究[J]. 李少華,李衛(wèi)疆,余正濤. 軟件導(dǎo)刊. 2018(02)
本文編號(hào):3198457
【文章來源】:中國(guó)石油大學(xué)(北京)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:57 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景
1.2 研究意義
1.3 研究現(xiàn)狀
1.4 研究?jī)?nèi)容
第2章 理論基礎(chǔ)
2.1 前置知識(shí)
2.1.1 Beta分布
2.1.2 Dirichlet分布
2.1.3 共軛先驗(yàn)分布
2.2 記號(hào)和術(shù)語
2.3 LDA模型
2.4 LDA模型與可交換性
2.5 推斷和參數(shù)估計(jì)
2.5.1 推斷
2.5.2 變分推斷
2.5.3 參數(shù)估計(jì)
第3章 基于差分進(jìn)化算法的LDA-DE模型
3.1 LDA模型參數(shù)
3.2 LDA模型的不穩(wěn)定性
3.3 差分進(jìn)化算法
3.4 LDA-DE模型
3.5 本章小結(jié)
第4章 LDA-DE模型的熱點(diǎn)新聞發(fā)現(xiàn)
4.1 LDA-DE模型用于熱點(diǎn)新聞主題挖掘
4.2 數(shù)據(jù)來源
4.3 數(shù)據(jù)預(yù)處理
4.4 模型比較與選擇
4.5 主題挖掘
第5章 總結(jié)與展望
參考文獻(xiàn)
附錄 A.推斷與參數(shù)估計(jì)
A.1 計(jì)算E_q[log(θ_i)|γ]
A.2 變分推斷
A.3 E步
A.3.1 求解φ_(n,i)
A.3.2 求解γ_i
A.4 M步
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于GV-LDA的微博話題檢測(cè)研究[J]. 李少華,李衛(wèi)疆,余正濤. 軟件導(dǎo)刊. 2018(02)
本文編號(hào):3198457
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3198457.html
最近更新
教材專著