基于CFDP-LDA模型的主題聚合度研究
發(fā)布時(shí)間:2022-05-06 21:14
互聯(lián)網(wǎng)技術(shù)的快速發(fā)展有利于信息存儲(chǔ)、提取和傳播,使得大量的信息得以轉(zhuǎn)換為電子文檔的形式,從而可以有效的以半結(jié)構(gòu)或者非結(jié)構(gòu)化的數(shù)據(jù)類型保存,很大程度上緩解了大數(shù)據(jù)儲(chǔ)存和展現(xiàn)的困難,F(xiàn)如今如何對海量的文檔信息進(jìn)行篩選和管理信息成為用戶的主要需求,文本挖掘正是基于以上需求發(fā)展起來的,成為當(dāng)前的研究熱點(diǎn)。文本挖掘主要應(yīng)用于主題挖掘、文本分類、文本聚類、情感分析、輿情分析等,針對不同的需求在各個(gè)領(lǐng)域發(fā)揮作用,其中主題挖掘是文本挖掘技術(shù)中不可或缺的重要部分。面對大量的無法直接進(jìn)行分析的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),想要對其進(jìn)行信息檢索、信息過濾、情感分析等研究的基礎(chǔ)是進(jìn)行主題挖掘。隨著數(shù)學(xué)、計(jì)算機(jī)語言、統(tǒng)計(jì)學(xué)等學(xué)科的交叉運(yùn)用和發(fā)展,主題挖掘技術(shù)得到了很好的發(fā)展和完善。目前,主題模型因其完備的三層貝葉斯生成模型而具有優(yōu)良的統(tǒng)計(jì)特性,在主題挖掘研究中受到廣泛關(guān)注和推廣。主題模型的出現(xiàn)大大提高了文本主題挖掘的準(zhǔn)確率,但是主題模型也存在一些難題,(1)主題個(gè)數(shù)問題,傳統(tǒng)的主題模型中主題個(gè)數(shù)是人為主觀設(shè)定,該方法不具備客觀性,主題個(gè)數(shù)設(shè)置的不同會(huì)導(dǎo)致主題挖掘結(jié)果發(fā)生很大變化;(2)主題聚合度問題,在傳統(tǒng)的主題模型...
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 引言
1.1 研究背景與研究意義
1.1.1 研究背景
1.1.2 研究意義
1.2 主要貢獻(xiàn)與內(nèi)容安排
1.2.1 主要貢獻(xiàn)
1.2.2 內(nèi)容安排
第2章 文獻(xiàn)綜述
2.1 主題模型的發(fā)展
2.1.1 LSI模型
2.1.2 pLSA模型
2.1.3 LDA模型的拓展
2.2 文本主題聚合度研究綜述
第3章 相關(guān)基礎(chǔ)理論及模型構(gòu)建
3.1 相關(guān)基礎(chǔ)理論
3.2 CFDP-LDA模型構(gòu)建的總體方案
3.3 目標(biāo)一致性證明
3.3.1 LDA模型的優(yōu)化目標(biāo)
3.3.2 CFDP-LDA模型的一致性證明
3.4 CFDP-LDA模型的實(shí)現(xiàn)流程
第4章 基于CFDP-LDA模型的實(shí)證分析
4.1 實(shí)驗(yàn)環(huán)境
4.2 數(shù)據(jù)預(yù)處理
4.3 CFDP-LDA模型的技術(shù)實(shí)現(xiàn)
4.4 實(shí)證分析
4.4.1 算法流程
4.4.2 實(shí)證結(jié)果可視化
4.4.3 比較分析
4.5 模型評價(jià)
第5章 總結(jié)與展望
5.1 本文總結(jié)
5.2 研究展望
參考文獻(xiàn)
致謝
個(gè)人簡歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文及研究成果
【參考文獻(xiàn)】:
期刊論文
[1]基于文檔主題結(jié)構(gòu)和詞圖迭代的關(guān)鍵詞抽取方法研究[J]. 孫明珠,馬靜,錢玲飛. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2019(08)
[2]基于頻繁詞網(wǎng)絡(luò)的LDA最優(yōu)主題個(gè)數(shù)選取方法[J]. 李菲菲,王移芝. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(08)
[3]LDA模型的優(yōu)化及其主題數(shù)量選擇研究——以科技文獻(xiàn)為例[J]. 王婷婷,韓滿,王宇. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2018(01)
[4]基于LDA模型和多層聚類的微博話題檢測[J]. 劉紅兵,李文坤,張仰森. 計(jì)算機(jī)技術(shù)與發(fā)展. 2016(06)
[5]基于改進(jìn)的LDA主題模型的微博用戶聚類研究[J]. 裴超,肖詩斌,江敏. 情報(bào)理論與實(shí)踐. 2016(03)
[6]一種結(jié)合有監(jiān)督學(xué)習(xí)的動(dòng)態(tài)主題模型[J]. 蔣卓人,陳燕,高良才,湯幟,劉曉鐘. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(02)
[7]基于LDA-wSVM模型的文本分類研究[J]. 李鋒剛,梁鈺,GAO Xiao-zhi,ZENGER Kai. 計(jì)算機(jī)應(yīng)用研究. 2015(01)
[8]基于LDA模型的科技期刊主題演化研究[J]. 李湘東,張嬌,袁滿. 情報(bào)雜志. 2014(07)
[9]最大距離法選取初始簇中心的K-means文本聚類算法的研究[J]. 翟東海,魚江,高飛,于磊,丁鋒. 計(jì)算機(jī)應(yīng)用研究. 2014(03)
[10]基于混合模型的文本主題-情感分析方法[J]. 樊娜,蔡皖東,趙煜. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2010(01)
碩士論文
[1]基于統(tǒng)計(jì)學(xué)習(xí)方法的高斯LDA模型的文本聚類研究[D]. 王宇.華僑大學(xué) 2017
[2]基于SOM的文本聚類模型研究[D]. 黎猛.華中科技大學(xué) 2011
本文編號:3651228
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 引言
1.1 研究背景與研究意義
1.1.1 研究背景
1.1.2 研究意義
1.2 主要貢獻(xiàn)與內(nèi)容安排
1.2.1 主要貢獻(xiàn)
1.2.2 內(nèi)容安排
第2章 文獻(xiàn)綜述
2.1 主題模型的發(fā)展
2.1.1 LSI模型
2.1.2 pLSA模型
2.1.3 LDA模型的拓展
2.2 文本主題聚合度研究綜述
第3章 相關(guān)基礎(chǔ)理論及模型構(gòu)建
3.1 相關(guān)基礎(chǔ)理論
3.2 CFDP-LDA模型構(gòu)建的總體方案
3.3 目標(biāo)一致性證明
3.3.1 LDA模型的優(yōu)化目標(biāo)
3.3.2 CFDP-LDA模型的一致性證明
3.4 CFDP-LDA模型的實(shí)現(xiàn)流程
第4章 基于CFDP-LDA模型的實(shí)證分析
4.1 實(shí)驗(yàn)環(huán)境
4.2 數(shù)據(jù)預(yù)處理
4.3 CFDP-LDA模型的技術(shù)實(shí)現(xiàn)
4.4 實(shí)證分析
4.4.1 算法流程
4.4.2 實(shí)證結(jié)果可視化
4.4.3 比較分析
4.5 模型評價(jià)
第5章 總結(jié)與展望
5.1 本文總結(jié)
5.2 研究展望
參考文獻(xiàn)
致謝
個(gè)人簡歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文及研究成果
【參考文獻(xiàn)】:
期刊論文
[1]基于文檔主題結(jié)構(gòu)和詞圖迭代的關(guān)鍵詞抽取方法研究[J]. 孫明珠,馬靜,錢玲飛. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2019(08)
[2]基于頻繁詞網(wǎng)絡(luò)的LDA最優(yōu)主題個(gè)數(shù)選取方法[J]. 李菲菲,王移芝. 計(jì)算機(jī)技術(shù)與發(fā)展. 2018(08)
[3]LDA模型的優(yōu)化及其主題數(shù)量選擇研究——以科技文獻(xiàn)為例[J]. 王婷婷,韓滿,王宇. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2018(01)
[4]基于LDA模型和多層聚類的微博話題檢測[J]. 劉紅兵,李文坤,張仰森. 計(jì)算機(jī)技術(shù)與發(fā)展. 2016(06)
[5]基于改進(jìn)的LDA主題模型的微博用戶聚類研究[J]. 裴超,肖詩斌,江敏. 情報(bào)理論與實(shí)踐. 2016(03)
[6]一種結(jié)合有監(jiān)督學(xué)習(xí)的動(dòng)態(tài)主題模型[J]. 蔣卓人,陳燕,高良才,湯幟,劉曉鐘. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(02)
[7]基于LDA-wSVM模型的文本分類研究[J]. 李鋒剛,梁鈺,GAO Xiao-zhi,ZENGER Kai. 計(jì)算機(jī)應(yīng)用研究. 2015(01)
[8]基于LDA模型的科技期刊主題演化研究[J]. 李湘東,張嬌,袁滿. 情報(bào)雜志. 2014(07)
[9]最大距離法選取初始簇中心的K-means文本聚類算法的研究[J]. 翟東海,魚江,高飛,于磊,丁鋒. 計(jì)算機(jī)應(yīng)用研究. 2014(03)
[10]基于混合模型的文本主題-情感分析方法[J]. 樊娜,蔡皖東,趙煜. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2010(01)
碩士論文
[1]基于統(tǒng)計(jì)學(xué)習(xí)方法的高斯LDA模型的文本聚類研究[D]. 王宇.華僑大學(xué) 2017
[2]基于SOM的文本聚類模型研究[D]. 黎猛.華中科技大學(xué) 2011
本文編號:3651228
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3651228.html
最近更新
教材專著