基于主題模型的金融論壇文本挖掘
發(fā)布時(shí)間:2023-02-12 10:00
金融論壇,作為面向股民的平臺(tái),擁有著很高的熱度。利用好金融論壇里面的文本信息,對(duì)投資具有很大的幫助。對(duì)于訪問金融論壇的網(wǎng)民,最想要了解的信息主要有兩點(diǎn):近期討論度比較高的事件以及網(wǎng)民對(duì)個(gè)股是看好還是看衰,本文將通過主題模型對(duì)這兩種信息進(jìn)行挖掘。本文的主要工作如下:對(duì)金融論壇新聞版塊進(jìn)行主題挖掘。論壇語料擁有回復(fù)短、水帖多等特點(diǎn),傳統(tǒng)的主題模型不適用于短文本,且沒有考慮無意義文本,這使得傳統(tǒng)主題模型在論壇語料上很難取得很好的效果。針對(duì)論壇語料的這些特點(diǎn),本文提出了BBS-LDA主題模型,該模型以句子為單位采樣主題,且每個(gè)帖子中的句子具有相同的主題分布,這樣的做法考慮了論壇的結(jié)構(gòu)特性,并且可以緩解單條回復(fù)字?jǐn)?shù)少導(dǎo)致的稀疏性問題。同時(shí),該模型引入了無意義主題和用戶的信息,以緩解水帖對(duì)于主題挖掘的影響。通過真實(shí)語料進(jìn)行對(duì)比實(shí)驗(yàn),該主題模型能夠提升主題關(guān)鍵詞的質(zhì)量。對(duì)金融論壇個(gè)股版塊進(jìn)行情感分析。論壇語料沒有標(biāo)注信息,很多有監(jiān)督的分類方法需要人工標(biāo)注,所以并不適用。本文通過Word2vec和SO-PMI構(gòu)建了金融情感詞典,并以此為監(jiān)督信息使用情感主題混合模型對(duì)個(gè)股的帖子進(jìn)行情感分析。通過在由人工...
【文章頁數(shù)】:75 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 針對(duì)論壇的研究
1.2.2 主題模型相關(guān)研究
1.3 本文的研究內(nèi)容
1.4 本文的組織結(jié)構(gòu)
第二章 相關(guān)技術(shù)研究
2.1 文本預(yù)處理
2.1.1 分詞
2.1.2 去停用詞
2.2 文本表示
2.3 主題模型
2.3.1 Unigram模型
2.3.2 Mixture of unigrams模型
2.3.3 PLSA模型
2.3.4 LDA模型
2.4 吉布斯采樣
2.5 本章小結(jié)
第三章 基于BBS-LDA的金融論壇主題挖掘
3.1 論壇主題挖掘的難點(diǎn)分析
3.2 BBS-LDA主題模型
3.3 模型參數(shù)估計(jì)
3.3.1 模型概率分布
3.3.2 吉布斯采樣過程
3.3.3 參數(shù)估計(jì)
3.3.4 采樣算法整體流程
3.4 垃圾回復(fù)識(shí)別
3.5 模型評(píng)估
3.5.1 數(shù)據(jù)獲取
3.5.2 數(shù)據(jù)處理
3.5.3 實(shí)驗(yàn)與分析
3.6 本章小結(jié)
第四章 基于JST的個(gè)股情感分析
4.1 個(gè)股版塊文本分析
4.2 JST主題模型
4.3 情感詞典
4.3.1 開源情感詞典
4.3.2 金融情感詞典構(gòu)建
4.4 實(shí)驗(yàn)分析
4.4.1 分類性能分析
4.4.2 情感與股價(jià)分析
4.5 本章小結(jié)
第五章 基于主題模型的金融論壇分析系統(tǒng)的實(shí)現(xiàn)
5.1 系統(tǒng)需求分析
5.2 系統(tǒng)架構(gòu)設(shè)計(jì)
5.3 各模塊實(shí)現(xiàn)細(xì)節(jié)
5.3.1 爬蟲模塊
5.3.2 算法模塊
5.3.3 展示模塊
5.4 系統(tǒng)演示
5.5 本章小結(jié)
第六章 結(jié)論與展望
6.1 結(jié)論
6.2 展望
參考文獻(xiàn)
致謝
作者簡(jiǎn)介
1 作者簡(jiǎn)歷
2 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文
3 參與的科研項(xiàng)目及獲獎(jiǎng)情況
4 發(fā)明專利
學(xué)位論文數(shù)據(jù)集
附件 2
本文編號(hào):3740886
【文章頁數(shù)】:75 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 針對(duì)論壇的研究
1.2.2 主題模型相關(guān)研究
1.3 本文的研究內(nèi)容
1.4 本文的組織結(jié)構(gòu)
第二章 相關(guān)技術(shù)研究
2.1 文本預(yù)處理
2.1.1 分詞
2.1.2 去停用詞
2.2 文本表示
2.3 主題模型
2.3.1 Unigram模型
2.3.2 Mixture of unigrams模型
2.3.3 PLSA模型
2.3.4 LDA模型
2.4 吉布斯采樣
2.5 本章小結(jié)
第三章 基于BBS-LDA的金融論壇主題挖掘
3.1 論壇主題挖掘的難點(diǎn)分析
3.2 BBS-LDA主題模型
3.3 模型參數(shù)估計(jì)
3.3.1 模型概率分布
3.3.2 吉布斯采樣過程
3.3.3 參數(shù)估計(jì)
3.3.4 采樣算法整體流程
3.4 垃圾回復(fù)識(shí)別
3.5 模型評(píng)估
3.5.1 數(shù)據(jù)獲取
3.5.2 數(shù)據(jù)處理
3.5.3 實(shí)驗(yàn)與分析
3.6 本章小結(jié)
第四章 基于JST的個(gè)股情感分析
4.1 個(gè)股版塊文本分析
4.2 JST主題模型
4.3 情感詞典
4.3.1 開源情感詞典
4.3.2 金融情感詞典構(gòu)建
4.4 實(shí)驗(yàn)分析
4.4.1 分類性能分析
4.4.2 情感與股價(jià)分析
4.5 本章小結(jié)
第五章 基于主題模型的金融論壇分析系統(tǒng)的實(shí)現(xiàn)
5.1 系統(tǒng)需求分析
5.2 系統(tǒng)架構(gòu)設(shè)計(jì)
5.3 各模塊實(shí)現(xiàn)細(xì)節(jié)
5.3.1 爬蟲模塊
5.3.2 算法模塊
5.3.3 展示模塊
5.4 系統(tǒng)演示
5.5 本章小結(jié)
第六章 結(jié)論與展望
6.1 結(jié)論
6.2 展望
參考文獻(xiàn)
致謝
作者簡(jiǎn)介
1 作者簡(jiǎn)歷
2 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文
3 參與的科研項(xiàng)目及獲獎(jiǎng)情況
4 發(fā)明專利
學(xué)位論文數(shù)據(jù)集
附件 2
本文編號(hào):3740886
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3740886.html
最近更新
教材專著