基于Word2vec的微博熱點(diǎn)話(huà)題檢測(cè)技術(shù)研究
發(fā)布時(shí)間:2023-12-13 19:50
隨著Web2.0的高速發(fā)展及移動(dòng)設(shè)備的大量普及,微博客(Microblog,簡(jiǎn)稱(chēng)微博)逐漸成為人們相互交流,獲取世界各地奇聞異事的重要途徑。越來(lái)越多的網(wǎng)民通過(guò)微博將情感和對(duì)某事件的看法表達(dá)出來(lái),這樣就形成了不同于傳統(tǒng)新聞媒體的網(wǎng)絡(luò)輿情。從微博文本中挖掘有效信息、提取熱點(diǎn)對(duì)及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)輿情有深刻意義。因?yàn)槲⒉┪谋揪哂凶謹(jǐn)?shù)少、上下文聯(lián)系不緊密的特點(diǎn),在文本建模過(guò)程中會(huì)面臨嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題,從而影響話(huà)題檢測(cè)準(zhǔn)確度,所以對(duì)微博短文本的熱點(diǎn)話(huà)題檢測(cè)技術(shù)的研究非常有必要。本文圍繞微博短文本的建模以及話(huà)題檢測(cè)做了相關(guān)研究,主要工作如下。(1)獲取微博短文本以及預(yù)處理。為獲取更具話(huà)題性的微博,首先提出利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù),爬取具有影響力的大V賬號(hào)微博來(lái)獲取數(shù)據(jù),與通過(guò)官方平臺(tái)提供的接口獲取數(shù)據(jù)相比,網(wǎng)絡(luò)爬蟲(chóng)更簡(jiǎn)便且能獲取更多的數(shù)據(jù);隨后篩除內(nèi)容少的微博文本以減少冗余;最后利用結(jié)巴分詞對(duì)微博短文本分詞,并進(jìn)—步去除其中的停用詞。(2)改進(jìn)主題建模方法。針對(duì)微博短文本建立文本模型時(shí)面臨的數(shù)據(jù)稀疏問(wèn)題以及擴(kuò)充外部語(yǔ)料難的問(wèn)題,提出了將特征詞輸入Word2vec的Skip-gram模型以訓(xùn)練詞向量,得到與特征詞...
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文工作
第2章 微博熱點(diǎn)話(huà)題檢測(cè)理論研究
2.1 詞向量
2.2 WORD2VEC工作原理
2.2.1 連續(xù)詞袋模型
2.2.2 Skip-gram模型
2.3 文本表示模型
2.3.1 向量空間模型
2.3.2 潛在語(yǔ)義分析模型
2.3.3 概率潛在語(yǔ)義分析模型
2.3.4 潛在狄利克雷分布模型
2.4 文本聚類(lèi)算法介紹
2.4.1 基于劃分的聚類(lèi)算法
2.4.2 基于層次的聚類(lèi)算法
2.4.3 基于密度的聚類(lèi)算法
2.4.4 基于網(wǎng)格的聚類(lèi)算法
2.4.5 基于模型的聚類(lèi)算法
2.4.6 基于模糊的聚類(lèi)算法
2.5 本章小結(jié)
第3章 微博熱點(diǎn)話(huà)題檢測(cè)系統(tǒng)的研究
3.1 微博數(shù)據(jù)采集與預(yù)處理
3.1.1 爬蟲(chóng)獲取微博短文本數(shù)據(jù)
3.1.2 去除噪聲
3.1.3 中文分詞
3.1.4 去除停用詞
3.2 基于WORD2VEC的LDA主題建模
3.3 改進(jìn)的SINGLE-PASS聚類(lèi)算法
3.4 凝聚式層次聚類(lèi)再次聚類(lèi)
3.5 本章小結(jié)
第4章 基于WORD2VEC的LDA主題建模
4.1 傳統(tǒng)LDA主題建模
4.2 基于WORD2VEC的LDA主題建模
4.2.1 基于Word2vec的LDA主題模型算法原理
4.2.2 基于Word2vec的LDA主題模型算法流程
4.2.3 基于Word2vec的LDA主題模型參數(shù)的選取
4.3 本章小結(jié)
第5章 基于LDA主題建模的微博熱點(diǎn)話(huà)題檢測(cè)
5.1 相似度計(jì)算
5.2 SINGLE-PASS增量聚類(lèi)算法
5.3 話(huà)題初步檢測(cè)
5.4 熱點(diǎn)話(huà)題合并
5.5 微博熱點(diǎn)話(huà)題檢測(cè)
5.6 本章小結(jié)
第6章 實(shí)驗(yàn)結(jié)果分析
6.1 微博數(shù)據(jù)采集
6.2 中文分詞
6.3 去除停用詞
6.4 基于WORD2VEC的LDA主題建模
6.5 話(huà)題檢測(cè)實(shí)驗(yàn)結(jié)果與分析
6.6 本章小結(jié)
第7章 總結(jié)與展望
7.1 總結(jié)
7.2 展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及科研成果
本文編號(hào):3873856
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文工作
第2章 微博熱點(diǎn)話(huà)題檢測(cè)理論研究
2.1 詞向量
2.2 WORD2VEC工作原理
2.2.1 連續(xù)詞袋模型
2.2.2 Skip-gram模型
2.3 文本表示模型
2.3.1 向量空間模型
2.3.2 潛在語(yǔ)義分析模型
2.3.3 概率潛在語(yǔ)義分析模型
2.3.4 潛在狄利克雷分布模型
2.4 文本聚類(lèi)算法介紹
2.4.1 基于劃分的聚類(lèi)算法
2.4.2 基于層次的聚類(lèi)算法
2.4.3 基于密度的聚類(lèi)算法
2.4.4 基于網(wǎng)格的聚類(lèi)算法
2.4.5 基于模型的聚類(lèi)算法
2.4.6 基于模糊的聚類(lèi)算法
2.5 本章小結(jié)
第3章 微博熱點(diǎn)話(huà)題檢測(cè)系統(tǒng)的研究
3.1 微博數(shù)據(jù)采集與預(yù)處理
3.1.1 爬蟲(chóng)獲取微博短文本數(shù)據(jù)
3.1.2 去除噪聲
3.1.3 中文分詞
3.1.4 去除停用詞
3.2 基于WORD2VEC的LDA主題建模
3.3 改進(jìn)的SINGLE-PASS聚類(lèi)算法
3.4 凝聚式層次聚類(lèi)再次聚類(lèi)
3.5 本章小結(jié)
第4章 基于WORD2VEC的LDA主題建模
4.1 傳統(tǒng)LDA主題建模
4.2 基于WORD2VEC的LDA主題建模
4.2.1 基于Word2vec的LDA主題模型算法原理
4.2.2 基于Word2vec的LDA主題模型算法流程
4.2.3 基于Word2vec的LDA主題模型參數(shù)的選取
4.3 本章小結(jié)
第5章 基于LDA主題建模的微博熱點(diǎn)話(huà)題檢測(cè)
5.1 相似度計(jì)算
5.2 SINGLE-PASS增量聚類(lèi)算法
5.3 話(huà)題初步檢測(cè)
5.4 熱點(diǎn)話(huà)題合并
5.5 微博熱點(diǎn)話(huà)題檢測(cè)
5.6 本章小結(jié)
第6章 實(shí)驗(yàn)結(jié)果分析
6.1 微博數(shù)據(jù)采集
6.2 中文分詞
6.3 去除停用詞
6.4 基于WORD2VEC的LDA主題建模
6.5 話(huà)題檢測(cè)實(shí)驗(yàn)結(jié)果與分析
6.6 本章小結(jié)
第7章 總結(jié)與展望
7.1 總結(jié)
7.2 展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及科研成果
本文編號(hào):3873856
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3873856.html
最近更新
教材專(zhuān)著