基于主題模型和聚類(lèi)算法的網(wǎng)絡(luò)熱點(diǎn)話(huà)題發(fā)現(xiàn)
發(fā)布時(shí)間:2023-04-12 01:56
社交媒體的快速發(fā)展引發(fā)的網(wǎng)絡(luò)復(fù)雜性問(wèn)題給網(wǎng)絡(luò)的研究帶來(lái)了很大挑戰(zhàn),網(wǎng)絡(luò)中出現(xiàn)的輿情問(wèn)題此起彼伏,用戶(hù)可以隨時(shí)隨地發(fā)表自己的看法,這就積累了大量用戶(hù)產(chǎn)生的數(shù)據(jù)。如:圖片、文本、視頻等。這些數(shù)據(jù)中隱藏著很有價(jià)值的信息,它反映了當(dāng)前網(wǎng)民關(guān)注的熱點(diǎn)話(huà)題,但是網(wǎng)絡(luò)的錯(cuò)綜復(fù)雜使人們不能及時(shí)有效地獲取信息,如何準(zhǔn)確發(fā)現(xiàn)網(wǎng)絡(luò)中的熱點(diǎn)話(huà)題成了學(xué)者們研究的重點(diǎn)問(wèn)題。本文采集新浪微博數(shù)據(jù),通過(guò)對(duì)微博文本內(nèi)容、用戶(hù)轉(zhuǎn)發(fā)、評(píng)論等信息以及用戶(hù)特點(diǎn)相關(guān)屬性深入分析,主要工作如下:(1)針對(duì)傳統(tǒng)詞對(duì)主題模型在短文本處理時(shí)對(duì)所有詞采取同一處理,忽略用戶(hù)個(gè)性化問(wèn)題,提出基于詞對(duì)主題模型的話(huà)題特征提取方法。首先,主題建模時(shí)引入用戶(hù)因素,將同一用戶(hù)產(chǎn)生的所有文本作為一個(gè)文檔;其次考慮背景詞和主題詞,刪掉無(wú)關(guān)背景詞,引入用戶(hù)的吉布斯采樣對(duì)模型參數(shù)推導(dǎo);最后使用JS和余弦相似度聯(lián)合判斷話(huà)題是否為同一個(gè)分類(lèi),從而保證特征提取的準(zhǔn)確度。(2)針對(duì)螢火蟲(chóng)算法易陷入局部最優(yōu),迭代過(guò)程中容易跳過(guò)最優(yōu)解的問(wèn)題,提出動(dòng)態(tài)自適應(yīng)步長(zhǎng)螢火蟲(chóng)算法。迭代初期較大步長(zhǎng)保證以較快的速度定位在接近全局最優(yōu)解的范圍內(nèi),迭代后期以較小步長(zhǎng)在最優(yōu)解附近尋優(yōu),從而...
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 課題研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 研究?jī)?nèi)容及主要工作
1.4 論文組織結(jié)構(gòu)
第二章 相關(guān)知識(shí)
2.1 網(wǎng)絡(luò)熱點(diǎn)話(huà)題發(fā)現(xiàn)概述
2.2 文本預(yù)處理
2.2.1 中文分詞
2.2.2 過(guò)濾停用詞
2.3 文本特征選擇
2.4 文本表示模型
2.4.1 基于Word2vec的文本表示模型
2.4.2 詞對(duì)主題模型
2.5 文本聚類(lèi)算法
2.6 群智能算法
2.7 本章小結(jié)
第三章 基于詞對(duì)主題模型的話(huà)題特征提取
3.1 問(wèn)題的提出
3.2 基于詞對(duì)主題模型的話(huà)題特征提取算法
3.2.1 算法概述
3.2.2 用戶(hù)BTM模型
3.2.3 模型推理
3.3 實(shí)驗(yàn)與結(jié)果分析
3.3.1 實(shí)驗(yàn)數(shù)據(jù)集及預(yù)處理
3.3.2 評(píng)價(jià)標(biāo)準(zhǔn)
3.3.3 算法比較及分析
3.4 本章小結(jié)
第四章 改進(jìn)螢火蟲(chóng)算法的模糊聚類(lèi)網(wǎng)絡(luò)熱點(diǎn)話(huà)題發(fā)現(xiàn)
4.1 問(wèn)題的提出
4.2 基于DASFA-FCM的網(wǎng)絡(luò)熱點(diǎn)話(huà)題發(fā)現(xiàn)
4.2.1 改進(jìn)螢火蟲(chóng)算法
4.2.2 FCM算法
4.2.3 適應(yīng)度函數(shù)
4.2.4 算法描述
4.3 實(shí)驗(yàn)結(jié)果及分析
4.3.1 實(shí)驗(yàn)數(shù)據(jù)集
4.3.2 評(píng)價(jià)標(biāo)準(zhǔn)
4.3.3 不同算法性能比較和分析
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 工作總結(jié)
5.2 進(jìn)一步要解決的問(wèn)題
參考文獻(xiàn)
致謝
攻讀學(xué)位期間發(fā)表的論文
本文編號(hào):3790190
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 課題研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 研究?jī)?nèi)容及主要工作
1.4 論文組織結(jié)構(gòu)
第二章 相關(guān)知識(shí)
2.1 網(wǎng)絡(luò)熱點(diǎn)話(huà)題發(fā)現(xiàn)概述
2.2 文本預(yù)處理
2.2.1 中文分詞
2.2.2 過(guò)濾停用詞
2.3 文本特征選擇
2.4 文本表示模型
2.4.1 基于Word2vec的文本表示模型
2.4.2 詞對(duì)主題模型
2.5 文本聚類(lèi)算法
2.6 群智能算法
2.7 本章小結(jié)
第三章 基于詞對(duì)主題模型的話(huà)題特征提取
3.1 問(wèn)題的提出
3.2 基于詞對(duì)主題模型的話(huà)題特征提取算法
3.2.1 算法概述
3.2.2 用戶(hù)BTM模型
3.2.3 模型推理
3.3 實(shí)驗(yàn)與結(jié)果分析
3.3.1 實(shí)驗(yàn)數(shù)據(jù)集及預(yù)處理
3.3.2 評(píng)價(jià)標(biāo)準(zhǔn)
3.3.3 算法比較及分析
3.4 本章小結(jié)
第四章 改進(jìn)螢火蟲(chóng)算法的模糊聚類(lèi)網(wǎng)絡(luò)熱點(diǎn)話(huà)題發(fā)現(xiàn)
4.1 問(wèn)題的提出
4.2 基于DASFA-FCM的網(wǎng)絡(luò)熱點(diǎn)話(huà)題發(fā)現(xiàn)
4.2.1 改進(jìn)螢火蟲(chóng)算法
4.2.2 FCM算法
4.2.3 適應(yīng)度函數(shù)
4.2.4 算法描述
4.3 實(shí)驗(yàn)結(jié)果及分析
4.3.1 實(shí)驗(yàn)數(shù)據(jù)集
4.3.2 評(píng)價(jià)標(biāo)準(zhǔn)
4.3.3 不同算法性能比較和分析
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 工作總結(jié)
5.2 進(jìn)一步要解決的問(wèn)題
參考文獻(xiàn)
致謝
攻讀學(xué)位期間發(fā)表的論文
本文編號(hào):3790190
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3790190.html
最近更新
教材專(zhuān)著