當(dāng)前位置：主頁(yè) > 科技論文 > 計(jì)算機(jī)應(yīng)用論文 >

基于Word2vec的微博熱點(diǎn)話(huà)題檢測(cè)技術(shù)研究

發(fā)布時(shí)間：2023-12-13 19:50

　　隨著Web2.0的高速發(fā)展及移動(dòng)設(shè)備的大量普及,微博客(Microblog,簡(jiǎn)稱(chēng)微博)逐漸成為人們相互交流,獲取世界各地奇聞異事的重要途徑。越來(lái)越多的網(wǎng)民通過(guò)微博將情感和對(duì)某事件的看法表達(dá)出來(lái),這樣就形成了不同于傳統(tǒng)新聞媒體的網(wǎng)絡(luò)輿情。從微博文本中挖掘有效信息、提取熱點(diǎn)對(duì)及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)輿情有深刻意義。因?yàn)槲⒉┪谋揪哂凶謹(jǐn)?shù)少、上下文聯(lián)系不緊密的特點(diǎn),在文本建模過(guò)程中會(huì)面臨嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題,從而影響話(huà)題檢測(cè)準(zhǔn)確度,所以對(duì)微博短文本的熱點(diǎn)話(huà)題檢測(cè)技術(shù)的研究非常有必要。本文圍繞微博短文本的建模以及話(huà)題檢測(cè)做了相關(guān)研究,主要工作如下。(1)獲取微博短文本以及預(yù)處理。為獲取更具話(huà)題性的微博,首先提出利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù),爬取具有影響力的大V賬號(hào)微博來(lái)獲取數(shù)據(jù),與通過(guò)官方平臺(tái)提供的接口獲取數(shù)據(jù)相比,網(wǎng)絡(luò)爬蟲(chóng)更簡(jiǎn)便且能獲取更多的數(shù)據(jù);隨后篩除內(nèi)容少的微博文本以減少冗余;最后利用結(jié)巴分詞對(duì)微博短文本分詞,并進(jìn)—步去除其中的停用詞。(2)改進(jìn)主題建模方法。針對(duì)微博短文本建立文本模型時(shí)面臨的數(shù)據(jù)稀疏問(wèn)題以及擴(kuò)充外部語(yǔ)料難的問(wèn)題,提出了將特征詞輸入Word2vec的Skip-gram模型以訓(xùn)練詞向量,得到與特征詞...

【文章頁(yè)數(shù)】：68 頁(yè)

【學(xué)位級(jí)別】：碩士

【文章目錄】：
摘要
Abstract
第1章緒論
    1.1 研究背景及意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
    1.3 本文工作
第2章微博熱點(diǎn)話(huà)題檢測(cè)理論研究
    2.1 詞向量
    2.2 WORD2VEC工作原理
        2.2.1 連續(xù)詞袋模型
        2.2.2 Skip-gram模型
    2.3 文本表示模型
        2.3.1 向量空間模型
        2.3.2 潛在語(yǔ)義分析模型
        2.3.3 概率潛在語(yǔ)義分析模型
        2.3.4 潛在狄利克雷分布模型
    2.4 文本聚類(lèi)算法介紹
        2.4.1 基于劃分的聚類(lèi)算法
        2.4.2 基于層次的聚類(lèi)算法
        2.4.3 基于密度的聚類(lèi)算法
        2.4.4 基于網(wǎng)格的聚類(lèi)算法
        2.4.5 基于模型的聚類(lèi)算法
        2.4.6 基于模糊的聚類(lèi)算法
    2.5 本章小結(jié)
第3章微博熱點(diǎn)話(huà)題檢測(cè)系統(tǒng)的研究
    3.1 微博數(shù)據(jù)采集與預(yù)處理
        3.1.1 爬蟲(chóng)獲取微博短文本數(shù)據(jù)
        3.1.2 去除噪聲
        3.1.3 中文分詞
        3.1.4 去除停用詞
    3.2 基于WORD2VEC的LDA主題建模
    3.3 改進(jìn)的SINGLE-PASS聚類(lèi)算法
    3.4 凝聚式層次聚類(lèi)再次聚類(lèi)
    3.5 本章小結(jié)
第4章基于WORD2VEC的LDA主題建模
    4.1 傳統(tǒng)LDA主題建模
    4.2 基于WORD2VEC的LDA主題建模
        4.2.1 基于Word2vec的LDA主題模型算法原理
        4.2.2 基于Word2vec的LDA主題模型算法流程
        4.2.3 基于Word2vec的LDA主題模型參數(shù)的選取
    4.3 本章小結(jié)
第5章基于LDA主題建模的微博熱點(diǎn)話(huà)題檢測(cè)
    5.1 相似度計(jì)算
    5.2 SINGLE-PASS增量聚類(lèi)算法
    5.3 話(huà)題初步檢測(cè)
    5.4 熱點(diǎn)話(huà)題合并
    5.5 微博熱點(diǎn)話(huà)題檢測(cè)
    5.6 本章小結(jié)
第6章實(shí)驗(yàn)結(jié)果分析
    6.1 微博數(shù)據(jù)采集
    6.2 中文分詞
    6.3 去除停用詞
    6.4 基于WORD2VEC的LDA主題建模
    6.5 話(huà)題檢測(cè)實(shí)驗(yàn)結(jié)果與分析
    6.6 本章小結(jié)
第7章總結(jié)與展望
    7.1 總結(jié)
    7.2 展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及科研成果

本文編號(hào)：3873856

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3873856.html

上一篇：傾斜文檔校正方法的研究與實(shí)現(xiàn)
下一篇：基于深度網(wǎng)絡(luò)的暗光圖像增強(qiáng)方法研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Word2vec的微博熱點(diǎn)話(huà)題檢測(cè)技術(shù)研究