天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Word2vec的微博熱點(diǎn)話(huà)題檢測(cè)技術(shù)研究

發(fā)布時(shí)間:2023-12-13 19:50
  隨著Web2.0的高速發(fā)展及移動(dòng)設(shè)備的大量普及,微博客(Microblog,簡(jiǎn)稱(chēng)微博)逐漸成為人們相互交流,獲取世界各地奇聞異事的重要途徑。越來(lái)越多的網(wǎng)民通過(guò)微博將情感和對(duì)某事件的看法表達(dá)出來(lái),這樣就形成了不同于傳統(tǒng)新聞媒體的網(wǎng)絡(luò)輿情。從微博文本中挖掘有效信息、提取熱點(diǎn)對(duì)及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)輿情有深刻意義。因?yàn)槲⒉┪谋揪哂凶謹(jǐn)?shù)少、上下文聯(lián)系不緊密的特點(diǎn),在文本建模過(guò)程中會(huì)面臨嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題,從而影響話(huà)題檢測(cè)準(zhǔn)確度,所以對(duì)微博短文本的熱點(diǎn)話(huà)題檢測(cè)技術(shù)的研究非常有必要。本文圍繞微博短文本的建模以及話(huà)題檢測(cè)做了相關(guān)研究,主要工作如下。(1)獲取微博短文本以及預(yù)處理。為獲取更具話(huà)題性的微博,首先提出利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù),爬取具有影響力的大V賬號(hào)微博來(lái)獲取數(shù)據(jù),與通過(guò)官方平臺(tái)提供的接口獲取數(shù)據(jù)相比,網(wǎng)絡(luò)爬蟲(chóng)更簡(jiǎn)便且能獲取更多的數(shù)據(jù);隨后篩除內(nèi)容少的微博文本以減少冗余;最后利用結(jié)巴分詞對(duì)微博短文本分詞,并進(jìn)—步去除其中的停用詞。(2)改進(jìn)主題建模方法。針對(duì)微博短文本建立文本模型時(shí)面臨的數(shù)據(jù)稀疏問(wèn)題以及擴(kuò)充外部語(yǔ)料難的問(wèn)題,提出了將特征詞輸入Word2vec的Skip-gram模型以訓(xùn)練詞向量,得到與特征詞...

【文章頁(yè)數(shù)】:68 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 研究背景及意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
    1.3 本文工作
第2章 微博熱點(diǎn)話(huà)題檢測(cè)理論研究
    2.1 詞向量
    2.2 WORD2VEC工作原理
        2.2.1 連續(xù)詞袋模型
        2.2.2 Skip-gram模型
    2.3 文本表示模型
        2.3.1 向量空間模型
        2.3.2 潛在語(yǔ)義分析模型
        2.3.3 概率潛在語(yǔ)義分析模型
        2.3.4 潛在狄利克雷分布模型
    2.4 文本聚類(lèi)算法介紹
        2.4.1 基于劃分的聚類(lèi)算法
        2.4.2 基于層次的聚類(lèi)算法
        2.4.3 基于密度的聚類(lèi)算法
        2.4.4 基于網(wǎng)格的聚類(lèi)算法
        2.4.5 基于模型的聚類(lèi)算法
        2.4.6 基于模糊的聚類(lèi)算法
    2.5 本章小結(jié)
第3章 微博熱點(diǎn)話(huà)題檢測(cè)系統(tǒng)的研究
    3.1 微博數(shù)據(jù)采集與預(yù)處理
        3.1.1 爬蟲(chóng)獲取微博短文本數(shù)據(jù)
        3.1.2 去除噪聲
        3.1.3 中文分詞
        3.1.4 去除停用詞
    3.2 基于WORD2VEC的LDA主題建模
    3.3 改進(jìn)的SINGLE-PASS聚類(lèi)算法
    3.4 凝聚式層次聚類(lèi)再次聚類(lèi)
    3.5 本章小結(jié)
第4章 基于WORD2VEC的LDA主題建模
    4.1 傳統(tǒng)LDA主題建模
    4.2 基于WORD2VEC的LDA主題建模
        4.2.1 基于Word2vec的LDA主題模型算法原理
        4.2.2 基于Word2vec的LDA主題模型算法流程
        4.2.3 基于Word2vec的LDA主題模型參數(shù)的選取
    4.3 本章小結(jié)
第5章 基于LDA主題建模的微博熱點(diǎn)話(huà)題檢測(cè)
    5.1 相似度計(jì)算
    5.2 SINGLE-PASS增量聚類(lèi)算法
    5.3 話(huà)題初步檢測(cè)
    5.4 熱點(diǎn)話(huà)題合并
    5.5 微博熱點(diǎn)話(huà)題檢測(cè)
    5.6 本章小結(jié)
第6章 實(shí)驗(yàn)結(jié)果分析
    6.1 微博數(shù)據(jù)采集
    6.2 中文分詞
    6.3 去除停用詞
    6.4 基于WORD2VEC的LDA主題建模
    6.5 話(huà)題檢測(cè)實(shí)驗(yàn)結(jié)果與分析
    6.6 本章小結(jié)
第7章 總結(jié)與展望
    7.1 總結(jié)
    7.2 展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及科研成果



本文編號(hào):3873856

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3873856.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)02d98***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
99久久婷婷国产亚洲综合精品| 精品国产亚洲免费91| 亚洲欧美一二区日韩高清在线| 国产超碰在线观看免费| 国产传媒高清视频在线| 日本在线 一区 二区| 成人精品一区二区三区在线| 国产成人精品国产亚洲欧洲| 日本不卡在线视频你懂的| 在线免费观看黄色美女| 欧美熟妇一区二区在线| 国产午夜免费在线视频| 91欧美日韩国产在线观看| 日韩欧美三级中文字幕| 麻豆视频传媒入口在线看| 少妇毛片一区二区三区| 国产精品色热综合在线| 在线欧美精品二区三区| 国产精品免费福利在线| 亚洲视频在线观看免费中文字幕 | 人妻精品一区二区三区视频免精| 自拍偷拍福利视频在线观看| 99久久精品国产日本| 有坂深雪中文字幕亚洲中文| 国产精品一区欧美二区| 日韩不卡一区二区在线| 欧洲精品一区二区三区四区| 九九热精彩视频在线播放| 成年午夜在线免费视频| 黄色av尤物白丝在线播放网址| 欧美视频在线观看一区| 午夜精品在线视频一区| 久热青青草视频在线观看| 国产成人在线一区二区三区| 97人妻精品一区二区三区免| 91精品国产av一区二区| 妻子的新妈妈中文字幕| 日韩欧美精品一区二区三区| 视频在线免费观看你懂的| 偷拍洗澡一区二区三区| 国产精品亚洲综合色区韩国|