天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 圖書檔案論文 >

基于可擴展LDA模型的微博話題特征抽取研究

發(fā)布時間:2021-12-25 09:11
  【目的/意義】提出一種基于可擴展LDA模型的微博話題特征抽取方法!痉椒/過程】利用詞語權(quán)重調(diào)整方法篩選高貢獻度高頻詞語;基于bootstrap思想,迭代產(chǎn)生特征詞條候選集;引入信息熵值理論篩選話題詞條;并利用四維泛化分類實現(xiàn)對特征詞條的泛化和歸類。【結(jié)果/結(jié)論】本文以真實新浪微博數(shù)據(jù)為實驗對象,實驗結(jié)果表明基于擴展LDA模型的特征詞提取方法可彌補傳統(tǒng)LDA模型在話題可解釋性上的不足,有效地對微博文本進行話題特征抽取。 

【文章來源】:情報科學. 2017,35(04)北大核心CSSCI

【文章頁數(shù)】:6 頁

【部分圖文】:

基于可擴展LDA模型的微博話題特征抽取研究


微博話題特征詞條抽取方法結(jié)構(gòu)圖

分布圖,混雜度,分布圖


話題數(shù)的提升,Perplexity值不斷降低。因此本文選擇K=50對數(shù)據(jù)集進行話題建模。由于篇幅所限,圖3展示LDA話題建模后截取的6個話題內(nèi)容。Perplexity(W)=expìíüyt-∑mlnp(wm)∑mNm(4)圖2混雜度分布圖圖3話題建模部分結(jié)果圖從圖3中可以明顯看出LDA應用于中文微博文本的話題抽取效果良好,對應的關(guān)鍵詞準確性較高,且話題之間獨立性較強。根據(jù)對應關(guān)鍵詞可以看出Topic1和航空出行相關(guān),Topic2和旅行相關(guān),Topic3與蘋果產(chǎn)品相關(guān),Topic4與微博相關(guān),Topic5與互聯(lián)網(wǎng)營銷相關(guān),Topic6與汽車相關(guān),Topic7與電影相關(guān),Topic8與外交相關(guān),Topic9與健康相關(guān),Topic10與情感相關(guān)。但也可以從圖3明顯看出LDA只能夠通過“Topic”的方式對話題命名,不具備語義內(nèi)涵,因此還需要進一步處理。根據(jù)權(quán)值公式對話題所含關(guān)鍵詞進行權(quán)值調(diào)整排序,獲得對于各話題貢獻度最高的前5關(guān)鍵詞作為特征詞條的候選詞,彌補了LDA模型等同看待詞語,無區(qū)分度的不足,也簡化了特征詞條的生成過程。根據(jù)信息熵值獲得話題的語義內(nèi)涵表示—特征詞條。本文截取10個話題特征詞條結(jié)果,如表5。候選關(guān)鍵詞能夠從話題下20個關(guān)鍵詞中篩選出來對話題貢獻度更大的詞語,例如Topic1中的20個關(guān)鍵詞中包含了“版、機、臺、款、電腦、高、百度、推出、空間”等對于主題有混淆含義的詞語,通過權(quán)值的調(diào)整有效的篩選,有助于后期特征詞條的生成,“蘋果-手機-產(chǎn)品”與20個詞語的話題含義相比,更精簡更具備語義內(nèi)涵。但是每個主題對應一個特征詞條,隨數(shù)據(jù)量增大的主題數(shù)量較大時,無法從宏觀上了解微博話

基于可擴展LDA模型的微博話題特征抽取研究


話題建模部分結(jié)果圖

【參考文獻】:
期刊論文
[1]基于特定領(lǐng)域的中文微博熱點話題挖掘系統(tǒng)BTopicMiner[J]. 李勁,張華,吳浩雄,向軍.  計算機應用. 2012(08)
[2]基于MB-LDA模型的微博主題挖掘[J]. 張晨逸,孫建伶,丁軼群.  計算機研究與發(fā)展. 2011(10)
[3]命名實體的網(wǎng)絡話題K-means動態(tài)檢測方法[J]. 劉素芹,柴松.  智能系統(tǒng)學報. 2010(02)
[4]話題檢測與跟蹤的評測及研究綜述[J]. 洪宇,張宇,劉挺,李生.  中文信息學報. 2007(06)
[5]支持向量機(SVM)主動學習方法研究與應用[J]. 張健沛,徐華.  計算機應用. 2004(01)



本文編號:3552183

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/3552183.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶84796***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com