天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

基于神經(jīng)語義主題的微博主題識別的研究

發(fā)布時間:2021-08-11 12:40
  近些年來,互聯(lián)網(wǎng)相關(guān)技術(shù)得到高速的發(fā)展,特別是微博、Twitter等社交媒體網(wǎng)絡(luò)平臺的出現(xiàn),使得社交媒體成為媒體和大眾分享新聞事件和生活情感的重要媒介。新浪微博得益于應(yīng)用平臺廣泛、操作邏輯簡單和信息傳播速度極快等特點,迅速成為中國規(guī)模和影響力巨大的社交媒體網(wǎng)絡(luò)新平臺。新浪微博的日發(fā)文量高達數(shù)千萬,其中包含的文本信息規(guī)模巨大。應(yīng)對龐大的微博文本數(shù)據(jù),如何進行合理高效的信息整合并從中提取出熱點主題是文本主題挖掘的核心問題。本文在神經(jīng)主題模型(Neural Topic Model,NTM)的基礎(chǔ)上,針對傳統(tǒng)的文本主題模型對微博短文本的主題特征表達不夠充分、微博主題挖掘不夠準確以及挖掘的微博主題缺乏語義信息等問題,充分考慮微博文本的特點,提出了基于神經(jīng)主題語義強化的微博主題模型(Microblog topic model based on neural semantics enhancement,MNTS)。首先將提取出來的微博文本語料劃分成微博概要和微博博文兩個部分,利用兩個部分各自的特點給予不同的處理,其中微博概要是由含有大量的微博主題信息的短文本構(gòu)成,利用微博的語義詞向量構(gòu)造單通道的文本... 

【文章來源】:長春工業(yè)大學(xué)吉林省

【文章頁數(shù)】:53 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于神經(jīng)語義主題的微博主題識別的研究


LDA的圖模型表示其中表示第篇文檔中所擁有的詞項數(shù)目,表示文檔個數(shù),表示主題個數(shù)

模型圖,主題,神經(jīng),模型


第2章微博主題挖掘相關(guān)理論10其中:∑(|)(|)=(|,)(2-5)將(2-5)式代入(2-4)式中,最終文檔的似然概率為:(|0,0,)=∫(|0,02)∏(|,)(|0,0,)=∫(|0,02)(|,)(2-6)其中={1,2…,}是將主題向量映射到詞項分布的轉(zhuǎn)換矩陣,是設(shè)定的主題個數(shù),是對應(yīng)詞項的主題分布,中的所有元素都是非負的并且相加之和為1。具體神經(jīng)主題模型如圖2.2所示。圖2.2神經(jīng)主題模型2.4微博主題挖掘整體流程本文主要根據(jù)微博文本中不同部分的特點進行不同的處理;谏窠(jīng)主題語義強化的MNTS主題模型的構(gòu)建,為了進一步增強MNTS主題模型挖掘微博主題的能力,引入了微博文本中大粒度類別標(biāo)簽作為MNTS主題模型的條件,充分利用額外的信息挖掘更精確更具語義的主題。在測試階段為了能夠獲取更能夠表達測試微博文本主題的詞項,使用測試微博文本中的評論文本對主題下的詞項進行篩眩整個實施流程圖如圖2.3所示。

網(wǎng)絡(luò)結(jié)構(gòu)圖,變分,網(wǎng)絡(luò)結(jié)構(gòu),先驗分布


給定隱藏變量的分布(),如果可以通過訓(xùn)練樣本學(xué)習(xí)到條件概率分布(|),之后就可以通過采樣公式(,)=()(|)來生成不同的樣本[48]。變分自編碼本質(zhì)上還是屬于自編碼器模型的一種,它們都具體分成編碼器和解碼器兩個部分,解碼器接受輸入,輸出為隱變量,而解碼器負責(zé)把相應(yīng)的隱含變量解碼成重建的。不同的是,變分自編碼網(wǎng)絡(luò)對其中的隱含變量的分布()有了顯式的約束,讓隱含變量不斷的接近預(yù)設(shè)的先驗分布(),所以在構(gòu)造模型損失函數(shù)的時候,除了在原有重構(gòu)損失的基礎(chǔ)上還需要添加對隱變量的約束。變分自編碼網(wǎng)絡(luò)的模型架構(gòu)如圖3.1所示。圖3.1變分自編碼網(wǎng)絡(luò)結(jié)構(gòu)其中Encoder為(|),而Decoder為(|)。假設(shè)當(dāng)前的所有微博文本數(shù)據(jù)集都是來自于分布(|),其中是隱含變量,此時代表了微博文本的主題特征,這些微博文本的主題特征符合某個先驗分布()。一般情況下將先驗分布()設(shè)置為正態(tài)分布等一些已知且常規(guī)的分布,假設(shè)此時將先驗分布()設(shè)置為已知的正態(tài)分布,我們的目的是能夠?qū)W習(xí)到Decoder生成模型中的(|),這里可以采用一些估計方法,比如最大似然函數(shù)。對于生成模型,肯定是希

【參考文獻】:
期刊論文
[1]面向微博熱點話題發(fā)現(xiàn)的改進BBTM模型研究[J]. 黃暢,郭文忠,郭昆.  計算機科學(xué)與探索. 2019(07)
[2]采用可變時間窗口的TIF-LDA微博主題模型[J]. 馮勇,屈渤浩,徐紅艷,王嶸冰.  小型微型計算機系統(tǒng). 2018(09)
[3]基于雙向LSTM語義強化的主題建模[J]. 彭敏,楊紹雄,朱佳暉.  中文信息學(xué)報. 2018(04)
[4]基于詞嵌入與概率主題模型的社會媒體話題識別[J]. 余沖,李晶,孫旭東,傅向華.  計算機工程. 2017(12)
[5]面向自然語言處理的深度學(xué)習(xí)研究[J]. 奚雪峰,周國棟.  自動化學(xué)報. 2016(10)
[6]基于MB-HDP模型的微博主題挖掘[J]. 劉少鵬,印鑒,歐陽佳,黃云,楊曉穎.  計算機學(xué)報. 2015(07)
[7]微博視角下的言論自由及其法律規(guī)制[J]. 魏文圣.  赤峰學(xué)院學(xué)報(漢文哲學(xué)社會科學(xué)版). 2014(07)
[8]微博對公民意識形成的影響探析[J]. 陳蘭.  學(xué)理論. 2012(22)
[9]一種中文微博新聞話題檢測的方法[J]. 鄭斐然,苗奪謙,張志飛,高燦.  計算機科學(xué). 2012(01)
[10]基于MB-LDA模型的微博主題挖掘[J]. 張晨逸,孫建伶,丁軼群.  計算機研究與發(fā)展. 2011(10)

碩士論文
[1]基于文本挖掘技術(shù)的微信公眾號關(guān)系網(wǎng)絡(luò)研究[D]. 潘偉.東南大學(xué) 2018
[2]基于深度學(xué)習(xí)的文本主題分類研究[D]. 周盈盈.上海交通大學(xué) 2017
[3]基于數(shù)據(jù)挖掘技術(shù)的微博好友推薦機制的研究與實現(xiàn)[D]. 張樂.東北大學(xué) 2014
[4]微博網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)研究[D]. 曾王輝.云南大學(xué) 2012
[5]基于k-平均算法的文本聚類系統(tǒng)研究與實現(xiàn)[D]. 鄭韞旸.武漢理工大學(xué) 2008



本文編號:3336176

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3336176.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶95212***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com