基于神經(jīng)語(yǔ)義主題的微博主題識(shí)別的研究
發(fā)布時(shí)間:2021-08-11 12:40
近些年來(lái),互聯(lián)網(wǎng)相關(guān)技術(shù)得到高速的發(fā)展,特別是微博、Twitter等社交媒體網(wǎng)絡(luò)平臺(tái)的出現(xiàn),使得社交媒體成為媒體和大眾分享新聞事件和生活情感的重要媒介。新浪微博得益于應(yīng)用平臺(tái)廣泛、操作邏輯簡(jiǎn)單和信息傳播速度極快等特點(diǎn),迅速成為中國(guó)規(guī)模和影響力巨大的社交媒體網(wǎng)絡(luò)新平臺(tái)。新浪微博的日發(fā)文量高達(dá)數(shù)千萬(wàn),其中包含的文本信息規(guī)模巨大。應(yīng)對(duì)龐大的微博文本數(shù)據(jù),如何進(jìn)行合理高效的信息整合并從中提取出熱點(diǎn)主題是文本主題挖掘的核心問(wèn)題。本文在神經(jīng)主題模型(Neural Topic Model,NTM)的基礎(chǔ)上,針對(duì)傳統(tǒng)的文本主題模型對(duì)微博短文本的主題特征表達(dá)不夠充分、微博主題挖掘不夠準(zhǔn)確以及挖掘的微博主題缺乏語(yǔ)義信息等問(wèn)題,充分考慮微博文本的特點(diǎn),提出了基于神經(jīng)主題語(yǔ)義強(qiáng)化的微博主題模型(Microblog topic model based on neural semantics enhancement,MNTS)。首先將提取出來(lái)的微博文本語(yǔ)料劃分成微博概要和微博博文兩個(gè)部分,利用兩個(gè)部分各自的特點(diǎn)給予不同的處理,其中微博概要是由含有大量的微博主題信息的短文本構(gòu)成,利用微博的語(yǔ)義詞向量構(gòu)造單通道的文本...
【文章來(lái)源】:長(zhǎng)春工業(yè)大學(xué)吉林省
【文章頁(yè)數(shù)】:53 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
LDA的圖模型表示其中表示第篇文檔中所擁有的詞項(xiàng)數(shù)目,表示文檔個(gè)數(shù),表示主題個(gè)數(shù)
第2章微博主題挖掘相關(guān)理論10其中:∑(|)(|)=(|,)(2-5)將(2-5)式代入(2-4)式中,最終文檔的似然概率為:(|0,0,)=∫(|0,02)∏(|,)(|0,0,)=∫(|0,02)(|,)(2-6)其中={1,2…,}是將主題向量映射到詞項(xiàng)分布的轉(zhuǎn)換矩陣,是設(shè)定的主題個(gè)數(shù),是對(duì)應(yīng)詞項(xiàng)的主題分布,中的所有元素都是非負(fù)的并且相加之和為1。具體神經(jīng)主題模型如圖2.2所示。圖2.2神經(jīng)主題模型2.4微博主題挖掘整體流程本文主要根據(jù)微博文本中不同部分的特點(diǎn)進(jìn)行不同的處理;谏窠(jīng)主題語(yǔ)義強(qiáng)化的MNTS主題模型的構(gòu)建,為了進(jìn)一步增強(qiáng)MNTS主題模型挖掘微博主題的能力,引入了微博文本中大粒度類別標(biāo)簽作為MNTS主題模型的條件,充分利用額外的信息挖掘更精確更具語(yǔ)義的主題。在測(cè)試階段為了能夠獲取更能夠表達(dá)測(cè)試微博文本主題的詞項(xiàng),使用測(cè)試微博文本中的評(píng)論文本對(duì)主題下的詞項(xiàng)進(jìn)行篩眩整個(gè)實(shí)施流程圖如圖2.3所示。
給定隱藏變量的分布(),如果可以通過(guò)訓(xùn)練樣本學(xué)習(xí)到條件概率分布(|),之后就可以通過(guò)采樣公式(,)=()(|)來(lái)生成不同的樣本[48]。變分自編碼本質(zhì)上還是屬于自編碼器模型的一種,它們都具體分成編碼器和解碼器兩個(gè)部分,解碼器接受輸入,輸出為隱變量,而解碼器負(fù)責(zé)把相應(yīng)的隱含變量解碼成重建的。不同的是,變分自編碼網(wǎng)絡(luò)對(duì)其中的隱含變量的分布()有了顯式的約束,讓隱含變量不斷的接近預(yù)設(shè)的先驗(yàn)分布(),所以在構(gòu)造模型損失函數(shù)的時(shí)候,除了在原有重構(gòu)損失的基礎(chǔ)上還需要添加對(duì)隱變量的約束。變分自編碼網(wǎng)絡(luò)的模型架構(gòu)如圖3.1所示。圖3.1變分自編碼網(wǎng)絡(luò)結(jié)構(gòu)其中Encoder為(|),而Decoder為(|)。假設(shè)當(dāng)前的所有微博文本數(shù)據(jù)集都是來(lái)自于分布(|),其中是隱含變量,此時(shí)代表了微博文本的主題特征,這些微博文本的主題特征符合某個(gè)先驗(yàn)分布()。一般情況下將先驗(yàn)分布()設(shè)置為正態(tài)分布等一些已知且常規(guī)的分布,假設(shè)此時(shí)將先驗(yàn)分布()設(shè)置為已知的正態(tài)分布,我們的目的是能夠?qū)W習(xí)到Decoder生成模型中的(|),這里可以采用一些估計(jì)方法,比如最大似然函數(shù)。對(duì)于生成模型,肯定是希
【參考文獻(xiàn)】:
期刊論文
[1]面向微博熱點(diǎn)話題發(fā)現(xiàn)的改進(jìn)BBTM模型研究[J]. 黃暢,郭文忠,郭昆. 計(jì)算機(jī)科學(xué)與探索. 2019(07)
[2]采用可變時(shí)間窗口的TIF-LDA微博主題模型[J]. 馮勇,屈渤浩,徐紅艷,王嶸冰. 小型微型計(jì)算機(jī)系統(tǒng). 2018(09)
[3]基于雙向LSTM語(yǔ)義強(qiáng)化的主題建模[J]. 彭敏,楊紹雄,朱佳暉. 中文信息學(xué)報(bào). 2018(04)
[4]基于詞嵌入與概率主題模型的社會(huì)媒體話題識(shí)別[J]. 余沖,李晶,孫旭東,傅向華. 計(jì)算機(jī)工程. 2017(12)
[5]面向自然語(yǔ)言處理的深度學(xué)習(xí)研究[J]. 奚雪峰,周?chē)?guó)棟. 自動(dòng)化學(xué)報(bào). 2016(10)
[6]基于MB-HDP模型的微博主題挖掘[J]. 劉少鵬,印鑒,歐陽(yáng)佳,黃云,楊曉穎. 計(jì)算機(jī)學(xué)報(bào). 2015(07)
[7]微博視角下的言論自由及其法律規(guī)制[J]. 魏文圣. 赤峰學(xué)院學(xué)報(bào)(漢文哲學(xué)社會(huì)科學(xué)版). 2014(07)
[8]微博對(duì)公民意識(shí)形成的影響探析[J]. 陳蘭. 學(xué)理論. 2012(22)
[9]一種中文微博新聞話題檢測(cè)的方法[J]. 鄭斐然,苗奪謙,張志飛,高燦. 計(jì)算機(jī)科學(xué). 2012(01)
[10]基于MB-LDA模型的微博主題挖掘[J]. 張晨逸,孫建伶,丁軼群. 計(jì)算機(jī)研究與發(fā)展. 2011(10)
碩士論文
[1]基于文本挖掘技術(shù)的微信公眾號(hào)關(guān)系網(wǎng)絡(luò)研究[D]. 潘偉.東南大學(xué) 2018
[2]基于深度學(xué)習(xí)的文本主題分類研究[D]. 周盈盈.上海交通大學(xué) 2017
[3]基于數(shù)據(jù)挖掘技術(shù)的微博好友推薦機(jī)制的研究與實(shí)現(xiàn)[D]. 張樂(lè).東北大學(xué) 2014
[4]微博網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)研究[D]. 曾王輝.云南大學(xué) 2012
[5]基于k-平均算法的文本聚類系統(tǒng)研究與實(shí)現(xiàn)[D]. 鄭韞旸.武漢理工大學(xué) 2008
本文編號(hào):3336176
【文章來(lái)源】:長(zhǎng)春工業(yè)大學(xué)吉林省
【文章頁(yè)數(shù)】:53 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
LDA的圖模型表示其中表示第篇文檔中所擁有的詞項(xiàng)數(shù)目,表示文檔個(gè)數(shù),表示主題個(gè)數(shù)
第2章微博主題挖掘相關(guān)理論10其中:∑(|)(|)=(|,)(2-5)將(2-5)式代入(2-4)式中,最終文檔的似然概率為:(|0,0,)=∫(|0,02)∏(|,)(|0,0,)=∫(|0,02)(|,)(2-6)其中={1,2…,}是將主題向量映射到詞項(xiàng)分布的轉(zhuǎn)換矩陣,是設(shè)定的主題個(gè)數(shù),是對(duì)應(yīng)詞項(xiàng)的主題分布,中的所有元素都是非負(fù)的并且相加之和為1。具體神經(jīng)主題模型如圖2.2所示。圖2.2神經(jīng)主題模型2.4微博主題挖掘整體流程本文主要根據(jù)微博文本中不同部分的特點(diǎn)進(jìn)行不同的處理;谏窠(jīng)主題語(yǔ)義強(qiáng)化的MNTS主題模型的構(gòu)建,為了進(jìn)一步增強(qiáng)MNTS主題模型挖掘微博主題的能力,引入了微博文本中大粒度類別標(biāo)簽作為MNTS主題模型的條件,充分利用額外的信息挖掘更精確更具語(yǔ)義的主題。在測(cè)試階段為了能夠獲取更能夠表達(dá)測(cè)試微博文本主題的詞項(xiàng),使用測(cè)試微博文本中的評(píng)論文本對(duì)主題下的詞項(xiàng)進(jìn)行篩眩整個(gè)實(shí)施流程圖如圖2.3所示。
給定隱藏變量的分布(),如果可以通過(guò)訓(xùn)練樣本學(xué)習(xí)到條件概率分布(|),之后就可以通過(guò)采樣公式(,)=()(|)來(lái)生成不同的樣本[48]。變分自編碼本質(zhì)上還是屬于自編碼器模型的一種,它們都具體分成編碼器和解碼器兩個(gè)部分,解碼器接受輸入,輸出為隱變量,而解碼器負(fù)責(zé)把相應(yīng)的隱含變量解碼成重建的。不同的是,變分自編碼網(wǎng)絡(luò)對(duì)其中的隱含變量的分布()有了顯式的約束,讓隱含變量不斷的接近預(yù)設(shè)的先驗(yàn)分布(),所以在構(gòu)造模型損失函數(shù)的時(shí)候,除了在原有重構(gòu)損失的基礎(chǔ)上還需要添加對(duì)隱變量的約束。變分自編碼網(wǎng)絡(luò)的模型架構(gòu)如圖3.1所示。圖3.1變分自編碼網(wǎng)絡(luò)結(jié)構(gòu)其中Encoder為(|),而Decoder為(|)。假設(shè)當(dāng)前的所有微博文本數(shù)據(jù)集都是來(lái)自于分布(|),其中是隱含變量,此時(shí)代表了微博文本的主題特征,這些微博文本的主題特征符合某個(gè)先驗(yàn)分布()。一般情況下將先驗(yàn)分布()設(shè)置為正態(tài)分布等一些已知且常規(guī)的分布,假設(shè)此時(shí)將先驗(yàn)分布()設(shè)置為已知的正態(tài)分布,我們的目的是能夠?qū)W習(xí)到Decoder生成模型中的(|),這里可以采用一些估計(jì)方法,比如最大似然函數(shù)。對(duì)于生成模型,肯定是希
【參考文獻(xiàn)】:
期刊論文
[1]面向微博熱點(diǎn)話題發(fā)現(xiàn)的改進(jìn)BBTM模型研究[J]. 黃暢,郭文忠,郭昆. 計(jì)算機(jī)科學(xué)與探索. 2019(07)
[2]采用可變時(shí)間窗口的TIF-LDA微博主題模型[J]. 馮勇,屈渤浩,徐紅艷,王嶸冰. 小型微型計(jì)算機(jī)系統(tǒng). 2018(09)
[3]基于雙向LSTM語(yǔ)義強(qiáng)化的主題建模[J]. 彭敏,楊紹雄,朱佳暉. 中文信息學(xué)報(bào). 2018(04)
[4]基于詞嵌入與概率主題模型的社會(huì)媒體話題識(shí)別[J]. 余沖,李晶,孫旭東,傅向華. 計(jì)算機(jī)工程. 2017(12)
[5]面向自然語(yǔ)言處理的深度學(xué)習(xí)研究[J]. 奚雪峰,周?chē)?guó)棟. 自動(dòng)化學(xué)報(bào). 2016(10)
[6]基于MB-HDP模型的微博主題挖掘[J]. 劉少鵬,印鑒,歐陽(yáng)佳,黃云,楊曉穎. 計(jì)算機(jī)學(xué)報(bào). 2015(07)
[7]微博視角下的言論自由及其法律規(guī)制[J]. 魏文圣. 赤峰學(xué)院學(xué)報(bào)(漢文哲學(xué)社會(huì)科學(xué)版). 2014(07)
[8]微博對(duì)公民意識(shí)形成的影響探析[J]. 陳蘭. 學(xué)理論. 2012(22)
[9]一種中文微博新聞話題檢測(cè)的方法[J]. 鄭斐然,苗奪謙,張志飛,高燦. 計(jì)算機(jī)科學(xué). 2012(01)
[10]基于MB-LDA模型的微博主題挖掘[J]. 張晨逸,孫建伶,丁軼群. 計(jì)算機(jī)研究與發(fā)展. 2011(10)
碩士論文
[1]基于文本挖掘技術(shù)的微信公眾號(hào)關(guān)系網(wǎng)絡(luò)研究[D]. 潘偉.東南大學(xué) 2018
[2]基于深度學(xué)習(xí)的文本主題分類研究[D]. 周盈盈.上海交通大學(xué) 2017
[3]基于數(shù)據(jù)挖掘技術(shù)的微博好友推薦機(jī)制的研究與實(shí)現(xiàn)[D]. 張樂(lè).東北大學(xué) 2014
[4]微博網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)研究[D]. 曾王輝.云南大學(xué) 2012
[5]基于k-平均算法的文本聚類系統(tǒng)研究與實(shí)現(xiàn)[D]. 鄭韞旸.武漢理工大學(xué) 2008
本文編號(hào):3336176
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3336176.html
最近更新
教材專著