基于BERT的微博文本情感引導(dǎo)
發(fā)布時(shí)間:2021-03-23 16:39
隨著社交網(wǎng)絡(luò)的快速發(fā)展以及移動網(wǎng)絡(luò)設(shè)備的普及,互聯(lián)網(wǎng)用戶群體數(shù)量顯著遞增,社交媒體逐漸豐富多樣。人們習(xí)慣于在各種社交媒體上通過文字、圖像和視頻等交互數(shù)據(jù)表達(dá)自己的思想和觀點(diǎn)。在眾多社交媒體平臺中,新浪微博擁有覆蓋面廣的忠實(shí)用戶群體。通過對新浪微博社交網(wǎng)絡(luò)產(chǎn)生的海量短文本數(shù)據(jù)分析文本背后隱含的用戶情感和情緒,厘清孕育負(fù)向輿情的社交網(wǎng)絡(luò)局部環(huán)境,對我國思政、公共突發(fā)事件應(yīng)對、公眾情感情緒預(yù)判、輿情傳播預(yù)測和輿情處置等具有積極意義。本文的研究主題分為兩部分,短文本情感分析和基于文本的輿情引導(dǎo)方案。第一,本文以新浪微博歷史短文本數(shù)據(jù)為研究對象,探究其潛在的用戶情感,采用深度學(xué)習(xí)語言模型實(shí)現(xiàn)短文本情感分類任務(wù)。傳統(tǒng)的情感分析主要有:基于字典和基于簡單深度學(xué)習(xí)的方法。傳統(tǒng)方法存在著一些問題,例如,基于字典的情感分類方法依賴于所構(gòu)造詞典的質(zhì)量;簡單的深度學(xué)習(xí)模型計(jì)算精度達(dá)不到工程化需求,模型本身也存在著缺陷,無法很好地解決上下文信息的語義理解相關(guān)任務(wù)。本文采用深度學(xué)習(xí)語言模型研究情感分析任務(wù),提出了一類基于BERT(Bidirectional Encoder Representation from ...
【文章來源】:西華大學(xué)四川省
【文章頁數(shù)】:67 頁
【學(xué)位級別】:碩士
【部分圖文】:
反向傳播圖示
基于BERT的微博文本情感引導(dǎo)10圖2.2RNN結(jié)構(gòu)圖示Fig.2.2RNNstructurediagram圖2.2顯示了RNN擴(kuò)展成完整網(wǎng)絡(luò)后的結(jié)構(gòu)。這里表達(dá)的意思是整個(gè)序列的網(wǎng)絡(luò)結(jié)構(gòu)。圖為隱藏層的級別擴(kuò)展。t-1,t,t+1表示時(shí)間序列.X表示輸入的樣本.St=f(W*St1+U*Xt)表示樣本在時(shí)間t處的的記憶。W表示輸入的權(quán)重,U表示此刻輸入的樣本的權(quán)重,V表示輸出的樣本權(quán)重。在t=1時(shí)刻,一般初始化輸入S0=0,隨機(jī)初始化W,U,V,進(jìn)行下面的公式計(jì)算:h1101(2.1)11其中,f和g均為激活函數(shù),f可以是Tanh,Relu,Sigmoid等激活函數(shù),g通常是Softmax。時(shí)間向前推進(jìn),此時(shí)的狀態(tài)1作為時(shí)刻1的記憶狀態(tài)將參與下一個(gè)時(shí)刻的預(yù)測活動,也就是:1(2.2)以此類推,可以得到最終的輸出值為:(2.3)這里W,U,V在每個(gè)時(shí)刻都相等,也就是說,所有權(quán)值共享。隱藏狀態(tài)可以理解為:S=f(現(xiàn)有輸入+過去記憶疊加)。以上是RNN前向的傳播方法。接下來,我們引入RNN反向傳播的方法來更新權(quán)重參數(shù)。
西華大學(xué)碩士學(xué)位論文11每一次的輸出值Ot都會產(chǎn)生一個(gè)誤差值Et,總的誤差可以表示為Etet。損失函數(shù)通常采用交叉熵?fù)p失函數(shù)或者平方誤差損失函數(shù)。要注意,每一步的輸出依賴于當(dāng)前步和前一步的網(wǎng)絡(luò)狀態(tài),因此這種BP算法被稱為時(shí)間反向傳播(BackPropagationTroughTime,BPTT),即在輸出端通過反向誤差值梯度下降法進(jìn)行更新。所需參數(shù)的梯度如下:UV(2.4)W首先,我們求解W的更新方法,W的更新公式表現(xiàn)為每個(gè)時(shí)刻的偏導(dǎo)數(shù)之和。以時(shí)間步t=3為例。依據(jù)公式s3fUx3Ws,s3除了和W有關(guān),還和前一時(shí)刻s有關(guān),于是,我們有:30333333(2.5)類似的,可以獲得U的更新規(guī)則如下:303333333(2.6)最后,我們給出V的更新公式(V只與輸出o有關(guān))3333(2.7)雖然RNN對時(shí)間序列問題有很好的效果,但由于BP算法對時(shí)間序列的長期依賴性,存在著梯度消失或梯度爆炸等問題;诖说母倪M(jìn)模型LSTM是最成功的方法之一。Schmidhuber院士在1997年提出了LSTM模型。具體模型介紹如下:圖2.3LSTM模型結(jié)構(gòu)Fig.2.3LSTMmodelstructure
【參考文獻(xiàn)】:
期刊論文
[1]中國房地產(chǎn)網(wǎng)絡(luò)輿情分析[J]. 朱建平,謝邦昌,駱翔宇,范新妍,曾武雄,鄭陳璐. 數(shù)理統(tǒng)計(jì)與管理. 2016(04)
[2]基于領(lǐng)域情感詞典的中文微博情感分析[J]. 肖江,丁星,何榮杰. 電子設(shè)計(jì)工程. 2015(12)
碩士論文
[1]基于情感詞典與句型分類的中文微博情感分析研究[D]. 周杰.寧夏大學(xué) 2016
[2]基于情感詞典的中文微博情感傾向分析研究[D]. 陳曉東.華中科技大學(xué) 2012
本文編號:3096095
【文章來源】:西華大學(xué)四川省
【文章頁數(shù)】:67 頁
【學(xué)位級別】:碩士
【部分圖文】:
反向傳播圖示
基于BERT的微博文本情感引導(dǎo)10圖2.2RNN結(jié)構(gòu)圖示Fig.2.2RNNstructurediagram圖2.2顯示了RNN擴(kuò)展成完整網(wǎng)絡(luò)后的結(jié)構(gòu)。這里表達(dá)的意思是整個(gè)序列的網(wǎng)絡(luò)結(jié)構(gòu)。圖為隱藏層的級別擴(kuò)展。t-1,t,t+1表示時(shí)間序列.X表示輸入的樣本.St=f(W*St1+U*Xt)表示樣本在時(shí)間t處的的記憶。W表示輸入的權(quán)重,U表示此刻輸入的樣本的權(quán)重,V表示輸出的樣本權(quán)重。在t=1時(shí)刻,一般初始化輸入S0=0,隨機(jī)初始化W,U,V,進(jìn)行下面的公式計(jì)算:h1101(2.1)11其中,f和g均為激活函數(shù),f可以是Tanh,Relu,Sigmoid等激活函數(shù),g通常是Softmax。時(shí)間向前推進(jìn),此時(shí)的狀態(tài)1作為時(shí)刻1的記憶狀態(tài)將參與下一個(gè)時(shí)刻的預(yù)測活動,也就是:1(2.2)以此類推,可以得到最終的輸出值為:(2.3)這里W,U,V在每個(gè)時(shí)刻都相等,也就是說,所有權(quán)值共享。隱藏狀態(tài)可以理解為:S=f(現(xiàn)有輸入+過去記憶疊加)。以上是RNN前向的傳播方法。接下來,我們引入RNN反向傳播的方法來更新權(quán)重參數(shù)。
西華大學(xué)碩士學(xué)位論文11每一次的輸出值Ot都會產(chǎn)生一個(gè)誤差值Et,總的誤差可以表示為Etet。損失函數(shù)通常采用交叉熵?fù)p失函數(shù)或者平方誤差損失函數(shù)。要注意,每一步的輸出依賴于當(dāng)前步和前一步的網(wǎng)絡(luò)狀態(tài),因此這種BP算法被稱為時(shí)間反向傳播(BackPropagationTroughTime,BPTT),即在輸出端通過反向誤差值梯度下降法進(jìn)行更新。所需參數(shù)的梯度如下:UV(2.4)W首先,我們求解W的更新方法,W的更新公式表現(xiàn)為每個(gè)時(shí)刻的偏導(dǎo)數(shù)之和。以時(shí)間步t=3為例。依據(jù)公式s3fUx3Ws,s3除了和W有關(guān),還和前一時(shí)刻s有關(guān),于是,我們有:30333333(2.5)類似的,可以獲得U的更新規(guī)則如下:303333333(2.6)最后,我們給出V的更新公式(V只與輸出o有關(guān))3333(2.7)雖然RNN對時(shí)間序列問題有很好的效果,但由于BP算法對時(shí)間序列的長期依賴性,存在著梯度消失或梯度爆炸等問題;诖说母倪M(jìn)模型LSTM是最成功的方法之一。Schmidhuber院士在1997年提出了LSTM模型。具體模型介紹如下:圖2.3LSTM模型結(jié)構(gòu)Fig.2.3LSTMmodelstructure
【參考文獻(xiàn)】:
期刊論文
[1]中國房地產(chǎn)網(wǎng)絡(luò)輿情分析[J]. 朱建平,謝邦昌,駱翔宇,范新妍,曾武雄,鄭陳璐. 數(shù)理統(tǒng)計(jì)與管理. 2016(04)
[2]基于領(lǐng)域情感詞典的中文微博情感分析[J]. 肖江,丁星,何榮杰. 電子設(shè)計(jì)工程. 2015(12)
碩士論文
[1]基于情感詞典與句型分類的中文微博情感分析研究[D]. 周杰.寧夏大學(xué) 2016
[2]基于情感詞典的中文微博情感傾向分析研究[D]. 陳曉東.華中科技大學(xué) 2012
本文編號:3096095
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3096095.html
最近更新
教材專著