基于深度學(xué)習(xí)的微博立場檢測方法
發(fā)布時間:2021-08-05 13:57
在最近二十年間,世界進(jìn)入互聯(lián)網(wǎng)時代,人們的線上社交活動與線下生活文化完全交織在一起,人們接受信息的方式也從被動轉(zhuǎn)換為主動,每個人都成為了信息的挖掘者與傳播者,各種社交媒體應(yīng)運而生。微博作為國內(nèi)主流網(wǎng)絡(luò)社交媒體聚積了數(shù)億用戶,在上面用戶可以對網(wǎng)絡(luò)上新發(fā)布的政策、工業(yè)產(chǎn)品、時事熱點等發(fā)表自己的觀點立場,如何在特定目標(biāo)話題下有效的對用戶立場進(jìn)行判斷成為網(wǎng)絡(luò)輿情分析的重要課題。微博文本具有網(wǎng)絡(luò)化、噪音多樣化、口語化、關(guān)系多樣化等特點,極大程度上降低了立場檢測的準(zhǔn)確率。如何結(jié)合中文語法特點有效地捕獲文本特征,是提升立場檢測任務(wù)準(zhǔn)確率的關(guān)鍵。在對微博文本進(jìn)行立場檢測時,往往根據(jù)部分有依賴關(guān)系的詞語組進(jìn)行判斷。基于卷積神經(jīng)網(wǎng)絡(luò)的模型通過單詞序列進(jìn)行卷積操作將多個單詞特征感知為連續(xù)文本進(jìn)行表示,但不能夠很好利用詞間的依賴關(guān)系指導(dǎo)立場分類。本文針對中文語言環(huán)境及微博文本語言特點,提出了一種基于深度學(xué)習(xí)的立場檢測方法,不僅結(jié)合了中文語言特點,還有效的捕獲了文本中不同距離詞語間的依賴特征。論文的主要工作如下:(1)本文將文本中詞語及其之間的依存關(guān)系視為圖結(jié)構(gòu)數(shù)據(jù),提出了一種微博文本圖結(jié)構(gòu)構(gòu)建方法。首先,基于...
【文章來源】:重慶理工大學(xué)重慶市
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
人腦機(jī)理流程圖
2相關(guān)工作7表2.1one-hot形式詞嵌入表單詞one-hot形式嵌入開心[1,0,0,0,0,0,0,0,0,0,……,0,0,0,0,0,0,0,0,0]愉悅[0,1,0,0,0,0,0,0,0,0,……,0,0,0,0,0,0,0,0,0]高興[0,0,1,0,0,0,0,0,0,0,……,0,0,0,0,0,0,0,0,0]詞向量分布式形式最早在1986年被Hinton[29],這種嵌入方式很好的解決了one-hot形式下的維數(shù)災(zāi)難,是一種結(jié)合詞語間的相似關(guān)系獲得單詞稠密向量表示的方法。具體的,分布式詞向量表示先自定義向量維度d,取值通常在200~400之間,然后對初始化的詞表矩陣(其取值格式為浮點小數(shù))VVKR進(jìn)行反向傳播訓(xùn)練,在特定的訓(xùn)練過程中每個單詞的權(quán)重表示得以更新。訓(xùn)練出來的單詞表均由浮點型小數(shù)表示,其蘊含了詞義信息。每個詞存在于詞表庫約束的向量空間中,單詞可當(dāng)做空間中的一個點,單詞之間語法、語義上的相似性就可表示為空間中兩點的余弦距離或歐式距離。2.2.1神經(jīng)概率語言模型詞向量分布式表示模型需要精心設(shè)計統(tǒng)籌方法,以解決數(shù)據(jù)稀疏等相關(guān)問題,Bengio等[30]在2003年提出用神經(jīng)網(wǎng)絡(luò)來構(gòu)建語言模型,神經(jīng)網(wǎng)絡(luò)通過分析得到一個出現(xiàn)詞的條件概率。通過構(gòu)建神經(jīng)網(wǎng)絡(luò)訓(xùn)練語言模型,能夠方便得到詞向量的分布式表示。詞的相似度可以通過詞向量的距離來衡量,對于語料庫中未見詞語序列的概率可以用相似詞進(jìn)行估計,這就避免了數(shù)據(jù)稀疏的問題。Bengio將用神經(jīng)網(wǎng)絡(luò)構(gòu)建N-Gram模型的任務(wù)轉(zhuǎn)換成給定前N-1個詞然后預(yù)測下一個詞的任務(wù),以無監(jiān)督學(xué)習(xí)的方式在沒有標(biāo)注的語料上構(gòu)建語言模型。其結(jié)構(gòu)如圖2.2所示:圖2.2神經(jīng)概率語言模型結(jié)構(gòu)
重慶理工大學(xué)碩士學(xué)位論文8它包括四個網(wǎng)絡(luò)層:輸入(Input)層、投影(Projection)層、隱藏(Hidden)層和輸出(Output)層。其中W,U為中間層權(quán)重矩陣。p,q為中間層偏置向量。具體的,對于語料庫C中任意詞匯w,取其前N-1個詞對應(yīng)的詞向量wContext)(作為神經(jīng)網(wǎng)絡(luò)的輸入,一個)),((wwContext為一個訓(xùn)練樣本。語言模型可以對隨意設(shè)定詞嵌入維度,避免了維度爆炸問題。投影層向量mX為輸入層N-1個詞按順序拼起來的長向量,其規(guī)模為(N-1)m。隱藏層實質(zhì)為一個全連接層,中我們對mX進(jìn)行計算,計算公式如式2.1所示:ZpWX)tanh(wwqUyZww(2.1)其中激活函數(shù)為雙曲正切函數(shù),W,U,p,q為模型的訓(xùn)練參數(shù)。計算得到的),,,(w21wwNwyyyy進(jìn)入輸出層通過Softmax,則wy的分量wiy表示為當(dāng)上下文為wContext)(時下個詞為語料庫C中第i個詞的概率。最終目標(biāo)函數(shù)wwContextp))((計算公式如式2.2所示:NiyycwiwcweewContextp1))(((2.2)神經(jīng)語言概率模型基于相似詞語概率及文本間條件概率進(jìn)行統(tǒng)計計算,解決數(shù)據(jù)稀疏的問題,并能有效的訓(xùn)練出分布式詞向量。2.2.2Word2VecMikolov[31]等結(jié)合神經(jīng)概率語言模型思想,在2013年提出了word2vec詞向量訓(xùn)練模型,相比較傳統(tǒng)NLP的高維度、特征稀疏等表示特點,Word2Vec訓(xùn)練出的詞向量是稠密低維度的。Word2vec利用詞的上下文信息調(diào)整權(quán)重,使詞向量自身表達(dá)的語義信息更加豐富。Google公司開源推出了此工具包,并被廣大研究者運用在情感分析、問答系統(tǒng)、文本翻譯等任務(wù)網(wǎng)絡(luò)中的輸入層。圖2.3CBOW與Skip-gram模型結(jié)構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]基于亮度與色度信息的深度學(xué)習(xí)圖像風(fēng)格遷移算法研究[J]. 楊慧炯,韓燕麗,郭蕓俊. 重慶理工大學(xué)學(xué)報(自然科學(xué)). 2019(07)
[2]基于深度學(xué)習(xí)的語音識別方法研究[J]. 邵娜,李曉坤,劉磊,陳虹旭,鄭永亮,楊磊. 智能計算機(jī)與應(yīng)用. 2019(02)
[3]基于兩階段注意力機(jī)制的立場檢測方法[J]. 岳天馳,張紹武,楊亮,林鴻飛,于凱. 廣西師范大學(xué)學(xué)報(自然科學(xué)版). 2019(01)
[4]基于詞向量技術(shù)與主題詞特征的微博立場檢測[J]. 鄭海洋,高俊波,邱杰,焦鳳. 計算機(jī)系統(tǒng)應(yīng)用. 2018(09)
[5]基于Dopout與ADAM優(yōu)化器的改進(jìn)CNN算法[J]. 楊觀賜,楊靜,李少波,胡建軍. 華中科技大學(xué)學(xué)報(自然科學(xué)版). 2018(07)
[6]關(guān)于微博評論研究的文獻(xiàn)綜述[J]. 張正梅,楊娜. 傳播力研究. 2018(07)
[7]自然語言處理中的深度學(xué)習(xí):方法及應(yīng)用[J]. 林奕歐,雷航,李曉瑜,吳佳. 電子科技大學(xué)學(xué)報. 2017(06)
[8]基于多文本特征融合的中文微博的立場檢測[J]. 奠雨潔,金琴,吳慧敏. 計算機(jī)工程與應(yīng)用. 2017(21)
[9]中文微博的立場判別研究[J]. 劉勘,田寧夢,王宏宇,林榮蓉,王德民. 知識管理論壇. 2017(03)
[10]深度學(xué)習(xí)在語音識別中的研究進(jìn)展綜述[J]. 侯一民,周慧瓊,王政一. 計算機(jī)應(yīng)用研究. 2017(08)
碩士論文
[1]基于深度學(xué)習(xí)的漫畫風(fēng)格遷移方法研究[D]. 武筱琪.西安理工大學(xué) 2019
本文編號:3323872
【文章來源】:重慶理工大學(xué)重慶市
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
人腦機(jī)理流程圖
2相關(guān)工作7表2.1one-hot形式詞嵌入表單詞one-hot形式嵌入開心[1,0,0,0,0,0,0,0,0,0,……,0,0,0,0,0,0,0,0,0]愉悅[0,1,0,0,0,0,0,0,0,0,……,0,0,0,0,0,0,0,0,0]高興[0,0,1,0,0,0,0,0,0,0,……,0,0,0,0,0,0,0,0,0]詞向量分布式形式最早在1986年被Hinton[29],這種嵌入方式很好的解決了one-hot形式下的維數(shù)災(zāi)難,是一種結(jié)合詞語間的相似關(guān)系獲得單詞稠密向量表示的方法。具體的,分布式詞向量表示先自定義向量維度d,取值通常在200~400之間,然后對初始化的詞表矩陣(其取值格式為浮點小數(shù))VVKR進(jìn)行反向傳播訓(xùn)練,在特定的訓(xùn)練過程中每個單詞的權(quán)重表示得以更新。訓(xùn)練出來的單詞表均由浮點型小數(shù)表示,其蘊含了詞義信息。每個詞存在于詞表庫約束的向量空間中,單詞可當(dāng)做空間中的一個點,單詞之間語法、語義上的相似性就可表示為空間中兩點的余弦距離或歐式距離。2.2.1神經(jīng)概率語言模型詞向量分布式表示模型需要精心設(shè)計統(tǒng)籌方法,以解決數(shù)據(jù)稀疏等相關(guān)問題,Bengio等[30]在2003年提出用神經(jīng)網(wǎng)絡(luò)來構(gòu)建語言模型,神經(jīng)網(wǎng)絡(luò)通過分析得到一個出現(xiàn)詞的條件概率。通過構(gòu)建神經(jīng)網(wǎng)絡(luò)訓(xùn)練語言模型,能夠方便得到詞向量的分布式表示。詞的相似度可以通過詞向量的距離來衡量,對于語料庫中未見詞語序列的概率可以用相似詞進(jìn)行估計,這就避免了數(shù)據(jù)稀疏的問題。Bengio將用神經(jīng)網(wǎng)絡(luò)構(gòu)建N-Gram模型的任務(wù)轉(zhuǎn)換成給定前N-1個詞然后預(yù)測下一個詞的任務(wù),以無監(jiān)督學(xué)習(xí)的方式在沒有標(biāo)注的語料上構(gòu)建語言模型。其結(jié)構(gòu)如圖2.2所示:圖2.2神經(jīng)概率語言模型結(jié)構(gòu)
重慶理工大學(xué)碩士學(xué)位論文8它包括四個網(wǎng)絡(luò)層:輸入(Input)層、投影(Projection)層、隱藏(Hidden)層和輸出(Output)層。其中W,U為中間層權(quán)重矩陣。p,q為中間層偏置向量。具體的,對于語料庫C中任意詞匯w,取其前N-1個詞對應(yīng)的詞向量wContext)(作為神經(jīng)網(wǎng)絡(luò)的輸入,一個)),((wwContext為一個訓(xùn)練樣本。語言模型可以對隨意設(shè)定詞嵌入維度,避免了維度爆炸問題。投影層向量mX為輸入層N-1個詞按順序拼起來的長向量,其規(guī)模為(N-1)m。隱藏層實質(zhì)為一個全連接層,中我們對mX進(jìn)行計算,計算公式如式2.1所示:ZpWX)tanh(wwqUyZww(2.1)其中激活函數(shù)為雙曲正切函數(shù),W,U,p,q為模型的訓(xùn)練參數(shù)。計算得到的),,,(w21wwNwyyyy進(jìn)入輸出層通過Softmax,則wy的分量wiy表示為當(dāng)上下文為wContext)(時下個詞為語料庫C中第i個詞的概率。最終目標(biāo)函數(shù)wwContextp))((計算公式如式2.2所示:NiyycwiwcweewContextp1))(((2.2)神經(jīng)語言概率模型基于相似詞語概率及文本間條件概率進(jìn)行統(tǒng)計計算,解決數(shù)據(jù)稀疏的問題,并能有效的訓(xùn)練出分布式詞向量。2.2.2Word2VecMikolov[31]等結(jié)合神經(jīng)概率語言模型思想,在2013年提出了word2vec詞向量訓(xùn)練模型,相比較傳統(tǒng)NLP的高維度、特征稀疏等表示特點,Word2Vec訓(xùn)練出的詞向量是稠密低維度的。Word2vec利用詞的上下文信息調(diào)整權(quán)重,使詞向量自身表達(dá)的語義信息更加豐富。Google公司開源推出了此工具包,并被廣大研究者運用在情感分析、問答系統(tǒng)、文本翻譯等任務(wù)網(wǎng)絡(luò)中的輸入層。圖2.3CBOW與Skip-gram模型結(jié)構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]基于亮度與色度信息的深度學(xué)習(xí)圖像風(fēng)格遷移算法研究[J]. 楊慧炯,韓燕麗,郭蕓俊. 重慶理工大學(xué)學(xué)報(自然科學(xué)). 2019(07)
[2]基于深度學(xué)習(xí)的語音識別方法研究[J]. 邵娜,李曉坤,劉磊,陳虹旭,鄭永亮,楊磊. 智能計算機(jī)與應(yīng)用. 2019(02)
[3]基于兩階段注意力機(jī)制的立場檢測方法[J]. 岳天馳,張紹武,楊亮,林鴻飛,于凱. 廣西師范大學(xué)學(xué)報(自然科學(xué)版). 2019(01)
[4]基于詞向量技術(shù)與主題詞特征的微博立場檢測[J]. 鄭海洋,高俊波,邱杰,焦鳳. 計算機(jī)系統(tǒng)應(yīng)用. 2018(09)
[5]基于Dopout與ADAM優(yōu)化器的改進(jìn)CNN算法[J]. 楊觀賜,楊靜,李少波,胡建軍. 華中科技大學(xué)學(xué)報(自然科學(xué)版). 2018(07)
[6]關(guān)于微博評論研究的文獻(xiàn)綜述[J]. 張正梅,楊娜. 傳播力研究. 2018(07)
[7]自然語言處理中的深度學(xué)習(xí):方法及應(yīng)用[J]. 林奕歐,雷航,李曉瑜,吳佳. 電子科技大學(xué)學(xué)報. 2017(06)
[8]基于多文本特征融合的中文微博的立場檢測[J]. 奠雨潔,金琴,吳慧敏. 計算機(jī)工程與應(yīng)用. 2017(21)
[9]中文微博的立場判別研究[J]. 劉勘,田寧夢,王宏宇,林榮蓉,王德民. 知識管理論壇. 2017(03)
[10]深度學(xué)習(xí)在語音識別中的研究進(jìn)展綜述[J]. 侯一民,周慧瓊,王政一. 計算機(jī)應(yīng)用研究. 2017(08)
碩士論文
[1]基于深度學(xué)習(xí)的漫畫風(fēng)格遷移方法研究[D]. 武筱琪.西安理工大學(xué) 2019
本文編號:3323872
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3323872.html
最近更新
教材專著