基于深度學(xué)習(xí)的微博評(píng)論情感傾向研究
發(fā)布時(shí)間:2021-06-07 01:16
在現(xiàn)代網(wǎng)絡(luò)時(shí)代中,微博成為現(xiàn)代網(wǎng)民表達(dá)意見(jiàn)和情感觀點(diǎn)的主要載體,在社交媒體中占據(jù)了很大比重。大部分微博評(píng)論表現(xiàn)了網(wǎng)民用戶(hù)針對(duì)某個(gè)事件、現(xiàn)象或者用戶(hù)與產(chǎn)品的情感狀態(tài)。而使用何種算法與處理方式可以更快、更準(zhǔn)確的分析這些微博文本信息,及時(shí)獲取針對(duì)某個(gè)話題或事件的微博評(píng)論情感傾向,獲得話題輿論傾向性也成為自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)。傳統(tǒng)的情感分析方法常常使用文本的統(tǒng)計(jì)特征或情感詞典構(gòu)建句子特征,這種方法存在無(wú)法獲取句子語(yǔ)義信息和分類(lèi)誤差率高的缺點(diǎn)。而現(xiàn)在網(wǎng)絡(luò)上的數(shù)據(jù)量不斷增大,統(tǒng)計(jì)特征的提取難度也不斷增加,同時(shí)情感詞典的判斷方式(僅通過(guò)情感詞計(jì)數(shù))相對(duì)簡(jiǎn)單且魯棒性低。而傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法使用文本的統(tǒng)計(jì)特征訓(xùn)練,并不能很好的學(xué)習(xí)到文本的語(yǔ)義信息。為了解決上述問(wèn)題,本文提出一種基于詞嵌入文本特征的深度學(xué)習(xí)改進(jìn)算法,進(jìn)行微博評(píng)論的情感分析工作。本文的創(chuàng)新點(diǎn)主要有:(1)使用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型在較大規(guī)模語(yǔ)料數(shù)據(jù)上進(jìn)行訓(xùn)練,以更方便的無(wú)監(jiān)督訓(xùn)練方式學(xué)習(xí)詞語(yǔ)的隱層語(yǔ)義特征,使用詞嵌入向量取代傳統(tǒng)文本特征的提取方法,然后使用該文本特征進(jìn)行深度模型的監(jiān)督訓(xùn)練;(2)為了在深度模型訓(xùn)練時(shí)可以獲得更多文本語(yǔ)義特...
【文章來(lái)源】:大連海事大學(xué)遼寧省 211工程院校
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.2?CBOW模型??Fig.?2.2?CBOW?model??
?大連海事大學(xué)碩士學(xué)位論文???的數(shù)據(jù)集B任務(wù)的時(shí)候,便可以先調(diào)用該模型關(guān)于A的參數(shù)集進(jìn)行模型初始化工作,??通過(guò)使用模型A己經(jīng)訓(xùn)練得到的模型參數(shù),然后將高層參數(shù)進(jìn)行隨機(jī)初始化,最后通過(guò)??數(shù)據(jù)集B進(jìn)行模式的再學(xué)習(xí)與模型參數(shù)的調(diào)整,也就是模型的微.調(diào)模式網(wǎng)??(Fine-Tuning)。??OpenAI提出的GPT[35^用多層單向的TranSformer[32堪本模型結(jié)構(gòu)(如圖2.4所示);??而ELMo則是使用兩個(gè)獨(dú)立的單向雙層的LSTM作為基本模型結(jié)構(gòu)(如圖2.6所示):??BERT的基本結(jié)構(gòu)則是使用多層多個(gè)雙向Transformer作為基本的處理單元(如圖2.5所??示),與GPT相比BERT兼顧了正序與倒序上下文信息做訓(xùn)練,而相比較同樣使用正??反序上下文的ELMo,使用Transformer?yàn)榛A(chǔ)單元結(jié)構(gòu)的BERT比使用LSTM為基礎(chǔ)??單元的ELMo在訓(xùn)練時(shí)效率較高,速度相對(duì)更快。??在各類(lèi)預(yù)訓(xùn)練語(yǔ)言模型中,達(dá)到目前較高水平的模型是Google提出的BERT[37]??(Bidirectional?Encoder?Representations?from?Transformers)模型,本文將詳細(xì)介紹該模型??的原理。??OpenAI?GPT?BERT??[V]?rvi?…[\?j?[V]?rvi?…丨上?i??(Trm?)(?Trm?)…?(Trm?)?(?Trm?)(?Trm?)?...?f?Trm?)??(Trm?Trm?)…?(Trm?)?(?Trm?Trm?)?...?f?Trm?J??1?l?e2?…?en?E2?...?en??圖2.4?GPT模型結(jié)構(gòu)?圖2.5?
?E〖sep】|??+?+?+?+?+?+??+???+?+?+??Segment?_?F—?p?]?'? ̄Z ̄ ̄?^?p?]?F?F?[?p??Embeddings?丨?1?* ̄A?!?CA?丨匚A?CA?""B?丨?CB?丨匚b?丨仁b??+?+?+?HH?+?+?+?+?HK?+?+??Position?ppppppppp?p?p??Embeddings?^0?^2?丨匚3?* ̄4?c5?c6?丨匚7?c8?c9?C10??圖2.7多嵌入融合??Fig.?2.7?Embeddings?concatenate??最后將各個(gè)獲得的嵌入向量(字符嵌入、語(yǔ)義嵌入、位置嵌入)進(jìn)行拼接輸出獲得??最終的語(yǔ)言模型。Google團(tuán)隊(duì)訓(xùn)練BERT模型時(shí)使用的語(yǔ)料是800M個(gè)詞的??B〇〇ksC〇rpus[55^?2500M個(gè)詞的英文Wiki百科語(yǔ)料,合計(jì)共約33億個(gè)詞作為大規(guī)模語(yǔ)??料進(jìn)行訓(xùn)練,并在64塊TPU上持續(xù)訓(xùn)練約4天時(shí)間,獲得訓(xùn)練好的語(yǔ)言模型。雖然??BERT在多個(gè)評(píng)測(cè)任務(wù)中獲得了較好的實(shí)驗(yàn)結(jié)果,但是其模型的規(guī)模程度過(guò)大,訓(xùn)練損??耗與訓(xùn)練的設(shè)備成本時(shí)間成本也超出常規(guī)的模型訓(xùn)練,是GPT訓(xùn)練時(shí)間的數(shù)倍以上,??具有較低的可復(fù)制性。??2.4本章小結(jié)??作為自然語(yǔ)言處理任務(wù)中最重要的基礎(chǔ)部分,文本特征提取技術(shù)愈發(fā)變得重要。本??章首先介紹了傳統(tǒng)基于統(tǒng)計(jì)方法的》-gram語(yǔ)言模型的原理,然后仔細(xì)描述了神經(jīng)網(wǎng)絡(luò)??語(yǔ)言模型提取特征的詳細(xì)原理與相關(guān)計(jì)算公式。在神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型中又詳細(xì)介紹了??word2vec中的兩種改進(jìn)語(yǔ)言模型CBOW與Skip-Gram,最后詳細(xì)介紹了大規(guī)
【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)隨機(jī)森林算法的文本分類(lèi)研究與應(yīng)用[J]. 劉勇,興艷云. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(05)
[2]基于SA-SVM的中文文本分類(lèi)研究[J]. 郭超磊,陳軍華. 計(jì)算機(jī)應(yīng)用與軟件. 2019(03)
[3]基于隨機(jī)森林的文本分類(lèi)并行化[J]. 彭徵,王靈矯,郭華. 計(jì)算機(jī)科學(xué). 2018(12)
[4]基于支持向量機(jī)的中文極短文本分類(lèi)模型[J]. 王楊,許閃閃,李昌,艾世成,張衛(wèi)東,甄磊,孟丹. 計(jì)算機(jī)應(yīng)用研究. 2020(02)
[5]基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析[J]. 李洋,董紅斌. 計(jì)算機(jī)應(yīng)用. 2018(11)
[6]基于支持向量機(jī)的不均衡文本分類(lèi)方法[J]. 高超,許翰林. 現(xiàn)代電子技術(shù). 2018(15)
[7]基于word2vec和LSTM的飲食健康文本分類(lèi)研究[J]. 趙明,杜會(huì)芳,董翠翠,陳長(zhǎng)松. 農(nóng)業(yè)機(jī)械學(xué)報(bào). 2017(10)
[8]基于遞歸神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)研究[J]. 黃磊,杜昌順. 北京化工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(01)
[9]情感詞匯本體的構(gòu)造[J]. 徐琳宏,林鴻飛,潘宇,任惠,陳建美. 情報(bào)學(xué)報(bào). 2008 (02)
本文編號(hào):3215543
【文章來(lái)源】:大連海事大學(xué)遼寧省 211工程院校
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.2?CBOW模型??Fig.?2.2?CBOW?model??
?大連海事大學(xué)碩士學(xué)位論文???的數(shù)據(jù)集B任務(wù)的時(shí)候,便可以先調(diào)用該模型關(guān)于A的參數(shù)集進(jìn)行模型初始化工作,??通過(guò)使用模型A己經(jīng)訓(xùn)練得到的模型參數(shù),然后將高層參數(shù)進(jìn)行隨機(jī)初始化,最后通過(guò)??數(shù)據(jù)集B進(jìn)行模式的再學(xué)習(xí)與模型參數(shù)的調(diào)整,也就是模型的微.調(diào)模式網(wǎng)??(Fine-Tuning)。??OpenAI提出的GPT[35^用多層單向的TranSformer[32堪本模型結(jié)構(gòu)(如圖2.4所示);??而ELMo則是使用兩個(gè)獨(dú)立的單向雙層的LSTM作為基本模型結(jié)構(gòu)(如圖2.6所示):??BERT的基本結(jié)構(gòu)則是使用多層多個(gè)雙向Transformer作為基本的處理單元(如圖2.5所??示),與GPT相比BERT兼顧了正序與倒序上下文信息做訓(xùn)練,而相比較同樣使用正??反序上下文的ELMo,使用Transformer?yàn)榛A(chǔ)單元結(jié)構(gòu)的BERT比使用LSTM為基礎(chǔ)??單元的ELMo在訓(xùn)練時(shí)效率較高,速度相對(duì)更快。??在各類(lèi)預(yù)訓(xùn)練語(yǔ)言模型中,達(dá)到目前較高水平的模型是Google提出的BERT[37]??(Bidirectional?Encoder?Representations?from?Transformers)模型,本文將詳細(xì)介紹該模型??的原理。??OpenAI?GPT?BERT??[V]?rvi?…[\?j?[V]?rvi?…丨上?i??(Trm?)(?Trm?)…?(Trm?)?(?Trm?)(?Trm?)?...?f?Trm?)??(Trm?Trm?)…?(Trm?)?(?Trm?Trm?)?...?f?Trm?J??1?l?e2?…?en?E2?...?en??圖2.4?GPT模型結(jié)構(gòu)?圖2.5?
?E〖sep】|??+?+?+?+?+?+??+???+?+?+??Segment?_?F—?p?]?'? ̄Z ̄ ̄?^?p?]?F?F?[?p??Embeddings?丨?1?* ̄A?!?CA?丨匚A?CA?""B?丨?CB?丨匚b?丨仁b??+?+?+?HH?+?+?+?+?HK?+?+??Position?ppppppppp?p?p??Embeddings?^0?^2?丨匚3?* ̄4?c5?c6?丨匚7?c8?c9?C10??圖2.7多嵌入融合??Fig.?2.7?Embeddings?concatenate??最后將各個(gè)獲得的嵌入向量(字符嵌入、語(yǔ)義嵌入、位置嵌入)進(jìn)行拼接輸出獲得??最終的語(yǔ)言模型。Google團(tuán)隊(duì)訓(xùn)練BERT模型時(shí)使用的語(yǔ)料是800M個(gè)詞的??B〇〇ksC〇rpus[55^?2500M個(gè)詞的英文Wiki百科語(yǔ)料,合計(jì)共約33億個(gè)詞作為大規(guī)模語(yǔ)??料進(jìn)行訓(xùn)練,并在64塊TPU上持續(xù)訓(xùn)練約4天時(shí)間,獲得訓(xùn)練好的語(yǔ)言模型。雖然??BERT在多個(gè)評(píng)測(cè)任務(wù)中獲得了較好的實(shí)驗(yàn)結(jié)果,但是其模型的規(guī)模程度過(guò)大,訓(xùn)練損??耗與訓(xùn)練的設(shè)備成本時(shí)間成本也超出常規(guī)的模型訓(xùn)練,是GPT訓(xùn)練時(shí)間的數(shù)倍以上,??具有較低的可復(fù)制性。??2.4本章小結(jié)??作為自然語(yǔ)言處理任務(wù)中最重要的基礎(chǔ)部分,文本特征提取技術(shù)愈發(fā)變得重要。本??章首先介紹了傳統(tǒng)基于統(tǒng)計(jì)方法的》-gram語(yǔ)言模型的原理,然后仔細(xì)描述了神經(jīng)網(wǎng)絡(luò)??語(yǔ)言模型提取特征的詳細(xì)原理與相關(guān)計(jì)算公式。在神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型中又詳細(xì)介紹了??word2vec中的兩種改進(jìn)語(yǔ)言模型CBOW與Skip-Gram,最后詳細(xì)介紹了大規(guī)
【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)隨機(jī)森林算法的文本分類(lèi)研究與應(yīng)用[J]. 劉勇,興艷云. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(05)
[2]基于SA-SVM的中文文本分類(lèi)研究[J]. 郭超磊,陳軍華. 計(jì)算機(jī)應(yīng)用與軟件. 2019(03)
[3]基于隨機(jī)森林的文本分類(lèi)并行化[J]. 彭徵,王靈矯,郭華. 計(jì)算機(jī)科學(xué). 2018(12)
[4]基于支持向量機(jī)的中文極短文本分類(lèi)模型[J]. 王楊,許閃閃,李昌,艾世成,張衛(wèi)東,甄磊,孟丹. 計(jì)算機(jī)應(yīng)用研究. 2020(02)
[5]基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析[J]. 李洋,董紅斌. 計(jì)算機(jī)應(yīng)用. 2018(11)
[6]基于支持向量機(jī)的不均衡文本分類(lèi)方法[J]. 高超,許翰林. 現(xiàn)代電子技術(shù). 2018(15)
[7]基于word2vec和LSTM的飲食健康文本分類(lèi)研究[J]. 趙明,杜會(huì)芳,董翠翠,陳長(zhǎng)松. 農(nóng)業(yè)機(jī)械學(xué)報(bào). 2017(10)
[8]基于遞歸神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)研究[J]. 黃磊,杜昌順. 北京化工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(01)
[9]情感詞匯本體的構(gòu)造[J]. 徐琳宏,林鴻飛,潘宇,任惠,陳建美. 情報(bào)學(xué)報(bào). 2008 (02)
本文編號(hào):3215543
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3215543.html
最近更新
教材專(zhuān)著