基于深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)短文本情感分類研究
發(fā)布時間:2021-07-20 16:23
隨著信息化時代的來臨,互聯(lián)網(wǎng)技術(shù)的發(fā)展愈加成熟,各類網(wǎng)絡(luò)媒體也應(yīng)運而生。從最開始的QQ聊天,到后來的豆瓣影視、新浪微博等,人們可以隨時隨地的發(fā)表自己的想法和意見。這種便捷快速的交互信息方式背后帶來的則是日益增長的數(shù)據(jù)量,這些數(shù)據(jù)中包含著人們對于事物或者事件的看法和意見,利用自然語言處理技術(shù)對這些數(shù)據(jù)進行分析并發(fā)現(xiàn)其中所包含的情感傾向,對于我們進行輿情監(jiān)測、商品營銷、金融分析等實際應(yīng)用有著重要影響。文本情感分類又稱之為為文本傾向性分析,是近些年來自然語言處理領(lǐng)域的研究熱點之一,吸引了很多研究學(xué)者的關(guān)注。其中基于深度神經(jīng)網(wǎng)絡(luò)的情感分類算法鑒于其優(yōu)異的特征提取能力,已經(jīng)慢慢成為了解決文本情感分類問題的主流方法之一。本文基于深度神經(jīng)網(wǎng)絡(luò)對網(wǎng)絡(luò)短文本進行文本情感分類研究,首先借助網(wǎng)絡(luò)爬蟲獲取豆瓣電影的影評,隨后對爬取的數(shù)據(jù)按照相應(yīng)的準則進行預(yù)處理和情感標注,從而獲取了文本情感分類數(shù)據(jù)集。為了充分利用文本情感資源,使用word2vec工具將詞性特征以及詞匯特征分別向量化,隨后進行向量拼接并以此作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。在此基礎(chǔ)上,考慮到傳統(tǒng)的最大池化方式容易丟失特征信息,使用k-max池化代替最大池...
【文章來源】:長江大學(xué)湖北省
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【部分圖文】:
CBOW與Skip-Gram結(jié)構(gòu)示意圖
取方式更加注重于局部重要特征的提取,每一層的權(quán)重和偏置都相同(每個通道之間權(quán)重不共享,即引入了先驗知識),使得不同位置的同一特征能夠被識別。基于其空間共享以及稀疏卷積帶來的優(yōu)勢,使得CNN在圖像領(lǐng)域中取得了非常優(yōu)異的成果[37]。雖然文本數(shù)據(jù)不同于圖像結(jié)構(gòu),但以詞向量表示的文本數(shù)據(jù)也可以使用CNN進行訓(xùn)練學(xué)習(xí)。最早基于CNN的文本情感分類模型是Kim等人于2014年首次提出的,并且取得了不錯的研究成果,打開了使用CNN進行文本分析的大門。在CNN結(jié)構(gòu)中,輸入層是以二維矩陣的形式送入隱藏層中,其模型框架如圖2-4所示:輸入層卷積層池化層輸出層圖2-4卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Figure2-4StructurediagramofCNNnetworkmodel由圖2-4可知,CNN的每一層之間都是輸出作為輸入,直接交互,并以堆疊的方式對底層特征進行學(xué)習(xí)。不同于人工神經(jīng)網(wǎng)絡(luò),CNN引入稀疏連接的結(jié)構(gòu),代替?zhèn)鹘y(tǒng)的密集連接方式。稀疏連接的大小取決于滑動窗口的大小,其一般取值為
第2章相關(guān)理論與技術(shù)16sigmoidtanhRelu圖2-6激活函數(shù)示意圖Figure2-6Structurediagramofactivationfunction(1)sigmoid激活函數(shù)sigmoid常用在二分類任務(wù)中,適用于前向傳播。但是也存在一個很嚴重的缺點,就是輸出不是以零為中心(零均值),即函數(shù)的輸出范圍為[0,1]。模型在訓(xùn)練過程中,如果輸入的神經(jīng)元的數(shù)值總是為正數(shù)或者負數(shù)的時候,那么權(quán)重參數(shù)W在訓(xùn)練時也就全部為正數(shù)或者負數(shù)的輸出,即其下降趨勢呈Z字型下降,會導(dǎo)致模型收斂曲線陷入波動的狀態(tài),無法快速的收斂。同時由圖2-6可以看出,sigmoid函數(shù)兩端都有一段平緩部分,當數(shù)據(jù)分布在模型訓(xùn)練的過程中逐漸偏移到兩端的時候,會造成梯度消失現(xiàn)象。因此,當神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)較小時,sigmoid表現(xiàn)更好。具體公式為:()=11+(212)(2)tanh激活函數(shù)tanh不同于sigmoid的結(jié)構(gòu),其輸出的取值范圍為[-1,1],因此不存在零均值問題。但由圖2-6可以看出,函數(shù)兩端依然存在平緩區(qū)域,也就是存在梯度消失問題。其公式如下:()=+(313)(3)Relu激活函數(shù)由圖2-6可知,Relu函數(shù)的取值范圍為[0,+∞],其曲線的形狀為直線狀態(tài),因此該函數(shù)的導(dǎo)數(shù)始終為常數(shù),能夠避免模型訓(xùn)練過程中產(chǎn)生梯度消失的問題。此外,由于Relu函數(shù)的求導(dǎo)不涉及到浮點運算,所以在反向傳播的過程中會有加速運算的效果。但該方法對參數(shù)初始化以及學(xué)習(xí)率的要求較高,即當梯度更新到[-∞,0]的狀態(tài)時,這個狀態(tài)下的神經(jīng)元將無法再次被其它數(shù)據(jù)單元再次激活(此時的梯度為0),在一定程度上會丟失數(shù)據(jù)的多樣化。其公式表達如下:()=max(0,)(214)經(jīng)過卷積層提取后的特征圖存在一些無用以及相似部分,因此卷積層后面一般會接有一個池化層,用來去噪以及減少訓(xùn)練參數(shù)的數(shù)量。池化操作主要是通過滑動
【參考文獻】:
期刊論文
[1]一種基于CNN與雙向LSTM融合的文本情感分類方法[J]. 張翠,周茂杰. 計算機時代. 2019(12)
[2]基于PCA-SVM算法的酒店評論文本情感分析研究[J]. 王大偉,周志瑋,曹紅根. 現(xiàn)代計算機. 2019(21)
[3]基于基礎(chǔ)詞典擴展的中文酒店評論情感分析[J]. 楊飛,吳穎丹,王鑫穎. 湖北工業(yè)大學(xué)學(xué)報. 2019(01)
[4]基于半監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)的文本情感分類[J]. 謝博,葉穎雅,陳振彬,黎樹俊,陳珂. 廣東石油化工學(xué)院學(xué)報. 2018(06)
[5]基于Scrapy框架的分布式網(wǎng)絡(luò)爬蟲的研究與實現(xiàn)[J]. 華云彬,匡芳君. 智能計算機與應(yīng)用. 2018(05)
[6]基于機器學(xué)習(xí)的微博情感分類研究[J]. 馮成剛,田大鋼. 軟件導(dǎo)刊. 2018(06)
[7]張斌語法研究特點回溯[J]. 吳曉芳. 文化學(xué)刊. 2017(02)
[8]基于語義理解和機器學(xué)習(xí)的混合的中文文本情感分類算法框架[J]. 徐健鋒,許園,許元辰,張遠健,劉清. 計算機科學(xué). 2015(06)
[9]基于深度學(xué)習(xí)的微博情感分析[J]. 梁軍,柴玉梅,原慧斌,昝紅英,劉銘. 中文信息學(xué)報. 2014(05)
[10]基于規(guī)則的漢語兼類詞標注方法[J]. 李華棟,賈真,尹紅風(fēng),楊燕. 計算機應(yīng)用. 2014(08)
博士論文
[1]互聯(lián)網(wǎng)資源標識和尋址技術(shù)研究[D]. 毛偉.中國科學(xué)院研究生院(計算技術(shù)研究所) 2006
碩士論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的文本表示及情感分析研究[D]. 王文凱.鄭州大學(xué) 2018
[2]基于半監(jiān)督學(xué)習(xí)的文本情感分類平臺的設(shè)計與實現(xiàn)[D]. 呂穎.山西大學(xué) 2016
[3]基于復(fù)合高斯模型的雜波統(tǒng)計分析與建模[D]. 李思明.哈爾濱工業(yè)大學(xué) 2015
[4]微博新詞發(fā)現(xiàn)研究[D]. 蘇其龍.哈爾濱工業(yè)大學(xué) 2013
[5]基于情感詞典的中文微博情感傾向分析研究[D]. 陳曉東.華中科技大學(xué) 2012
[6]面向產(chǎn)品領(lǐng)域的細粒度情感分析技術(shù)[D]. 王山雨.哈爾濱工業(yè)大學(xué) 2011
[7]基于濾子函數(shù)的正則化方法的研究[D]. 劉且根.上海交通大學(xué) 2009
本文編號:3293170
【文章來源】:長江大學(xué)湖北省
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【部分圖文】:
CBOW與Skip-Gram結(jié)構(gòu)示意圖
取方式更加注重于局部重要特征的提取,每一層的權(quán)重和偏置都相同(每個通道之間權(quán)重不共享,即引入了先驗知識),使得不同位置的同一特征能夠被識別。基于其空間共享以及稀疏卷積帶來的優(yōu)勢,使得CNN在圖像領(lǐng)域中取得了非常優(yōu)異的成果[37]。雖然文本數(shù)據(jù)不同于圖像結(jié)構(gòu),但以詞向量表示的文本數(shù)據(jù)也可以使用CNN進行訓(xùn)練學(xué)習(xí)。最早基于CNN的文本情感分類模型是Kim等人于2014年首次提出的,并且取得了不錯的研究成果,打開了使用CNN進行文本分析的大門。在CNN結(jié)構(gòu)中,輸入層是以二維矩陣的形式送入隱藏層中,其模型框架如圖2-4所示:輸入層卷積層池化層輸出層圖2-4卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Figure2-4StructurediagramofCNNnetworkmodel由圖2-4可知,CNN的每一層之間都是輸出作為輸入,直接交互,并以堆疊的方式對底層特征進行學(xué)習(xí)。不同于人工神經(jīng)網(wǎng)絡(luò),CNN引入稀疏連接的結(jié)構(gòu),代替?zhèn)鹘y(tǒng)的密集連接方式。稀疏連接的大小取決于滑動窗口的大小,其一般取值為
第2章相關(guān)理論與技術(shù)16sigmoidtanhRelu圖2-6激活函數(shù)示意圖Figure2-6Structurediagramofactivationfunction(1)sigmoid激活函數(shù)sigmoid常用在二分類任務(wù)中,適用于前向傳播。但是也存在一個很嚴重的缺點,就是輸出不是以零為中心(零均值),即函數(shù)的輸出范圍為[0,1]。模型在訓(xùn)練過程中,如果輸入的神經(jīng)元的數(shù)值總是為正數(shù)或者負數(shù)的時候,那么權(quán)重參數(shù)W在訓(xùn)練時也就全部為正數(shù)或者負數(shù)的輸出,即其下降趨勢呈Z字型下降,會導(dǎo)致模型收斂曲線陷入波動的狀態(tài),無法快速的收斂。同時由圖2-6可以看出,sigmoid函數(shù)兩端都有一段平緩部分,當數(shù)據(jù)分布在模型訓(xùn)練的過程中逐漸偏移到兩端的時候,會造成梯度消失現(xiàn)象。因此,當神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)較小時,sigmoid表現(xiàn)更好。具體公式為:()=11+(212)(2)tanh激活函數(shù)tanh不同于sigmoid的結(jié)構(gòu),其輸出的取值范圍為[-1,1],因此不存在零均值問題。但由圖2-6可以看出,函數(shù)兩端依然存在平緩區(qū)域,也就是存在梯度消失問題。其公式如下:()=+(313)(3)Relu激活函數(shù)由圖2-6可知,Relu函數(shù)的取值范圍為[0,+∞],其曲線的形狀為直線狀態(tài),因此該函數(shù)的導(dǎo)數(shù)始終為常數(shù),能夠避免模型訓(xùn)練過程中產(chǎn)生梯度消失的問題。此外,由于Relu函數(shù)的求導(dǎo)不涉及到浮點運算,所以在反向傳播的過程中會有加速運算的效果。但該方法對參數(shù)初始化以及學(xué)習(xí)率的要求較高,即當梯度更新到[-∞,0]的狀態(tài)時,這個狀態(tài)下的神經(jīng)元將無法再次被其它數(shù)據(jù)單元再次激活(此時的梯度為0),在一定程度上會丟失數(shù)據(jù)的多樣化。其公式表達如下:()=max(0,)(214)經(jīng)過卷積層提取后的特征圖存在一些無用以及相似部分,因此卷積層后面一般會接有一個池化層,用來去噪以及減少訓(xùn)練參數(shù)的數(shù)量。池化操作主要是通過滑動
【參考文獻】:
期刊論文
[1]一種基于CNN與雙向LSTM融合的文本情感分類方法[J]. 張翠,周茂杰. 計算機時代. 2019(12)
[2]基于PCA-SVM算法的酒店評論文本情感分析研究[J]. 王大偉,周志瑋,曹紅根. 現(xiàn)代計算機. 2019(21)
[3]基于基礎(chǔ)詞典擴展的中文酒店評論情感分析[J]. 楊飛,吳穎丹,王鑫穎. 湖北工業(yè)大學(xué)學(xué)報. 2019(01)
[4]基于半監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)的文本情感分類[J]. 謝博,葉穎雅,陳振彬,黎樹俊,陳珂. 廣東石油化工學(xué)院學(xué)報. 2018(06)
[5]基于Scrapy框架的分布式網(wǎng)絡(luò)爬蟲的研究與實現(xiàn)[J]. 華云彬,匡芳君. 智能計算機與應(yīng)用. 2018(05)
[6]基于機器學(xué)習(xí)的微博情感分類研究[J]. 馮成剛,田大鋼. 軟件導(dǎo)刊. 2018(06)
[7]張斌語法研究特點回溯[J]. 吳曉芳. 文化學(xué)刊. 2017(02)
[8]基于語義理解和機器學(xué)習(xí)的混合的中文文本情感分類算法框架[J]. 徐健鋒,許園,許元辰,張遠健,劉清. 計算機科學(xué). 2015(06)
[9]基于深度學(xué)習(xí)的微博情感分析[J]. 梁軍,柴玉梅,原慧斌,昝紅英,劉銘. 中文信息學(xué)報. 2014(05)
[10]基于規(guī)則的漢語兼類詞標注方法[J]. 李華棟,賈真,尹紅風(fēng),楊燕. 計算機應(yīng)用. 2014(08)
博士論文
[1]互聯(lián)網(wǎng)資源標識和尋址技術(shù)研究[D]. 毛偉.中國科學(xué)院研究生院(計算技術(shù)研究所) 2006
碩士論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的文本表示及情感分析研究[D]. 王文凱.鄭州大學(xué) 2018
[2]基于半監(jiān)督學(xué)習(xí)的文本情感分類平臺的設(shè)計與實現(xiàn)[D]. 呂穎.山西大學(xué) 2016
[3]基于復(fù)合高斯模型的雜波統(tǒng)計分析與建模[D]. 李思明.哈爾濱工業(yè)大學(xué) 2015
[4]微博新詞發(fā)現(xiàn)研究[D]. 蘇其龍.哈爾濱工業(yè)大學(xué) 2013
[5]基于情感詞典的中文微博情感傾向分析研究[D]. 陳曉東.華中科技大學(xué) 2012
[6]面向產(chǎn)品領(lǐng)域的細粒度情感分析技術(shù)[D]. 王山雨.哈爾濱工業(yè)大學(xué) 2011
[7]基于濾子函數(shù)的正則化方法的研究[D]. 劉且根.上海交通大學(xué) 2009
本文編號:3293170
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3293170.html
最近更新
教材專著