基于句型結(jié)構(gòu)信息的文本情感分類研究
發(fā)布時(shí)間:2021-07-01 13:24
隨著深度學(xué)習(xí)與人工智能的發(fā)展,各種自動(dòng)評(píng)分系統(tǒng)層出不窮。在主觀題自動(dòng)評(píng)分中,尤其是在辨析題中,答題者需要對(duì)人物或者事件從各個(gè)角度各個(gè)層次進(jìn)行分析與解答,分析其產(chǎn)生的影響和評(píng)價(jià)。這種答題方式與基于目標(biāo)方面的情感分析十分相像;谀繕(biāo)方面的情感分析是自然語(yǔ)言處理的一個(gè)子任務(wù),對(duì)目標(biāo)詞匯在特定語(yǔ)句中產(chǎn)生的情感傾向進(jìn)行分類,評(píng)定為積極,中立還是消極。因此,在主觀題自動(dòng)評(píng)分中,可以將對(duì)辨析題答案的評(píng)分人物,轉(zhuǎn)變?yōu)閷?duì)辨析題答案基于各種不同的方面進(jìn)行情感分類得分的判斷。本文提出了一種使用句型結(jié)構(gòu)輔助信息對(duì)方面級(jí)別的情感分類任務(wù)的神經(jīng)網(wǎng)絡(luò)模型。在現(xiàn)有的方面級(jí)別的情感分析任務(wù)中,傳統(tǒng)的基于情感詞典和機(jī)器學(xué)習(xí)的分類模型的處理方法已經(jīng)不能滿足人們對(duì)結(jié)果精度的要求。而在深度學(xué)習(xí)中,常用的做法是將語(yǔ)句送入編碼器進(jìn)行編碼表示成語(yǔ)義信息向量,再通過(guò)相關(guān)技術(shù)(如:注意力機(jī)制)提取語(yǔ)義向量與目標(biāo)詞匯(方面)的特征關(guān)系,最后使用分類器將提取到的關(guān)系特征進(jìn)行分類。但是,這些常用的方式往往重視文本語(yǔ)義上的信息,從而忽視了文本語(yǔ)句結(jié)構(gòu)所包含的信息(比如特征詞的修飾詞往往帶有情感信息)。因此,本文提出了一種基于句型結(jié)構(gòu)信息的網(wǎng)絡(luò)...
【文章來(lái)源】:湘潭大學(xué)湖南省
【文章頁(yè)數(shù)】:50 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Skip-Gram模型
7圖2.1CBOW模型結(jié)構(gòu)圖與CBOW模型不同,Skip-Gram模型預(yù)測(cè)的是后驗(yàn)概率,Skip-Gram模型任務(wù)為通過(guò)輸入中心詞,進(jìn)行預(yù)測(cè)上下文的詞向量,模型結(jié)構(gòu)如圖2.2所示錯(cuò)誤!未找到引用源。。圖2.2Skip-Gram模型CBOW和Skip-Gram產(chǎn)生的word2Vec詞向量都是只考慮了局部信息,沒有考慮全局信息。如CBOW中是使用設(shè)置的窗口大小內(nèi)的單詞去預(yù)測(cè)中心詞,則
10最大池化,即選擇池化范圍內(nèi)最大的值替換周圍的值,和平均池化,即池化范圍內(nèi)所有值的平均值替換池化范圍內(nèi)的值。在卷積神經(jīng)網(wǎng)絡(luò)中,卷積操作往往不止一次,卷積核所提取的特征由低級(jí)特征到由低級(jí)特征組成的高級(jí)特征也變得越來(lái)越復(fù)雜,最終使得使用卷積操作所提取到的高級(jí)特征可以代表事物從而進(jìn)行最終的分類或者回歸的操作。循環(huán)神經(jīng)網(wǎng)絡(luò)是一類專門處理序列的神經(jīng)網(wǎng)絡(luò),與其他網(wǎng)絡(luò)不相同的是,循環(huán)神經(jīng)網(wǎng)絡(luò)具有反饋層,即在層與層之間也具有權(quán)重連接。循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖所示。由圖可知,每一個(gè)時(shí)間步的輸入都會(huì)影響下一個(gè)時(shí)間步的輸出,循環(huán)神經(jīng)網(wǎng)絡(luò)具有參數(shù)共享的優(yōu)點(diǎn),圖中所有的權(quán)重系數(shù)W都是相同的。但是標(biāo)準(zhǔn)的循環(huán)神經(jīng)網(wǎng)絡(luò)具有梯度消失和梯度爆炸的缺點(diǎn),從而導(dǎo)致標(biāo)準(zhǔn)的循環(huán)神經(jīng)網(wǎng)絡(luò)使用并不廣泛。神經(jīng)網(wǎng)絡(luò)大多使用梯度下降的方法更新權(quán)重尋找最優(yōu)解,梯度消失的情況導(dǎo)致靠近輸入層的隱藏層的權(quán)重系數(shù)幾乎不在更新,而梯度爆炸則恰恰相反,梯度的值會(huì)變得巨大以至于網(wǎng)絡(luò)找不到最優(yōu)點(diǎn),甚至網(wǎng)絡(luò)模型直接崩潰。圖2.3RNN網(wǎng)絡(luò)結(jié)構(gòu)圖長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò),簡(jiǎn)稱LSTM,是RNN網(wǎng)絡(luò)的一個(gè)變種,解決了RNN網(wǎng)絡(luò)長(zhǎng)期困擾的梯度消失和梯度爆炸的問(wèn)題[26]。LSTM與RNN網(wǎng)絡(luò)一樣擅長(zhǎng)處理時(shí)間序列的數(shù)據(jù),此外,相比RNN網(wǎng)絡(luò)還更容易學(xué)習(xí)到序列數(shù)據(jù)中長(zhǎng)期依賴的信息,這些優(yōu)點(diǎn)都導(dǎo)致LSTM比標(biāo)準(zhǔn)RNN具有更廣的應(yīng)用場(chǎng)景。LSTM通過(guò)設(shè)置遺忘門,輸入門,輸出門客服了梯度消失和梯度爆炸的問(wèn)題。門是由一個(gè)sigmoid函數(shù)和一個(gè)逐元素乘積組成的。LSTM結(jié)構(gòu)如圖所示:
【參考文獻(xiàn)】:
期刊論文
[1]基于融合算法的短文本評(píng)論情感分析[J]. 高祥,趙京勝,宋夢(mèng)雪. 信息技術(shù)與信息化. 2019(11)
[2]基于深度學(xué)習(xí)的微博情感分析[J]. 梁軍,柴玉梅,原慧斌,昝紅英,劉銘. 中文信息學(xué)報(bào). 2014(05)
[3]文本情感分析綜述[J]. 楊立公,朱儉,湯世平. 計(jì)算機(jī)應(yīng)用. 2013(06)
[4]基于短語(yǔ)模式的文本情感分類研究[J]. 李鈍,曹付元,曹元大,萬(wàn)月亮. 計(jì)算機(jī)科學(xué). 2008(04)
[5]基于類別特征向量表示的中文文本分類算法[J]. 何建英,陳蓉,徐淼,劉佳,于中華. 計(jì)算機(jī)應(yīng)用研究. 2008(02)
[6]使用KNN算法的文本分類[J]. 張寧,賈自艷,史忠植. 計(jì)算機(jī)工程. 2005(08)
[7]中文文本分類中特征抽取方法的比較研究[J]. 代六玲,黃河燕,陳肇雄. 中文信息學(xué)報(bào). 2004(01)
[8]自然語(yǔ)言處理中詞語(yǔ)上下文有效范圍的定量描述[J]. 魯松,白碩. 計(jì)算機(jī)學(xué)報(bào). 2001(07)
碩士論文
[1]面向電子商務(wù)的評(píng)論文本情感分析研究[D]. 劉賢友.中國(guó)科學(xué)技術(shù)大學(xué) 2015
[2]基于條件隨機(jī)場(chǎng)的中文分詞研究與應(yīng)用[D]. 顏軍.武漢理工大學(xué) 2009
本文編號(hào):3259214
【文章來(lái)源】:湘潭大學(xué)湖南省
【文章頁(yè)數(shù)】:50 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Skip-Gram模型
7圖2.1CBOW模型結(jié)構(gòu)圖與CBOW模型不同,Skip-Gram模型預(yù)測(cè)的是后驗(yàn)概率,Skip-Gram模型任務(wù)為通過(guò)輸入中心詞,進(jìn)行預(yù)測(cè)上下文的詞向量,模型結(jié)構(gòu)如圖2.2所示錯(cuò)誤!未找到引用源。。圖2.2Skip-Gram模型CBOW和Skip-Gram產(chǎn)生的word2Vec詞向量都是只考慮了局部信息,沒有考慮全局信息。如CBOW中是使用設(shè)置的窗口大小內(nèi)的單詞去預(yù)測(cè)中心詞,則
10最大池化,即選擇池化范圍內(nèi)最大的值替換周圍的值,和平均池化,即池化范圍內(nèi)所有值的平均值替換池化范圍內(nèi)的值。在卷積神經(jīng)網(wǎng)絡(luò)中,卷積操作往往不止一次,卷積核所提取的特征由低級(jí)特征到由低級(jí)特征組成的高級(jí)特征也變得越來(lái)越復(fù)雜,最終使得使用卷積操作所提取到的高級(jí)特征可以代表事物從而進(jìn)行最終的分類或者回歸的操作。循環(huán)神經(jīng)網(wǎng)絡(luò)是一類專門處理序列的神經(jīng)網(wǎng)絡(luò),與其他網(wǎng)絡(luò)不相同的是,循環(huán)神經(jīng)網(wǎng)絡(luò)具有反饋層,即在層與層之間也具有權(quán)重連接。循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖所示。由圖可知,每一個(gè)時(shí)間步的輸入都會(huì)影響下一個(gè)時(shí)間步的輸出,循環(huán)神經(jīng)網(wǎng)絡(luò)具有參數(shù)共享的優(yōu)點(diǎn),圖中所有的權(quán)重系數(shù)W都是相同的。但是標(biāo)準(zhǔn)的循環(huán)神經(jīng)網(wǎng)絡(luò)具有梯度消失和梯度爆炸的缺點(diǎn),從而導(dǎo)致標(biāo)準(zhǔn)的循環(huán)神經(jīng)網(wǎng)絡(luò)使用并不廣泛。神經(jīng)網(wǎng)絡(luò)大多使用梯度下降的方法更新權(quán)重尋找最優(yōu)解,梯度消失的情況導(dǎo)致靠近輸入層的隱藏層的權(quán)重系數(shù)幾乎不在更新,而梯度爆炸則恰恰相反,梯度的值會(huì)變得巨大以至于網(wǎng)絡(luò)找不到最優(yōu)點(diǎn),甚至網(wǎng)絡(luò)模型直接崩潰。圖2.3RNN網(wǎng)絡(luò)結(jié)構(gòu)圖長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò),簡(jiǎn)稱LSTM,是RNN網(wǎng)絡(luò)的一個(gè)變種,解決了RNN網(wǎng)絡(luò)長(zhǎng)期困擾的梯度消失和梯度爆炸的問(wèn)題[26]。LSTM與RNN網(wǎng)絡(luò)一樣擅長(zhǎng)處理時(shí)間序列的數(shù)據(jù),此外,相比RNN網(wǎng)絡(luò)還更容易學(xué)習(xí)到序列數(shù)據(jù)中長(zhǎng)期依賴的信息,這些優(yōu)點(diǎn)都導(dǎo)致LSTM比標(biāo)準(zhǔn)RNN具有更廣的應(yīng)用場(chǎng)景。LSTM通過(guò)設(shè)置遺忘門,輸入門,輸出門客服了梯度消失和梯度爆炸的問(wèn)題。門是由一個(gè)sigmoid函數(shù)和一個(gè)逐元素乘積組成的。LSTM結(jié)構(gòu)如圖所示:
【參考文獻(xiàn)】:
期刊論文
[1]基于融合算法的短文本評(píng)論情感分析[J]. 高祥,趙京勝,宋夢(mèng)雪. 信息技術(shù)與信息化. 2019(11)
[2]基于深度學(xué)習(xí)的微博情感分析[J]. 梁軍,柴玉梅,原慧斌,昝紅英,劉銘. 中文信息學(xué)報(bào). 2014(05)
[3]文本情感分析綜述[J]. 楊立公,朱儉,湯世平. 計(jì)算機(jī)應(yīng)用. 2013(06)
[4]基于短語(yǔ)模式的文本情感分類研究[J]. 李鈍,曹付元,曹元大,萬(wàn)月亮. 計(jì)算機(jī)科學(xué). 2008(04)
[5]基于類別特征向量表示的中文文本分類算法[J]. 何建英,陳蓉,徐淼,劉佳,于中華. 計(jì)算機(jī)應(yīng)用研究. 2008(02)
[6]使用KNN算法的文本分類[J]. 張寧,賈自艷,史忠植. 計(jì)算機(jī)工程. 2005(08)
[7]中文文本分類中特征抽取方法的比較研究[J]. 代六玲,黃河燕,陳肇雄. 中文信息學(xué)報(bào). 2004(01)
[8]自然語(yǔ)言處理中詞語(yǔ)上下文有效范圍的定量描述[J]. 魯松,白碩. 計(jì)算機(jī)學(xué)報(bào). 2001(07)
碩士論文
[1]面向電子商務(wù)的評(píng)論文本情感分析研究[D]. 劉賢友.中國(guó)科學(xué)技術(shù)大學(xué) 2015
[2]基于條件隨機(jī)場(chǎng)的中文分詞研究與應(yīng)用[D]. 顏軍.武漢理工大學(xué) 2009
本文編號(hào):3259214
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3259214.html
最近更新
教材專著