基于深度學(xué)習(xí)模型的文本情感分類研究
發(fā)布時(shí)間:2021-06-01 19:44
隨著互聯(lián)網(wǎng)的飛速發(fā)展,人們也由以前的被動(dòng)接收信息,逐步向主動(dòng)參與轉(zhuǎn)變,更樂于通過微博、博客、論壇等互聯(lián)網(wǎng)平臺(tái)公開發(fā)表自己的看法與觀點(diǎn);ヂ(lián)網(wǎng)每天都會(huì)產(chǎn)生大量的非結(jié)構(gòu)化文本信息,其中包含了用戶的看法以及情感。如果對(duì)這些具有很好的工業(yè)和學(xué)術(shù)研究?jī)r(jià)值的信息進(jìn)行研究,并從中提取出所需的情感信息,便可以進(jìn)一步促進(jìn)網(wǎng)絡(luò)輿情分析、企業(yè)管理、事件預(yù)測(cè)及商品營(yíng)銷等領(lǐng)域的發(fā)展;谇楦性~典和基于機(jī)器學(xué)習(xí)的傳統(tǒng)情感分類方法不適用于數(shù)據(jù)集龐大的應(yīng)用場(chǎng)景,因此,深度學(xué)習(xí)已經(jīng)成為情感分類領(lǐng)域的主流研究方向。論文主要工作內(nèi)容如下:(1)構(gòu)建CNN-Inception-Bi LSTM文本情感分類模型,先通過CNN-Inception網(wǎng)絡(luò)學(xué)習(xí)文本的局部特征,再結(jié)合Bi LSTM的特點(diǎn),利用文本的上下文特征,充分發(fā)揮兩者的優(yōu)勢(shì)。本文采用的數(shù)據(jù)集是imdb影評(píng)數(shù)據(jù)集和toxic comment評(píng)論數(shù)據(jù)集,運(yùn)用keras框架構(gòu)建CNN-Inception-Bi LSTM網(wǎng)絡(luò),進(jìn)行多次實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,CNN-Inception-Bi LSTM模型相對(duì)于其他模型取得了較好的分類效果。(2)構(gòu)建Text RCNN-Text C...
【文章來源】:遼寧科技大學(xué)遼寧省
【文章頁數(shù)】:81 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
情感分類方法
遼寧科技大學(xué)碩士學(xué)位論文9圖2.2基于情感詞典的文本情感分類方法Fig.2.2Textsentimentclassificationmethodbasedonsentimentlexicon其中,情感詞典的質(zhì)量是情感分類任務(wù)中的重點(diǎn),下面介紹一些常見的情感詞典資源。目前,公開的情感詞典有很多,這些情感詞典大部分都是人工構(gòu)建的。英文情感詞典有GI(GeneralInquirer)、OpinionLexicon等。GI是由哈佛大學(xué)提供的最早的一個(gè)英文情感詞典,情感詞類別是正負(fù)兩類。OpinionLexicon是伊利諾伊大學(xué)BingLiu發(fā)布的英文情感詞典,該情感詞典包括情感詞、拼寫錯(cuò)誤、語法變形、俚語等語義信息。英文情感詞典的具體信息見表2.2。表2.2英文情感詞典Tab.2.2Englishsentimentdictionary情感詞典褒義詞個(gè)數(shù)貶義詞個(gè)數(shù)情感極性詞總數(shù)GeneralInquirer191422934207OpinionLexi-con200647836789目前常用的中文情感詞典主要有知網(wǎng)HowNet情感詞典[30]、NTUSD情感詞典[31]和DUTIR情感詞匯本體庫[32]。董振東等人花三十年標(biāo)注了知網(wǎng)HowNet情感詞典,詞典分為中文情感詞典和英文情感詞典兩部分,詞典中還包括一個(gè)詞與詞的大型關(guān)系網(wǎng)絡(luò)。NTUSD(NationalTaiwanUniversitySentimentDictionary)是臺(tái)灣大學(xué)自然語言處理實(shí)驗(yàn)室公布的簡(jiǎn)體中文情感極性詞典,該情感詞典擴(kuò)充了貶義詞義詞。大連理工大學(xué)構(gòu)建了DUTIR情感詞匯本體庫,在該詞典中,一個(gè)情感詞有很多信息,主要包括詞性、情感類別、情感強(qiáng)度,情感極性等,情感
2.相關(guān)技術(shù)介紹161(|)()(|)niijijPCXPCPxC(2.20)公式(2.20)就是樸素貝葉斯分類器的表達(dá)式。樸素貝葉斯法對(duì)條件概率分布做了獨(dú)立性假設(shè),極大減少了參數(shù)的數(shù)量,在文本情感分類任務(wù)中取得了較好的分類效果。然而,該方法假設(shè)樣本各個(gè)特征詞之間是相互獨(dú)立的,即一個(gè)特征詞出現(xiàn)的可能性與其他特征詞沒有任何關(guān)系,顯然,這個(gè)假設(shè)不合實(shí)際,從而導(dǎo)致該方法存在一定的局限性。(3)支持向量機(jī)(SVM)支持向量機(jī)(SupportVectorMachine,SVM)[49]是由Vapnik等人提出的一種用于解決二分類問題的機(jī)器學(xué)習(xí)方法。該方法的核心思想是:在保證最小的分類錯(cuò)誤率的基礎(chǔ)上,在高維特征空間中尋找到一個(gè)盡可能將兩個(gè)數(shù)據(jù)集合分開的最優(yōu)超平面。在特征空間中,分割超平面的方程如公式(2.21):0Twxb(2.21)其中,12(,,...,)dwwww用于確定分割超平面的方向;b表示偏置項(xiàng),用于確定原點(diǎn)與分割超平面之間的距離,x代表樣本空間任意點(diǎn),顯然,法向量w和偏置項(xiàng)b共同確定了分割超平面。那么樣本空間中任意點(diǎn)到分割超平面的距離如公式(2.22):||||||Twxbrw(2.22)支持向量機(jī)示意圖如圖2.4所示。圖2.4支持向量機(jī)示意圖Fig.2.4SVMdiagram
【參考文獻(xiàn)】:
期刊論文
[1]基于混合深度神經(jīng)網(wǎng)絡(luò)模型的司法文書智能化處理[J]. 王文廣,陳運(yùn)文,蔡華,曾彥能,楊慧宇. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(07)
[2]基于N-gram模型的中文分詞前k優(yōu)算法[J]. 李書豪,陳宇,呂淑寶,張猛治. 智能計(jì)算機(jī)與應(yīng)用. 2016(06)
[3]基于字符串匹配的中文分詞算法的研究[J]. 常建秋,沈煒. 工業(yè)控制計(jì)算機(jī). 2016(02)
[4]深度學(xué)習(xí)研究與進(jìn)展[J]. 孫志遠(yuǎn),魯成祥,史忠植,馬剛. 計(jì)算機(jī)科學(xué). 2016(02)
[5]基于卷積神經(jīng)網(wǎng)絡(luò)的微博情感傾向性分析[J]. 劉龍飛,楊亮,張紹武,林鴻飛. 中文信息學(xué)報(bào). 2015(06)
[6]基于多粒度計(jì)算和多準(zhǔn)則融合的情感分類[J]. 王丙坤,黃永峰,李星. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(05)
[7]基于字符的中文分詞、詞性標(biāo)注和依存句法分析聯(lián)合模型[J]. 郭振,張玉潔,蘇晨,徐金安. 中文信息學(xué)報(bào). 2014(06)
[8]基于深度學(xué)習(xí)的微博情感分析[J]. 梁軍,柴玉梅,原慧斌,昝紅英,劉銘. 中文信息學(xué)報(bào). 2014(05)
[9]基于LDA模型的中文微博話題意見領(lǐng)袖挖掘[J]. 馮時(shí),景珊,楊卓,王大玲. 東北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(04)
[10]有效的中文微博短文本傾向性分類算法[J]. 韓忠明,張玉沙,張慧,萬月亮,黃今慧. 計(jì)算機(jī)應(yīng)用與軟件. 2012(10)
碩士論文
[1]基于深度學(xué)習(xí)的知乎標(biāo)題的多標(biāo)簽文本分類[D]. 張闖.北京交通大學(xué) 2018
[2]混合深度學(xué)習(xí)模型在新聞文本分類中的應(yīng)用[D]. 馬晨峰.山東大學(xué) 2018
[3]基于改進(jìn)的LSTM的文本情感分析研究[D]. 閆勇莉.大連海事大學(xué) 2018
[4]基于深度神經(jīng)網(wǎng)絡(luò)的微博短文本情感分析研究[D]. 張英.中原工學(xué)院 2017
[5]基于Attention-Based LSTM模型的文本分類技術(shù)的研究[D]. 張沖.南京大學(xué) 2016
[6]基于統(tǒng)計(jì)學(xué)習(xí)的中文分詞方法的研究[D]. 王威.東北大學(xué) 2015
[7]基于統(tǒng)計(jì)學(xué)習(xí)的中文分詞改進(jìn)及其在面向應(yīng)用分詞中的應(yīng)用[D]. 巫黃旭.浙江大學(xué) 2012
[8]基于情感詞典的中文微博情感傾向分析研究[D]. 陳曉東.華中科技大學(xué) 2012
[9]基于理解的漢語分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 蘇勇.電子科技大學(xué) 2011
[10]中文情感詞匯本體的構(gòu)建及其應(yīng)用[D]. 陳建美.大連理工大學(xué) 2009
本文編號(hào):3210035
【文章來源】:遼寧科技大學(xué)遼寧省
【文章頁數(shù)】:81 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
情感分類方法
遼寧科技大學(xué)碩士學(xué)位論文9圖2.2基于情感詞典的文本情感分類方法Fig.2.2Textsentimentclassificationmethodbasedonsentimentlexicon其中,情感詞典的質(zhì)量是情感分類任務(wù)中的重點(diǎn),下面介紹一些常見的情感詞典資源。目前,公開的情感詞典有很多,這些情感詞典大部分都是人工構(gòu)建的。英文情感詞典有GI(GeneralInquirer)、OpinionLexicon等。GI是由哈佛大學(xué)提供的最早的一個(gè)英文情感詞典,情感詞類別是正負(fù)兩類。OpinionLexicon是伊利諾伊大學(xué)BingLiu發(fā)布的英文情感詞典,該情感詞典包括情感詞、拼寫錯(cuò)誤、語法變形、俚語等語義信息。英文情感詞典的具體信息見表2.2。表2.2英文情感詞典Tab.2.2Englishsentimentdictionary情感詞典褒義詞個(gè)數(shù)貶義詞個(gè)數(shù)情感極性詞總數(shù)GeneralInquirer191422934207OpinionLexi-con200647836789目前常用的中文情感詞典主要有知網(wǎng)HowNet情感詞典[30]、NTUSD情感詞典[31]和DUTIR情感詞匯本體庫[32]。董振東等人花三十年標(biāo)注了知網(wǎng)HowNet情感詞典,詞典分為中文情感詞典和英文情感詞典兩部分,詞典中還包括一個(gè)詞與詞的大型關(guān)系網(wǎng)絡(luò)。NTUSD(NationalTaiwanUniversitySentimentDictionary)是臺(tái)灣大學(xué)自然語言處理實(shí)驗(yàn)室公布的簡(jiǎn)體中文情感極性詞典,該情感詞典擴(kuò)充了貶義詞義詞。大連理工大學(xué)構(gòu)建了DUTIR情感詞匯本體庫,在該詞典中,一個(gè)情感詞有很多信息,主要包括詞性、情感類別、情感強(qiáng)度,情感極性等,情感
2.相關(guān)技術(shù)介紹161(|)()(|)niijijPCXPCPxC(2.20)公式(2.20)就是樸素貝葉斯分類器的表達(dá)式。樸素貝葉斯法對(duì)條件概率分布做了獨(dú)立性假設(shè),極大減少了參數(shù)的數(shù)量,在文本情感分類任務(wù)中取得了較好的分類效果。然而,該方法假設(shè)樣本各個(gè)特征詞之間是相互獨(dú)立的,即一個(gè)特征詞出現(xiàn)的可能性與其他特征詞沒有任何關(guān)系,顯然,這個(gè)假設(shè)不合實(shí)際,從而導(dǎo)致該方法存在一定的局限性。(3)支持向量機(jī)(SVM)支持向量機(jī)(SupportVectorMachine,SVM)[49]是由Vapnik等人提出的一種用于解決二分類問題的機(jī)器學(xué)習(xí)方法。該方法的核心思想是:在保證最小的分類錯(cuò)誤率的基礎(chǔ)上,在高維特征空間中尋找到一個(gè)盡可能將兩個(gè)數(shù)據(jù)集合分開的最優(yōu)超平面。在特征空間中,分割超平面的方程如公式(2.21):0Twxb(2.21)其中,12(,,...,)dwwww用于確定分割超平面的方向;b表示偏置項(xiàng),用于確定原點(diǎn)與分割超平面之間的距離,x代表樣本空間任意點(diǎn),顯然,法向量w和偏置項(xiàng)b共同確定了分割超平面。那么樣本空間中任意點(diǎn)到分割超平面的距離如公式(2.22):||||||Twxbrw(2.22)支持向量機(jī)示意圖如圖2.4所示。圖2.4支持向量機(jī)示意圖Fig.2.4SVMdiagram
【參考文獻(xiàn)】:
期刊論文
[1]基于混合深度神經(jīng)網(wǎng)絡(luò)模型的司法文書智能化處理[J]. 王文廣,陳運(yùn)文,蔡華,曾彥能,楊慧宇. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(07)
[2]基于N-gram模型的中文分詞前k優(yōu)算法[J]. 李書豪,陳宇,呂淑寶,張猛治. 智能計(jì)算機(jī)與應(yīng)用. 2016(06)
[3]基于字符串匹配的中文分詞算法的研究[J]. 常建秋,沈煒. 工業(yè)控制計(jì)算機(jī). 2016(02)
[4]深度學(xué)習(xí)研究與進(jìn)展[J]. 孫志遠(yuǎn),魯成祥,史忠植,馬剛. 計(jì)算機(jī)科學(xué). 2016(02)
[5]基于卷積神經(jīng)網(wǎng)絡(luò)的微博情感傾向性分析[J]. 劉龍飛,楊亮,張紹武,林鴻飛. 中文信息學(xué)報(bào). 2015(06)
[6]基于多粒度計(jì)算和多準(zhǔn)則融合的情感分類[J]. 王丙坤,黃永峰,李星. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(05)
[7]基于字符的中文分詞、詞性標(biāo)注和依存句法分析聯(lián)合模型[J]. 郭振,張玉潔,蘇晨,徐金安. 中文信息學(xué)報(bào). 2014(06)
[8]基于深度學(xué)習(xí)的微博情感分析[J]. 梁軍,柴玉梅,原慧斌,昝紅英,劉銘. 中文信息學(xué)報(bào). 2014(05)
[9]基于LDA模型的中文微博話題意見領(lǐng)袖挖掘[J]. 馮時(shí),景珊,楊卓,王大玲. 東北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(04)
[10]有效的中文微博短文本傾向性分類算法[J]. 韓忠明,張玉沙,張慧,萬月亮,黃今慧. 計(jì)算機(jī)應(yīng)用與軟件. 2012(10)
碩士論文
[1]基于深度學(xué)習(xí)的知乎標(biāo)題的多標(biāo)簽文本分類[D]. 張闖.北京交通大學(xué) 2018
[2]混合深度學(xué)習(xí)模型在新聞文本分類中的應(yīng)用[D]. 馬晨峰.山東大學(xué) 2018
[3]基于改進(jìn)的LSTM的文本情感分析研究[D]. 閆勇莉.大連海事大學(xué) 2018
[4]基于深度神經(jīng)網(wǎng)絡(luò)的微博短文本情感分析研究[D]. 張英.中原工學(xué)院 2017
[5]基于Attention-Based LSTM模型的文本分類技術(shù)的研究[D]. 張沖.南京大學(xué) 2016
[6]基于統(tǒng)計(jì)學(xué)習(xí)的中文分詞方法的研究[D]. 王威.東北大學(xué) 2015
[7]基于統(tǒng)計(jì)學(xué)習(xí)的中文分詞改進(jìn)及其在面向應(yīng)用分詞中的應(yīng)用[D]. 巫黃旭.浙江大學(xué) 2012
[8]基于情感詞典的中文微博情感傾向分析研究[D]. 陳曉東.華中科技大學(xué) 2012
[9]基于理解的漢語分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 蘇勇.電子科技大學(xué) 2011
[10]中文情感詞匯本體的構(gòu)建及其應(yīng)用[D]. 陳建美.大連理工大學(xué) 2009
本文編號(hào):3210035
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3210035.html
最近更新
教材專著