基于深度學(xué)習(xí)的網(wǎng)絡(luò)輿情分析方法研究
發(fā)布時(shí)間:2021-08-18 14:40
隨著科技不斷的發(fā)展,互聯(lián)網(wǎng)對(duì)人們?nèi)粘I畹挠绊懸苍谌找嬖鰪?qiáng),人們?cè)絹?lái)越傾向于在社交網(wǎng)絡(luò)上發(fā)布自己對(duì)一些事物的看法和意見(jiàn)。輿情分析可以快速判斷國(guó)民對(duì)重大事件的情感傾向,客觀表達(dá)社會(huì)輿論導(dǎo)向,有利于特定主管部門和政府機(jī)構(gòu)對(duì)輿情信息進(jìn)行及時(shí)準(zhǔn)確的管理和引導(dǎo),維護(hù)社會(huì)的和諧安全。輿情信息大多來(lái)自于短文本評(píng)論信息,其文本脫離書面語(yǔ)言,結(jié)構(gòu)變得更加簡(jiǎn)潔,缺乏規(guī)范性,常常給文本特征提取造成一定的難度。傳統(tǒng)的情感分析方法往往依靠情感詞典和特征提取,隨著互聯(lián)網(wǎng)文化和數(shù)據(jù)量不斷的更新和迭代,需要大量的人工對(duì)情感詞典進(jìn)行更新,否則會(huì)造成語(yǔ)義特征丟失,分類不準(zhǔn)確。本文在分析研究Attention機(jī)制和深度學(xué)習(xí)相關(guān)技術(shù)的基礎(chǔ)上,提出一種HAN-CLSTM模型對(duì)文本的深層次語(yǔ)義特征進(jìn)行挖掘,能夠準(zhǔn)確判斷其情感傾向。本文的主要研究工作包括如下幾部分:(1)根據(jù)CNN和LSTM在進(jìn)行文本處理時(shí)的特點(diǎn),CNN能夠更好的提取文本局部特征,LSTM可以保留文本歷史信息,有效提取序列的全局特征,為了使提取到的特征語(yǔ)義信息更加全面,將二者結(jié)合形成CLSTM模型。通過(guò)采用多組模型參數(shù)進(jìn)行多次實(shí)驗(yàn)對(duì)比,得到具有最優(yōu)參數(shù)的CLSTM...
【文章來(lái)源】:大連海事大學(xué)遼寧省 211工程院校
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1基于情感詞典的文本情感分類流程??Fig.?2.1?Emotion?classification?process?of?text?based?on?emotion?dictionary??
?大連海事大學(xué)專業(yè)學(xué)位碩士學(xué)位論文?????.-BbW,?|預(yù)處理:?|特征提。海????開(kāi)始?一>?—?*'<*,!丨.文本分一>?—?特征分類?—》分類結(jié)果?一^結(jié)*????丨據(jù)集?卜|?征?丨?|?|????圖2.2基于機(jī)器學(xué)習(xí)的文本情感分類流程??Fig.?2.2?Text?emotion?classification?process?based?on?machine?learning??2.1.1文本預(yù)處理??由于網(wǎng)上爬取的文本數(shù)據(jù)有許多無(wú)意義的html標(biāo)簽、無(wú)意義的特殊詞語(yǔ)、符號(hào)、??表情、URL等。通過(guò)文本預(yù)處理使文本更加規(guī)范,去除一些噪聲數(shù)據(jù),將對(duì)文本分類有??用的詞語(yǔ)進(jìn)行保留。文本預(yù)處理的處理過(guò)程如圖2.3所示。?? ̄^ ̄??丄??讀取文本數(shù)掘??標(biāo)^^否??|統(tǒng)-^準(zhǔn)編??碼格式??'?^__??提取文本字段??數(shù)據(jù)淸洗??分詞/去停用詞/??發(fā)現(xiàn)新詞??結(jié)束??圖2.3文本預(yù)處理流程??Fig.?2.3?Text?preprocessing?process??由于計(jì)算機(jī)程序處理文本時(shí)需要統(tǒng)一的文本編碼格式。如果文本數(shù)據(jù)集釆用的編碼??格式不統(tǒng)一,則需要轉(zhuǎn)化成統(tǒng)一的編碼格式。常見(jiàn)的文本標(biāo)準(zhǔn)化編碼格式有GBK編碼、??GB18030編碼、Unicode編碼等。對(duì)文本進(jìn)行統(tǒng)一標(biāo)準(zhǔn)編碼格式后,再對(duì)文本進(jìn)行字段??的解析提齲提取文本字段之后,需要對(duì)文本數(shù)據(jù)集進(jìn)行“數(shù)據(jù)清洗”,對(duì)整個(gè)文本去??掉一些無(wú)意義的符號(hào)、錯(cuò)誤數(shù)據(jù)、URL等噪聲特征。??7??
?大連海事大學(xué)專業(yè)學(xué)位碩士學(xué)位論文???程中避免產(chǎn)生過(guò)擬合現(xiàn)象%,即在特定訓(xùn)練文本數(shù)據(jù)集上的分類性能十分顯著,但是在??訓(xùn)練數(shù)據(jù)集以外的未知數(shù)據(jù)集的性能十分差。??2.1.3特征分類??特征分類是對(duì)已經(jīng)提取的文本特征按照一定的規(guī)則劃分類別,最終得到預(yù)期的分類??結(jié)果,盡量減少分類誤差。例如一組已知的集合M={mumr__mn^照一定的規(guī)則映射到??一組預(yù)先給定的集合Dldudr-dn}?(n為分類總數(shù)),這種映射規(guī)則往往是建立一個(gè)分??類模型,如圖2.4所示。???>?分類模型??^???????????^?I?.??圖2.4特征分類映射示意圖??Fig.?2.4?Map?of?feature?classification??在機(jī)器學(xué)習(xí)中特征分類模型一般分為有監(jiān)督模型、無(wú)監(jiān)督模型。典型的機(jī)器學(xué)習(xí)模??型如圖2.5所示。??機(jī)器學(xué)習(xí)校???W監(jiān)督學(xué)>J模S?無(wú)ffi督學(xué)習(xí)校ffl??決裳?I丨"丨I?H?i?i??w造I樹(shù)-篇?n?%??圖2.5典型機(jī)器學(xué)習(xí)模型??Fig.?2.5?Typical?machine?learning?model??9??
【參考文獻(xiàn)】:
期刊論文
[1]在重大突發(fā)公共事件中傳統(tǒng)媒體如何應(yīng)對(duì)網(wǎng)絡(luò)輿情——以湖北廣電集團(tuán)抗擊新冠肺炎疫情宣傳為例[J]. 鄒靜. 當(dāng)代電視. 2020(04)
[2]CNNIC發(fā)布第44次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[J]. 于朝暉. 網(wǎng)信軍民融合. 2019(09)
[3]基于多部情感詞典和規(guī)則集的中文微博情感分析研究[J]. 吳杰勝,陸奎. 計(jì)算機(jī)應(yīng)用與軟件. 2019(09)
[4]基于Word2vec和改進(jìn)型TF-IDF的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型[J]. 王根生,黃學(xué)堅(jiān). 小型微型計(jì)算機(jī)系統(tǒng). 2019(05)
[5]基于ANP—灰色模糊的社交網(wǎng)絡(luò)輿情風(fēng)險(xiǎn)預(yù)警研究——以“重慶公交墜江事件”為例[J]. 陳培友,侯甜甜. 情報(bào)科學(xué). 2019(05)
[6]文本情感分析方法研究綜述[J]. 洪巍,李敏. 計(jì)算機(jī)工程與科學(xué). 2019(04)
[7]基于GloVe詞向量的“技術(shù)——應(yīng)用”發(fā)現(xiàn)研究[J]. 吉久明,施陳煒,李楠,康健. 現(xiàn)代情報(bào). 2019(04)
[8]中文分詞技術(shù)綜述[J]. 馮俐. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2018(34)
[9]基于熵權(quán)法的網(wǎng)絡(luò)輿情預(yù)警模糊綜合評(píng)價(jià)模型研究[J]. 武慧娟,張海濤,王盡暉,孫鴻飛,李澤中. 情報(bào)科學(xué). 2018(07)
[10]文本情感分析綜述[J]. 劉爽,趙景秀,楊紅亞,徐冠華. 軟件導(dǎo)刊. 2018(06)
碩士論文
[1]基于深度學(xué)習(xí)與自注意力機(jī)制的情感分類方法研究[D]. 祝元勃.西安理工大學(xué) 2019
[2]基于語(yǔ)義相似度的中文文本分類研究[D]. 李曉軍.西安電子科技大學(xué) 2017
[3]基于詞向量的標(biāo)簽語(yǔ)義推薦算法研究[D]. 黃聰.廣東工業(yè)大學(xué) 2015
[4]基于WEB數(shù)據(jù)挖掘技術(shù)的公安輿情監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 吳旭東.上海交通大學(xué) 2015
本文編號(hào):3350077
【文章來(lái)源】:大連海事大學(xué)遼寧省 211工程院校
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1基于情感詞典的文本情感分類流程??Fig.?2.1?Emotion?classification?process?of?text?based?on?emotion?dictionary??
?大連海事大學(xué)專業(yè)學(xué)位碩士學(xué)位論文?????.-BbW,?|預(yù)處理:?|特征提。海????開(kāi)始?一>?—?*'<*,!丨.文本分一>?—?特征分類?—》分類結(jié)果?一^結(jié)*????丨據(jù)集?卜|?征?丨?|?|????圖2.2基于機(jī)器學(xué)習(xí)的文本情感分類流程??Fig.?2.2?Text?emotion?classification?process?based?on?machine?learning??2.1.1文本預(yù)處理??由于網(wǎng)上爬取的文本數(shù)據(jù)有許多無(wú)意義的html標(biāo)簽、無(wú)意義的特殊詞語(yǔ)、符號(hào)、??表情、URL等。通過(guò)文本預(yù)處理使文本更加規(guī)范,去除一些噪聲數(shù)據(jù),將對(duì)文本分類有??用的詞語(yǔ)進(jìn)行保留。文本預(yù)處理的處理過(guò)程如圖2.3所示。?? ̄^ ̄??丄??讀取文本數(shù)掘??標(biāo)^^否??|統(tǒng)-^準(zhǔn)編??碼格式??'?^__??提取文本字段??數(shù)據(jù)淸洗??分詞/去停用詞/??發(fā)現(xiàn)新詞??結(jié)束??圖2.3文本預(yù)處理流程??Fig.?2.3?Text?preprocessing?process??由于計(jì)算機(jī)程序處理文本時(shí)需要統(tǒng)一的文本編碼格式。如果文本數(shù)據(jù)集釆用的編碼??格式不統(tǒng)一,則需要轉(zhuǎn)化成統(tǒng)一的編碼格式。常見(jiàn)的文本標(biāo)準(zhǔn)化編碼格式有GBK編碼、??GB18030編碼、Unicode編碼等。對(duì)文本進(jìn)行統(tǒng)一標(biāo)準(zhǔn)編碼格式后,再對(duì)文本進(jìn)行字段??的解析提齲提取文本字段之后,需要對(duì)文本數(shù)據(jù)集進(jìn)行“數(shù)據(jù)清洗”,對(duì)整個(gè)文本去??掉一些無(wú)意義的符號(hào)、錯(cuò)誤數(shù)據(jù)、URL等噪聲特征。??7??
?大連海事大學(xué)專業(yè)學(xué)位碩士學(xué)位論文???程中避免產(chǎn)生過(guò)擬合現(xiàn)象%,即在特定訓(xùn)練文本數(shù)據(jù)集上的分類性能十分顯著,但是在??訓(xùn)練數(shù)據(jù)集以外的未知數(shù)據(jù)集的性能十分差。??2.1.3特征分類??特征分類是對(duì)已經(jīng)提取的文本特征按照一定的規(guī)則劃分類別,最終得到預(yù)期的分類??結(jié)果,盡量減少分類誤差。例如一組已知的集合M={mumr__mn^照一定的規(guī)則映射到??一組預(yù)先給定的集合Dldudr-dn}?(n為分類總數(shù)),這種映射規(guī)則往往是建立一個(gè)分??類模型,如圖2.4所示。???>?分類模型??^???????????^?I?.??圖2.4特征分類映射示意圖??Fig.?2.4?Map?of?feature?classification??在機(jī)器學(xué)習(xí)中特征分類模型一般分為有監(jiān)督模型、無(wú)監(jiān)督模型。典型的機(jī)器學(xué)習(xí)模??型如圖2.5所示。??機(jī)器學(xué)習(xí)校???W監(jiān)督學(xué)>J模S?無(wú)ffi督學(xué)習(xí)校ffl??決裳?I丨"丨I?H?i?i??w造I樹(shù)-篇?n?%??圖2.5典型機(jī)器學(xué)習(xí)模型??Fig.?2.5?Typical?machine?learning?model??9??
【參考文獻(xiàn)】:
期刊論文
[1]在重大突發(fā)公共事件中傳統(tǒng)媒體如何應(yīng)對(duì)網(wǎng)絡(luò)輿情——以湖北廣電集團(tuán)抗擊新冠肺炎疫情宣傳為例[J]. 鄒靜. 當(dāng)代電視. 2020(04)
[2]CNNIC發(fā)布第44次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[J]. 于朝暉. 網(wǎng)信軍民融合. 2019(09)
[3]基于多部情感詞典和規(guī)則集的中文微博情感分析研究[J]. 吳杰勝,陸奎. 計(jì)算機(jī)應(yīng)用與軟件. 2019(09)
[4]基于Word2vec和改進(jìn)型TF-IDF的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型[J]. 王根生,黃學(xué)堅(jiān). 小型微型計(jì)算機(jī)系統(tǒng). 2019(05)
[5]基于ANP—灰色模糊的社交網(wǎng)絡(luò)輿情風(fēng)險(xiǎn)預(yù)警研究——以“重慶公交墜江事件”為例[J]. 陳培友,侯甜甜. 情報(bào)科學(xué). 2019(05)
[6]文本情感分析方法研究綜述[J]. 洪巍,李敏. 計(jì)算機(jī)工程與科學(xué). 2019(04)
[7]基于GloVe詞向量的“技術(shù)——應(yīng)用”發(fā)現(xiàn)研究[J]. 吉久明,施陳煒,李楠,康健. 現(xiàn)代情報(bào). 2019(04)
[8]中文分詞技術(shù)綜述[J]. 馮俐. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2018(34)
[9]基于熵權(quán)法的網(wǎng)絡(luò)輿情預(yù)警模糊綜合評(píng)價(jià)模型研究[J]. 武慧娟,張海濤,王盡暉,孫鴻飛,李澤中. 情報(bào)科學(xué). 2018(07)
[10]文本情感分析綜述[J]. 劉爽,趙景秀,楊紅亞,徐冠華. 軟件導(dǎo)刊. 2018(06)
碩士論文
[1]基于深度學(xué)習(xí)與自注意力機(jī)制的情感分類方法研究[D]. 祝元勃.西安理工大學(xué) 2019
[2]基于語(yǔ)義相似度的中文文本分類研究[D]. 李曉軍.西安電子科技大學(xué) 2017
[3]基于詞向量的標(biāo)簽語(yǔ)義推薦算法研究[D]. 黃聰.廣東工業(yè)大學(xué) 2015
[4]基于WEB數(shù)據(jù)挖掘技術(shù)的公安輿情監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 吳旭東.上海交通大學(xué) 2015
本文編號(hào):3350077
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3350077.html
最近更新
教材專著