基于深度學習的網(wǎng)絡輿情分析方法研究
發(fā)布時間:2021-08-18 14:40
隨著科技不斷的發(fā)展,互聯(lián)網(wǎng)對人們?nèi)粘I畹挠绊懸苍谌找嬖鰪?人們越來越傾向于在社交網(wǎng)絡上發(fā)布自己對一些事物的看法和意見。輿情分析可以快速判斷國民對重大事件的情感傾向,客觀表達社會輿論導向,有利于特定主管部門和政府機構(gòu)對輿情信息進行及時準確的管理和引導,維護社會的和諧安全。輿情信息大多來自于短文本評論信息,其文本脫離書面語言,結(jié)構(gòu)變得更加簡潔,缺乏規(guī)范性,常常給文本特征提取造成一定的難度。傳統(tǒng)的情感分析方法往往依靠情感詞典和特征提取,隨著互聯(lián)網(wǎng)文化和數(shù)據(jù)量不斷的更新和迭代,需要大量的人工對情感詞典進行更新,否則會造成語義特征丟失,分類不準確。本文在分析研究Attention機制和深度學習相關(guān)技術(shù)的基礎上,提出一種HAN-CLSTM模型對文本的深層次語義特征進行挖掘,能夠準確判斷其情感傾向。本文的主要研究工作包括如下幾部分:(1)根據(jù)CNN和LSTM在進行文本處理時的特點,CNN能夠更好的提取文本局部特征,LSTM可以保留文本歷史信息,有效提取序列的全局特征,為了使提取到的特征語義信息更加全面,將二者結(jié)合形成CLSTM模型。通過采用多組模型參數(shù)進行多次實驗對比,得到具有最優(yōu)參數(shù)的CLSTM...
【文章來源】:大連海事大學遼寧省 211工程院校
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
圖2.1基于情感詞典的文本情感分類流程??Fig.?2.1?Emotion?classification?process?of?text?based?on?emotion?dictionary??
?大連海事大學專業(yè)學位碩士學位論文?????.-BbW,?|預處理:?|特征提。海????開始?一>?—?*'<*,!丨.文本分一>?—?特征分類?—》分類結(jié)果?一^結(jié)*????丨據(jù)集?卜|?征?丨?|?|????圖2.2基于機器學習的文本情感分類流程??Fig.?2.2?Text?emotion?classification?process?based?on?machine?learning??2.1.1文本預處理??由于網(wǎng)上爬取的文本數(shù)據(jù)有許多無意義的html標簽、無意義的特殊詞語、符號、??表情、URL等。通過文本預處理使文本更加規(guī)范,去除一些噪聲數(shù)據(jù),將對文本分類有??用的詞語進行保留。文本預處理的處理過程如圖2.3所示。?? ̄^ ̄??丄??讀取文本數(shù)掘??標^^否??|統(tǒng)-^準編??碼格式??'?^__??提取文本字段??數(shù)據(jù)淸洗??分詞/去停用詞/??發(fā)現(xiàn)新詞??結(jié)束??圖2.3文本預處理流程??Fig.?2.3?Text?preprocessing?process??由于計算機程序處理文本時需要統(tǒng)一的文本編碼格式。如果文本數(shù)據(jù)集釆用的編碼??格式不統(tǒng)一,則需要轉(zhuǎn)化成統(tǒng)一的編碼格式。常見的文本標準化編碼格式有GBK編碼、??GB18030編碼、Unicode編碼等。對文本進行統(tǒng)一標準編碼格式后,再對文本進行字段??的解析提齲提取文本字段之后,需要對文本數(shù)據(jù)集進行“數(shù)據(jù)清洗”,對整個文本去??掉一些無意義的符號、錯誤數(shù)據(jù)、URL等噪聲特征。??7??
?大連海事大學專業(yè)學位碩士學位論文???程中避免產(chǎn)生過擬合現(xiàn)象%,即在特定訓練文本數(shù)據(jù)集上的分類性能十分顯著,但是在??訓練數(shù)據(jù)集以外的未知數(shù)據(jù)集的性能十分差。??2.1.3特征分類??特征分類是對已經(jīng)提取的文本特征按照一定的規(guī)則劃分類別,最終得到預期的分類??結(jié)果,盡量減少分類誤差。例如一組已知的集合M={mumr__mn^照一定的規(guī)則映射到??一組預先給定的集合Dldudr-dn}?(n為分類總數(shù)),這種映射規(guī)則往往是建立一個分??類模型,如圖2.4所示。???>?分類模型??^???????????^?I?.??圖2.4特征分類映射示意圖??Fig.?2.4?Map?of?feature?classification??在機器學習中特征分類模型一般分為有監(jiān)督模型、無監(jiān)督模型。典型的機器學習模??型如圖2.5所示。??機器學習校???W監(jiān)督學>J模S?無ffi督學習校ffl??決裳?I丨"丨I?H?i?i??w造I樹-篇?n?%??圖2.5典型機器學習模型??Fig.?2.5?Typical?machine?learning?model??9??
【參考文獻】:
期刊論文
[1]在重大突發(fā)公共事件中傳統(tǒng)媒體如何應對網(wǎng)絡輿情——以湖北廣電集團抗擊新冠肺炎疫情宣傳為例[J]. 鄒靜. 當代電視. 2020(04)
[2]CNNIC發(fā)布第44次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》[J]. 于朝暉. 網(wǎng)信軍民融合. 2019(09)
[3]基于多部情感詞典和規(guī)則集的中文微博情感分析研究[J]. 吳杰勝,陸奎. 計算機應用與軟件. 2019(09)
[4]基于Word2vec和改進型TF-IDF的卷積神經(jīng)網(wǎng)絡文本分類模型[J]. 王根生,黃學堅. 小型微型計算機系統(tǒng). 2019(05)
[5]基于ANP—灰色模糊的社交網(wǎng)絡輿情風險預警研究——以“重慶公交墜江事件”為例[J]. 陳培友,侯甜甜. 情報科學. 2019(05)
[6]文本情感分析方法研究綜述[J]. 洪巍,李敏. 計算機工程與科學. 2019(04)
[7]基于GloVe詞向量的“技術(shù)——應用”發(fā)現(xiàn)研究[J]. 吉久明,施陳煒,李楠,康健. 現(xiàn)代情報. 2019(04)
[8]中文分詞技術(shù)綜述[J]. 馮俐. 現(xiàn)代計算機(專業(yè)版). 2018(34)
[9]基于熵權(quán)法的網(wǎng)絡輿情預警模糊綜合評價模型研究[J]. 武慧娟,張海濤,王盡暉,孫鴻飛,李澤中. 情報科學. 2018(07)
[10]文本情感分析綜述[J]. 劉爽,趙景秀,楊紅亞,徐冠華. 軟件導刊. 2018(06)
碩士論文
[1]基于深度學習與自注意力機制的情感分類方法研究[D]. 祝元勃.西安理工大學 2019
[2]基于語義相似度的中文文本分類研究[D]. 李曉軍.西安電子科技大學 2017
[3]基于詞向量的標簽語義推薦算法研究[D]. 黃聰.廣東工業(yè)大學 2015
[4]基于WEB數(shù)據(jù)挖掘技術(shù)的公安輿情監(jiān)控系統(tǒng)的設計與實現(xiàn)[D]. 吳旭東.上海交通大學 2015
本文編號:3350077
【文章來源】:大連海事大學遼寧省 211工程院校
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
圖2.1基于情感詞典的文本情感分類流程??Fig.?2.1?Emotion?classification?process?of?text?based?on?emotion?dictionary??
?大連海事大學專業(yè)學位碩士學位論文?????.-BbW,?|預處理:?|特征提。海????開始?一>?—?*'<*,!丨.文本分一>?—?特征分類?—》分類結(jié)果?一^結(jié)*????丨據(jù)集?卜|?征?丨?|?|????圖2.2基于機器學習的文本情感分類流程??Fig.?2.2?Text?emotion?classification?process?based?on?machine?learning??2.1.1文本預處理??由于網(wǎng)上爬取的文本數(shù)據(jù)有許多無意義的html標簽、無意義的特殊詞語、符號、??表情、URL等。通過文本預處理使文本更加規(guī)范,去除一些噪聲數(shù)據(jù),將對文本分類有??用的詞語進行保留。文本預處理的處理過程如圖2.3所示。?? ̄^ ̄??丄??讀取文本數(shù)掘??標^^否??|統(tǒng)-^準編??碼格式??'?^__??提取文本字段??數(shù)據(jù)淸洗??分詞/去停用詞/??發(fā)現(xiàn)新詞??結(jié)束??圖2.3文本預處理流程??Fig.?2.3?Text?preprocessing?process??由于計算機程序處理文本時需要統(tǒng)一的文本編碼格式。如果文本數(shù)據(jù)集釆用的編碼??格式不統(tǒng)一,則需要轉(zhuǎn)化成統(tǒng)一的編碼格式。常見的文本標準化編碼格式有GBK編碼、??GB18030編碼、Unicode編碼等。對文本進行統(tǒng)一標準編碼格式后,再對文本進行字段??的解析提齲提取文本字段之后,需要對文本數(shù)據(jù)集進行“數(shù)據(jù)清洗”,對整個文本去??掉一些無意義的符號、錯誤數(shù)據(jù)、URL等噪聲特征。??7??
?大連海事大學專業(yè)學位碩士學位論文???程中避免產(chǎn)生過擬合現(xiàn)象%,即在特定訓練文本數(shù)據(jù)集上的分類性能十分顯著,但是在??訓練數(shù)據(jù)集以外的未知數(shù)據(jù)集的性能十分差。??2.1.3特征分類??特征分類是對已經(jīng)提取的文本特征按照一定的規(guī)則劃分類別,最終得到預期的分類??結(jié)果,盡量減少分類誤差。例如一組已知的集合M={mumr__mn^照一定的規(guī)則映射到??一組預先給定的集合Dldudr-dn}?(n為分類總數(shù)),這種映射規(guī)則往往是建立一個分??類模型,如圖2.4所示。???>?分類模型??^???????????^?I?.??圖2.4特征分類映射示意圖??Fig.?2.4?Map?of?feature?classification??在機器學習中特征分類模型一般分為有監(jiān)督模型、無監(jiān)督模型。典型的機器學習模??型如圖2.5所示。??機器學習校???W監(jiān)督學>J模S?無ffi督學習校ffl??決裳?I丨"丨I?H?i?i??w造I樹-篇?n?%??圖2.5典型機器學習模型??Fig.?2.5?Typical?machine?learning?model??9??
【參考文獻】:
期刊論文
[1]在重大突發(fā)公共事件中傳統(tǒng)媒體如何應對網(wǎng)絡輿情——以湖北廣電集團抗擊新冠肺炎疫情宣傳為例[J]. 鄒靜. 當代電視. 2020(04)
[2]CNNIC發(fā)布第44次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》[J]. 于朝暉. 網(wǎng)信軍民融合. 2019(09)
[3]基于多部情感詞典和規(guī)則集的中文微博情感分析研究[J]. 吳杰勝,陸奎. 計算機應用與軟件. 2019(09)
[4]基于Word2vec和改進型TF-IDF的卷積神經(jīng)網(wǎng)絡文本分類模型[J]. 王根生,黃學堅. 小型微型計算機系統(tǒng). 2019(05)
[5]基于ANP—灰色模糊的社交網(wǎng)絡輿情風險預警研究——以“重慶公交墜江事件”為例[J]. 陳培友,侯甜甜. 情報科學. 2019(05)
[6]文本情感分析方法研究綜述[J]. 洪巍,李敏. 計算機工程與科學. 2019(04)
[7]基于GloVe詞向量的“技術(shù)——應用”發(fā)現(xiàn)研究[J]. 吉久明,施陳煒,李楠,康健. 現(xiàn)代情報. 2019(04)
[8]中文分詞技術(shù)綜述[J]. 馮俐. 現(xiàn)代計算機(專業(yè)版). 2018(34)
[9]基于熵權(quán)法的網(wǎng)絡輿情預警模糊綜合評價模型研究[J]. 武慧娟,張海濤,王盡暉,孫鴻飛,李澤中. 情報科學. 2018(07)
[10]文本情感分析綜述[J]. 劉爽,趙景秀,楊紅亞,徐冠華. 軟件導刊. 2018(06)
碩士論文
[1]基于深度學習與自注意力機制的情感分類方法研究[D]. 祝元勃.西安理工大學 2019
[2]基于語義相似度的中文文本分類研究[D]. 李曉軍.西安電子科技大學 2017
[3]基于詞向量的標簽語義推薦算法研究[D]. 黃聰.廣東工業(yè)大學 2015
[4]基于WEB數(shù)據(jù)挖掘技術(shù)的公安輿情監(jiān)控系統(tǒng)的設計與實現(xiàn)[D]. 吳旭東.上海交通大學 2015
本文編號:3350077
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3350077.html
最近更新
教材專著