天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于領(lǐng)域詞典與機(jī)器學(xué)習(xí)的中文評論情感分析

發(fā)布時間:2021-03-04 07:45
  隨著互聯(lián)網(wǎng)日新月異的發(fā)展,以微博、論壇和電商為代表的線上平臺正在崛起。人們越來越習(xí)慣于在這些平臺上發(fā)表對實事熱點的觀點以及對產(chǎn)品的使用感受,這一現(xiàn)象使得評論數(shù)據(jù)爆炸式增長。在這些評論中,大量對于商家、賣家以及政府有價值的情感信息蘊(yùn)含其中,如何提取并應(yīng)用這些情感信息使得情感分析應(yīng)運(yùn)而生;谠~典的情感分析方法作為情感分析最基礎(chǔ)的方法,對于特定領(lǐng)域通常沒有非常合適的詞典可以使用,其打分規(guī)則也有待優(yōu)化。因此本文基于SO-PMI算法構(gòu)建了酒店領(lǐng)域情感詞典,基于中文語法結(jié)構(gòu)提出一套打分規(guī)則。對預(yù)處理之后的數(shù)據(jù)結(jié)合多種詞典進(jìn)行情感權(quán)值計算,按照打分規(guī)則得到句子情感得分從而判斷句子情感極性。實驗證明,所提出的基于情感詞典的情感分析方法有較高的準(zhǔn)確率。在中文文本中語境復(fù)雜,常常存在一詞多義的現(xiàn)象,使得基于情感詞典的情感分析方法會產(chǎn)生一定的誤差。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的高性能方法,可以在語境復(fù)雜的中文文本中有更好的表現(xiàn)力,而取得這樣的表現(xiàn)是在構(gòu)造出優(yōu)秀的中文詞向量的前提下。因此本文基于維基中文數(shù)據(jù)集,利用Word2Vec工具構(gòu)造了一套適用于所有中文的詞向量。在對比實驗中,所構(gòu)建出的中文詞向量具有不錯的表現(xiàn)... 

【文章來源】:南京郵電大學(xué)江蘇省

【文章頁數(shù)】:62 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于領(lǐng)域詞典與機(jī)器學(xué)習(xí)的中文評論情感分析


結(jié)巴分詞后部分展示

效果圖,效果圖


4.二層神經(jīng)網(wǎng)絡(luò)核函數(shù)基本模型為特征空間上的間隔最大的線性分類器,其學(xué)習(xí)策略便是間隔最大化圖 4.6 SVM 模型特點驗 實驗步驟驗的開發(fā)環(huán)境為 windows下的Python2.7 版本,實驗的實現(xiàn)需要加載例如:Jieba,learn,Pandas,Numpy 等許多著名的第三方模塊。實驗采用中科院發(fā)布的中文停與第三章相同的中文酒店評論集,包含 5000 條積極評論與 5000 條消極評論。次實驗采用 Jieba 分詞對語料進(jìn)行分詞處理,在處理之前需要對語料以及停詞文理,再對文本進(jìn)行字母、特殊符號及數(shù)字的處理,效果如下圖所示:

文件,特征詞,語料,向量


南京郵電大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文 第四章中文詞向量的構(gòu)建方法在分詞完成后,讀取中文停用詞表,遍歷分詞后的句子,將每個分詞后的詞語放入表中進(jìn)行匹配,如果此詞在表中存在則替換為空,即可完成去停用詞步驟。經(jīng)過上述操作后得到正負(fù)評論語料的特征詞,為使模型的輸入為計算機(jī)語言,將由詞匯組成的每條文本采用 Word2Vec 詞向量模型轉(zhuǎn)化成向量。特征詞向量的選取需要基于已訓(xùn)練完成的詞向量模型,本實驗擬從維基中文大型語料中生成詞向量,從而抽取酒店評論語料的特征值向量。獲取特征詞向量的主要步驟如下:①讀取模型詞向量矩陣;②遍歷每條評論中的每個詞匯,在模型詞向量矩陣中尋找到當(dāng)前詞匯的向量,每條評論得到一個二維矩陣。行為詞的數(shù)量,列為模型之前設(shè)定的維數(shù);③把得到的矩陣進(jìn)行均值計算作為當(dāng)前評論語句的特征詞向量;④在所有評論語句計算完成后,拼接語句類別代表的值,寫入 csv 文件。獲得的詞向量部分截圖如下圖所示:

【參考文獻(xiàn)】:
期刊論文
[1]基于詞向量與句法樹的中文句子情感分析[J]. 相若晨,孫美鳳.  計算機(jī)與現(xiàn)代化. 2016(08)
[2]Study of Sentiment Classification for Chinese Microblog Based on Recurrent Neural Network[J]. ZHANG Yangsen,JIANG Yuru,TONG Yixuan.  Chinese Journal of Electronics. 2016(04)
[3]基于word embedding和CNN的情感分類模型[J]. 蔡慧蘋,王麗丹,段書凱.  計算機(jī)應(yīng)用研究. 2016(10)
[4]基于POS-CBOW語言模型的相似詞分析[J]. 阮冬茹,潘洪巖,高凱.  河北科技大學(xué)學(xué)報. 2015(05)
[5]基于極性轉(zhuǎn)移和LSTM遞歸網(wǎng)絡(luò)的情感分析[J]. 梁軍,柴玉梅,原慧斌,高明磊,昝紅英.  中文信息學(xué)報. 2015(05)
[6]基于平滑SO-PMI算法的微博情感詞典構(gòu)建方法研究[J]. 杜銳,朱艷輝,田海龍,劉璟,馬進(jìn).  湖南工業(yè)大學(xué)學(xué)報. 2015(05)
[7]利用word2vec對中文詞進(jìn)行聚類的研究[J]. 鄭文超,徐鵬.  軟件. 2013(12)
[8]中文微博情感分析研究綜述[J]. 周勝臣,瞿文婷,石英子,施詢之,孫韻辰.  計算機(jī)應(yīng)用與軟件. 2013(03)
[9]基于權(quán)值算法的中文情感分析系統(tǒng)研究與實現(xiàn)[J]. 張昊旻,石博瑩,劉栩宏.  計算機(jī)應(yīng)用研究. 2012(12)
[10]基于主題情感混合模型的無監(jiān)督文本情感分析[J]. 孫艷,周學(xué)廣,付偉.  北京大學(xué)學(xué)報(自然科學(xué)版). 2013(01)

博士論文
[1]支持向量機(jī)算法的研究及其應(yīng)用[D]. 范昕煒.浙江大學(xué) 2003

碩士論文
[1]基于情感詞典拓展和詞向量的中文情感分析技術(shù)的研究[D]. 丁卜建.遼寧大學(xué) 2016
[2]基于Word2Vec語言模型與圖核設(shè)計的文本分類研究[D]. 袁艷紅.西南大學(xué) 2016
[3]基于深度學(xué)習(xí)的情感詞向量及文本情感分析的研究[D]. 張志華.華東師范大學(xué) 2016
[4]基于word2vec和SVMperf的網(wǎng)絡(luò)中文文本評論信息情感分類研究[D]. 蘇增才.河北科技大學(xué) 2015
[5]基于Twitter的情感分析相關(guān)問題研究[D]. 朱婧.武漢理工大學(xué) 2014
[6]中文文本分類中互信息特征選擇方法研究[D]. 鄧彩鳳.西南大學(xué) 2011



本文編號:3062834

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3062834.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cf175***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com