天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機應(yīng)用論文 >

基于融合表情符號的兩級注意力機制網(wǎng)絡(luò)的情感分析

發(fā)布時間:2021-06-23 15:48
  隨著社交媒體發(fā)展的重心從PC端轉(zhuǎn)向移動終端,自媒體的發(fā)展也進入了新的階段。越來越多的人成為網(wǎng)絡(luò)內(nèi)容的生產(chǎn)者,人們也越來越傾向于在微博等社交媒體上表達自己的觀點和意見。對用戶發(fā)布的這些內(nèi)容進行數(shù)據(jù)挖掘或情感分析,不僅有助于企業(yè)進行決策,也可以幫助政府進行輿情管理和政策制定,具有顯著的商業(yè)價值和社會意義。情感分析作為自然語言處理領(lǐng)域的一個重要分支,已有大量國內(nèi)外學(xué)者進行了研究,除了計算機學(xué)科的研究工作人員,還吸引了大量社會學(xué)和計算機學(xué)等交叉學(xué)科的研究者。傳統(tǒng)的情感分析方法大致可以歸類為基于詞典或規(guī)則的方法以及機器學(xué)習(xí)的方法。前者需要耗費大量的人力資源,同時,由于網(wǎng)絡(luò)用語演變速度極快,給詞典的維護帶來了困難,故而該類方法在實際應(yīng)用中存在一定局限,一般作為輔助手段。后者十分依賴人工進行的特征工程,訓(xùn)練出的模型泛化能力比較差,無法滿足跨領(lǐng)域的情感分析需求。而近年來深度學(xué)習(xí)方法發(fā)展迅速,其不僅可以自動學(xué)習(xí)數(shù)據(jù)特征,而且一些網(wǎng)絡(luò)因其結(jié)構(gòu)的優(yōu)越性十分適合用于文本分析。以微博和Twitter為例,當(dāng)前的大部分深度學(xué)習(xí)方法往往只關(guān)注單一的文本信息,而忽略了含有重要情感線索的其他媒體信息(例:等表情符號)。... 

【文章來源】:上海師范大學(xué)上海市

【文章頁數(shù)】:75 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于融合表情符號的兩級注意力機制網(wǎng)絡(luò)的情感分析


情感分析流程圖

序列,向量


第3章多維度表情符號表示模型上海師范大學(xué)碩士學(xué)位論文28長度為T的文本序列,設(shè)處在時間步t的詞語為#,假設(shè)在中心詞確定的情況下,背景詞的生成互相獨立,則當(dāng)上下文窗口大小為m時,Skip-gram模型需要求解的函數(shù)其實就是:mmP: #9:n#;";<:<;,:>?1#4&公式(33)整體的訓(xùn)練流程如下:首先使用中文分詞工具——jieba分詞9對所有語料進行分詞,使用的停用詞表是哈工大的HIT-stopwords,最后得到大約1億詞(包含重復(fù)詞),去重后得到大約170萬個詞語,然后使用著名的python開源自然語言處理庫gensim中的Word2Vec算法實現(xiàn)進行訓(xùn)練,設(shè)置詞嵌入的維度為300d,窗口大小為5,最小出現(xiàn)頻次為5(可以過濾掉一些低頻詞語,將詞嵌入向量個數(shù)保持在可控范圍內(nèi)),迭代訓(xùn)練次數(shù)35次。同時,為了加速訓(xùn)練,使用了hierarchicalsoftmax(層次softmax函數(shù))而不是負(fù)采樣(NegativeSampling)函數(shù)進行求解。使用的訓(xùn)練平臺是Windows10系統(tǒng),python3.7語言版本,NVIDIAGTX1080Ti顯卡。最后訓(xùn)練得到了大約38萬個詞嵌入向量,對訓(xùn)練結(jié)果進行測試,結(jié)果如圖:圖3-2持詞嵌向量加減運算9https://github.com/fxsjy/jieba

嵌入維,降維,可視,詞語


上海師范大學(xué)碩士學(xué)位論文第3章多維度表情符號表示模型29圖3-3詞嵌相似度從上述兩張圖可以看到,Word2vec訓(xùn)練的詞向量不僅支持通過數(shù)字表征的語義加減運算,即“開心”和“高興”之間的關(guān)系等同于“難過”和“郁悶”之間的關(guān)系,還可以體現(xiàn)詞語之間的相似度關(guān)系,例如:與“開心”最相近的詞語有“高興”,“快樂”,“幸!保伴_森”等。圖3-4可視化詞嵌另外還可以將詞嵌入進行降維,使用TSNE算法將詞嵌入維度由300維降至2維,在二維平面坐標(biāo)系中進行可視化處理,如圖3-4所示。從圖中我們可以很明顯看到,關(guān)聯(lián)度高的詞語聚集得更密集,而關(guān)聯(lián)度不高詞語之間的距離明顯更大。例如:圖3-4右上角的“有毒”,“英語”,“化學(xué)”,“期末”這四個詞明顯都是在表達期末考試相關(guān)的主題,左下角的“心累”,“停下來”,“閑下來”這組詞語明顯是在表達人物心情相關(guān)的主題,以及“座位”,“列車”,“后排”明顯是坐火車場景下的主題。此外,那些相關(guān)性不高的詞語也有所體現(xiàn),上圖中最外側(cè)一圈的詞嵌入對應(yīng)的詞語,例如“睫毛”,“美如畫”等。所以詞嵌入可以很好體現(xiàn)詞語之間的關(guān)系,其攜帶有一定的語義信息,可以作為詞語的初始表示,是一種非常有效的文本特征表示。除了Google提供的Word2Vec工具,訓(xùn)練詞嵌入的工具還有FaceBook的fastText[68][69]以及斯坦福大學(xué)提出的Glove[70]等。其中,相對于Word2vec,fastText

【參考文獻】:
期刊論文
[1]基于表情符注意力機制的微博情感分析模型[J]. 譚皓,鄧樹文,錢濤,姬東鴻.  計算機應(yīng)用研究. 2019(09)
[2]中文微博情感分析研究與實現(xiàn)[J]. 李勇敢,周學(xué)廣,孫艷,張煥國.  軟件學(xué)報. 2017 (12)
[3]基于情感分析和LDA主題模型的協(xié)同過濾推薦算法[J]. 彭敏,席俊杰,代心媛,何炎祥.  中文信息學(xué)報. 2017(02)
[4]用于微博情感分析的一種情感語義增強的深度學(xué)習(xí)模型[J]. 何炎祥,孫松濤,牛菲菲,李飛.  計算機學(xué)報. 2017(04)
[5]基于統(tǒng)計數(shù)據(jù)的微博表情符分析及其在情緒分析中的應(yīng)用[J]. 劉寶芹,牛耘,張景.  計算機工程與科學(xué). 2016(03)
[6]基于微博表情符號的情感詞典構(gòu)建研究[J]. 桂斌,楊小平,張中夏,肖文韜.  北京理工大學(xué)學(xué)報. 2014(05)



本文編號:3245221

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3245221.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶fb3d4***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com