基于用戶社交關(guān)系的微博情感分類模型研究

發(fā)布時間：2020-10-26 17:54

　　隨著IT技術(shù)的飛速發(fā)展,特別是Twitter和新浪微博等社交網(wǎng)絡(luò)平臺的興起和蓬勃發(fā)展,微博文本情感分析(Microblog Sentiment Analysis,MSA)已成為一項熱門的研究課題。然而,由于微博文本普遍篇幅短小,信息量少、數(shù)據(jù)噪聲大等特點,給傳統(tǒng)思維下的針對純內(nèi)容的文本情感分析方法帶來極大的挑戰(zhàn)。事實上,在線社交網(wǎng)絡(luò)節(jié)點間存在大量鏈接結(jié)構(gòu),用戶的情感和觀點常常不自覺地受到其他用戶節(jié)點的影響。近期研究表明,微博文本情感分析不再局限于傳統(tǒng)的基于純內(nèi)容的分析,考慮融合有效的社交信息將有助于MSA取得更優(yōu)效果。而web2.0鼎盛時期的到來,使得社交用戶之間交互更加頻繁、社交關(guān)系更加復(fù)雜緊密、情感交流和情緒影響更為普遍。同時,根據(jù)同質(zhì)性和影響力等社會學(xué)理論可知,存在相似關(guān)系和影響關(guān)系的社交用戶往往會對于某些事物或事實有相似的觀點。因此,本文提出基于用戶相似性(User Similarity)和用戶影響力(User Influence)社交關(guān)系的微博文本情感分類模型(MSA-USUI模型)。根據(jù)社交網(wǎng)路節(jié)點相似性度量方法以及微博用戶信息特性,提出分別從用戶節(jié)點的網(wǎng)絡(luò)結(jié)構(gòu)、用戶基本信息和用戶興趣三個維度來綜合度量微博用戶相似性關(guān)系;根據(jù)在線社交網(wǎng)絡(luò)節(jié)點間影響力分析和度量方法以及微博用戶行為特性,提出分別從好友關(guān)系和用戶間互動行為兩個角度來綜合度量微博用戶間影響力關(guān)系。在基于微博文本內(nèi)容建模基礎(chǔ)上,本文利用基于相似性關(guān)系和影響關(guān)系的用戶社交關(guān)系構(gòu)建微博文本間情感關(guān)系,并用“博文-博文”間情感關(guān)系進(jìn)一步優(yōu)化訓(xùn)練微博文本情感分類模型;對可能出現(xiàn)的過擬合問題進(jìn)行處理,最終給出模型求解算法。最后,本研究通過python爬蟲獲取兩個新浪微博數(shù)據(jù)集對模型進(jìn)行實驗驗證,實驗結(jié)果表明:MSA-USUI模型具有比支持向量機(jī)和目前先進(jìn)的監(jiān)督模型SANT有更好的微博情感分類效果。此外,實驗結(jié)果還證明融合用戶間影響社交關(guān)系信息帶來的微博情感分類正確率和F1值提高大于融合用戶間相似性關(guān)系信息,但當(dāng)同時合理融合用戶相似性關(guān)系信息和用戶影響關(guān)系信息時,MSA-USUI模型的分類效果達(dá)到最優(yōu)。
【學(xué)位單位】：南京航空航天大學(xué)
【學(xué)位級別】：碩士
【學(xué)位年份】：2018
【中圖分類】：C912.3
【部分圖文】：

示意圖,情感,情感分析,文本

”、“于”、“也”、“會”之類的虛詞。因此，在分詞處理之后，需進(jìn)一步通過表來去除這些無用詞，以達(dá)到降低特征空間維度，減少分類運算復(fù)雜度的目的。用詞表最早是由語言學(xué)專家通過其語言學(xué)知識主觀判斷得到的，但目前也有通過方法自動構(gòu)建停用詞表，二者方法均有利弊。盡管目前已有較為成熟的通用中文停用若直接應(yīng)用在特定領(lǐng)域上，可能會給后續(xù)自然語言分析帶來負(fù)面影響。而，在實際處理的過程中，研究者們通常采取在已有的中文停用詞表的基礎(chǔ)上，進(jìn)充和完善。目前，已存在不少成熟的中文停用詞詞庫，如“哈工大停用詞詞庫”、詞詞庫”。文本情感分類的方法.1 基于情感詞典的文本情感計算于情感詞典的情感計算是：利用己有語義詞典資源構(gòu)建領(lǐng)域詞典，再通過比對情包含的正向情感詞、負(fù)向情感詞，標(biāo)記正、負(fù)整數(shù)值作為情感值，同時也要考慮一性規(guī)則、句法結(jié)構(gòu)對情感判斷的影響，如否定句、遞進(jìn)句、轉(zhuǎn)折句等。該方法需要情感詞典。

示意圖,情感分析,文本,機(jī)器學(xué)習(xí)

圖 2.2 基于機(jī)器學(xué)習(xí)的文本情感分析的流程示意圖（1）情感特征的選擇。在特征選擇的過程中，計算信息增益值是度量特征項重要程度的方法之一，它反映了特征項在文檔中出現(xiàn)與否對文本情感分類的影響。如果某個特征項 T 的信息增益值越大，說明它對文本分類的貢獻(xiàn)就越大，就應(yīng)選擇此特征項 T 作為文本分類的特征。信息增益的計算公式如下（2.2-2.4）：IG(T) = H(C) H(C T) (2.2H(C) = (C ) (C ) (2.3H(C T) = (T) (C T) (C T) (T ) (C T ) (C T ) (2.4其中， C 表示文本類別集合，n 表示類別的個數(shù)，C 表示一個文本類別，T 表示文本中的一個特征項， (C )表示類別為C 的文本概率， (T)表示使用了特征項 T 的文本概率， (T )表示沒有使用特征項 T 的文本概率， (C T)和 (C T )分別表示使用特征項 T 前后的條件下文本屬于類別C 的概率。（2）情感特征的權(quán)重量化。利用特征選擇的方法選擇對文本情感分類影響大的特征后，需

向量空間模型,構(gòu)造過程

TF(T)=該文檔中所有特征項出現(xiàn)的數(shù)目IDF(T)= log (文本集合中所有文檔的總數(shù)包含特征項 T 的文檔的數(shù)目+ρ) TF-IDF(T)= TF(T)× IDF(T) 中，為了避免分母為了 0，所以增加參數(shù) ，值為一經(jīng)驗所得，通常取 0.01、0.1 或者（3）情感特征的結(jié)構(gòu)表示模型。不同文本分析任務(wù)可采用不同文本表示模型，目前感分析任務(wù)中常用的是向量空間（Vector Space Model，VSM）模型，又稱“詞袋”（rds）模型，是在 1975 年由 Salton、Wong 和 Yang 等人提出的，其主要的思想是：將每本(document)表示為向量空間的一個向量(Vector)，向量空間中每一個維度對應(yīng)一個不項/詞條(term)，而每一個維的數(shù)值就是對應(yīng)特征項在文本中的權(quán)重(Weight)。即，給定本集合 D ={ , , , }，文本 di可以表示為： di= (t1, w1),(t , w2), ,(tm, wm) j=1，2， ,m 為文檔 di中的特征項，w 為的權(quán)重，因而也作， di= wj1, wj , , w下圖 2.3 所示。若該特征項出現(xiàn)在文檔中，則權(quán)重值設(shè)為 1，如若不出現(xiàn)，權(quán)重值設(shè)為空間模型，表示方法簡單，易于處理。
【參考文獻(xiàn)】

相關(guān)期刊論文前10條

1 唐曉波;梁夢婕;;融合結(jié)構(gòu)與內(nèi)容特征的微博沉默用戶興趣模型構(gòu)建研究[J];情報學(xué)報;2015年11期

2 吳樹芳;徐建民;武曉波;;融合用戶標(biāo)簽和關(guān)系的微博用戶相似性度量[J];情報雜志;2014年12期

3 田秀霞;宋羊力;朱濤;王曉玲;;基于用戶相似度度量的有效社區(qū)Leader選舉方法[J];燕山大學(xué)學(xué)報;2014年06期

4 齊超;陳鴻昶;于洪濤;;基于用戶行為綜合分析的微博用戶影響力評價方法[J];計算機(jī)應(yīng)用研究;2014年07期

5 徐志明;李棟;劉挺;李生;王剛;袁樹侖;;微博用戶的相似性度量及其應(yīng)用[J];計算機(jī)學(xué)報;2014年01期

6 葉璐;;微博中的負(fù)面情緒傳播分析[J];今傳媒;2012年02期

7 謝麗星;周明;孫茂松;;基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J];中文信息學(xué)報;2012年01期

8 宋曉雷;王素格;李紅霞;李德玉;;基于概率潛在語義分析的詞匯情感傾向判別[J];中文信息學(xué)報;2011年02期

9 趙妍妍;秦兵;劉挺;;文本情感分析[J];軟件學(xué)報;2010年08期

10 陶富民;高軍;王騰蛟;周凱;;面向話題的新聞評論的情感特征選取[J];中文信息學(xué)報;2010年03期

相關(guān)博士學(xué)位論文前1條

1 余永紅;融合多源信息的推薦算法研究[D];南京大學(xué);2017年

相關(guān)碩士學(xué)位論文前5條

1 沈磊;基于規(guī)則與機(jī)器學(xué)習(xí)方法的中文微博情感分析研究[D];安徽大學(xué);2015年

2 康海瀟;基于標(biāo)簽的微博用戶興趣發(fā)現(xiàn)算法研究及應(yīng)用[D];浙江大學(xué);2013年

3 陳曉東;基于情感詞典的中文微博情感傾向分析研究[D];華中科技大學(xué);2012年

4 鄧夏瑋;基于社交網(wǎng)絡(luò)的用戶行為研究[D];北京交通大學(xué);2012年

5 王宇;基于搜索歷史的用戶興趣建模[D];復(fù)旦大學(xué);2011年

本文編號：2857319

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/shekelunwen/shgj/2857319.html

上一篇：網(wǎng)絡(luò)社交的倫理問題研究
下一篇：家庭社會資本對子女受教育程度的影響研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于用戶社交關(guān)系的微博情感分類模型研究