基于用戶社交關(guān)系的微博情感分類模型研究
【學(xué)位單位】:南京航空航天大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:C912.3
【部分圖文】:
”、“于”、“也”、“會”之類的虛詞。因此,在分詞處理之后,需進(jìn)一步通過表來去除這些無用詞,以達(dá)到降低特征空間維度,減少分類運算復(fù)雜度的目的。用詞表最早是由語言學(xué)專家通過其語言學(xué)知識主觀判斷得到的,但目前也有通過方法自動構(gòu)建停用詞表,二者方法均有利弊。盡管目前已有較為成熟的通用中文停用若直接應(yīng)用在特定領(lǐng)域上,可能會給后續(xù)自然語言分析帶來負(fù)面影響。而,在實際處理的過程中,研究者們通常采取在已有的中文停用詞表的基礎(chǔ)上,進(jìn)充和完善。目前,已存在不少成熟的中文停用詞詞庫,如“哈工大停用詞詞庫”、詞詞庫”。 文本情感分類的方法.1 基于情感詞典的文本情感計算于情感詞典的情感計算是:利用己有語義詞典資源構(gòu)建領(lǐng)域詞典,再通過比對情包含的正向情感詞、負(fù)向情感詞,標(biāo)記正、負(fù)整數(shù)值作為情感值,同時也要考慮一性規(guī)則、句法結(jié)構(gòu)對情感判斷的影響,如否定句、遞進(jìn)句、轉(zhuǎn)折句等。該方法需要情感詞典。
圖 2.2 基于機(jī)器學(xué)習(xí)的文本情感分析的流程示意圖(1) 情感特征的選擇。在特征選擇的過程中,計算信息增益值是度量特征項重要程度的方法之一,它反映了特征項在文檔中出現(xiàn)與否對文本情感分類的影響。如果某個特征項 T 的信息增益值越大,說明它對文本分類的貢獻(xiàn)就越大,就應(yīng)選擇此特征項 T 作為文本分類的特征。信息增益的計算公式如下(2.2-2.4):IG(T) = H(C) H(C T) (2.2H(C) = (C ) (C ) (2.3H(C T) = (T) (C T) (C T) (T ) (C T ) (C T ) (2.4其中, C 表示文本類別集合,n 表示類別的個數(shù),C 表示一個文本類別,T 表示文本中的一個特征項, (C )表示類別為C 的文本概率, (T)表示使用了特征項 T 的文本概率, (T )表示沒有使用特征項 T 的文本概率, (C T)和 (C T )分別表示使用特征項 T 前后的條件下文本屬于類別C 的概率。(2) 情感特征的權(quán)重量化。利用特征選擇的方法選擇對文本情感分類影響大的特征后,需
TF(T)=該文檔中所有特征項出現(xiàn)的數(shù)目IDF(T)= log (文本集合中所有文檔的總數(shù)包含特征項 T 的文檔的數(shù)目+ρ) TF-IDF(T)= TF(T)× IDF(T) 中,為了避免分母為了 0,所以增加參數(shù) , 值為一經(jīng)驗所得,通常取 0.01、0.1 或者(3) 情感特征的結(jié)構(gòu)表示模型。不同文本分析任務(wù)可采用不同文本表示模型,目前感分析任務(wù)中常用的是向量空間(Vector Space Model,VSM)模型,又稱“詞袋”(rds)模型,是在 1975 年由 Salton、Wong 和 Yang 等人提出的,其主要的思想是:將每本(document)表示為向量空間的一個向量(Vector),向量空間中每一個維度對應(yīng)一個不項/詞條(term),而每一個維的數(shù)值就是對應(yīng)特征項在文本中的權(quán)重(Weight)。即,給定本集合 D ={ , , , },文本 di可以表示為: di= (t1, w1),(t , w2), ,(tm, wm) j=1,2, ,m 為文檔 di中的特征項,w 為 的權(quán)重,因而也作, di= wj1, wj , , w下圖 2.3 所示。若該特征項出現(xiàn)在文檔中,則權(quán)重值設(shè)為 1,如若不出現(xiàn),權(quán)重值設(shè)為空間模型,表示方法簡單,易于處理。
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 唐曉波;梁夢婕;;融合結(jié)構(gòu)與內(nèi)容特征的微博沉默用戶興趣模型構(gòu)建研究[J];情報學(xué)報;2015年11期
2 吳樹芳;徐建民;武曉波;;融合用戶標(biāo)簽和關(guān)系的微博用戶相似性度量[J];情報雜志;2014年12期
3 田秀霞;宋羊力;朱濤;王曉玲;;基于用戶相似度度量的有效社區(qū)Leader選舉方法[J];燕山大學(xué)學(xué)報;2014年06期
4 齊超;陳鴻昶;于洪濤;;基于用戶行為綜合分析的微博用戶影響力評價方法[J];計算機(jī)應(yīng)用研究;2014年07期
5 徐志明;李棟;劉挺;李生;王剛;袁樹侖;;微博用戶的相似性度量及其應(yīng)用[J];計算機(jī)學(xué)報;2014年01期
6 葉璐;;微博中的負(fù)面情緒傳播分析[J];今傳媒;2012年02期
7 謝麗星;周明;孫茂松;;基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J];中文信息學(xué)報;2012年01期
8 宋曉雷;王素格;李紅霞;李德玉;;基于概率潛在語義分析的詞匯情感傾向判別[J];中文信息學(xué)報;2011年02期
9 趙妍妍;秦兵;劉挺;;文本情感分析[J];軟件學(xué)報;2010年08期
10 陶富民;高軍;王騰蛟;周凱;;面向話題的新聞評論的情感特征選取[J];中文信息學(xué)報;2010年03期
相關(guān)博士學(xué)位論文 前1條
1 余永紅;融合多源信息的推薦算法研究[D];南京大學(xué);2017年
相關(guān)碩士學(xué)位論文 前5條
1 沈磊;基于規(guī)則與機(jī)器學(xué)習(xí)方法的中文微博情感分析研究[D];安徽大學(xué);2015年
2 康海瀟;基于標(biāo)簽的微博用戶興趣發(fā)現(xiàn)算法研究及應(yīng)用[D];浙江大學(xué);2013年
3 陳曉東;基于情感詞典的中文微博情感傾向分析研究[D];華中科技大學(xué);2012年
4 鄧夏瑋;基于社交網(wǎng)絡(luò)的用戶行為研究[D];北京交通大學(xué);2012年
5 王宇;基于搜索歷史的用戶興趣建模[D];復(fù)旦大學(xué);2011年
本文編號:2857319
本文鏈接:http://sikaile.net/shekelunwen/shgj/2857319.html