面向中文微博文本的情感分類研究
發(fā)布時間:2019-07-18 05:52
【摘要】:隨著網(wǎng)絡(luò)媒體的迅猛發(fā)展,以微博為代表的信息發(fā)布與信息共享平臺得到了普遍應(yīng)用。在微博平臺中包含著表明用戶觀點或態(tài)度的主觀情感傾向性文本,主觀情感傾向性微博在輿情監(jiān)控、熱點檢測等領(lǐng)域具有潛在的應(yīng)用價值。如何從微博中自動識別表明用戶觀點的主觀微博文本,并判斷該主觀微博的情感傾向性成為本文研究的目的。 本文以中文微博情感分類為主線,展開了如下研究工作: (1)對微博情感詞典的構(gòu)建方法進行了研究。首先對現(xiàn)有情感詞典在微博情感分類中的適用性進行了分析,針對現(xiàn)有情感詞典對微博中情感詞覆蓋度不高的問題,整合現(xiàn)有情感詞典資源并提出了一種基于平滑的SO-PMI算法對微博情感詞典進行了構(gòu)建,最后對微博情感詞典在微博情感分類中的分類性能進行了實驗。實驗結(jié)果表明,本文方法構(gòu)建的微博情感詞典在微博情感分類中具有較好的適用性。 (2)對主客觀微博文本的分類進行了研究。針對現(xiàn)有主客觀微博文本分類準(zhǔn)確率不高的問題,利用詞典與統(tǒng)計分析的方法對候選主觀特征進行了抽取,對抽取的候選主觀特征,提出了一種基于粗糙集與概率加權(quán)的特征選擇算法,通過該算法選取了觀點詞、感嘆號、網(wǎng)絡(luò)詞、語氣詞、形容詞、程度詞作為主客觀分類特征,最后利用上述特征進行主客觀分類實驗。實驗結(jié)果表明,上述特征在微博主客觀分類中能達到較好的分類效果。 (3)對主觀微博文本的情感特征選擇進行了研究。首先通過候選情感特征詞性表對候選情感特征進行了抽取,并采用微博情感詞典對候選情感特征中的非情感噪音詞進行過濾;然后,采用卡方(CHI)算法對過濾后的候選情感特征詞進行情感特征選擇,對卡方算法在進行情感特征選擇時存在的局部不穩(wěn)定性,提出了一種基于CHI-tfidf的情感特征選擇算法,最后,進行相關(guān)實驗,對算法的穩(wěn)定性與有效性進行了驗證。實驗結(jié)果表明,本文提出的算法在進行情感特征選擇時具有較好的穩(wěn)定性,且當(dāng)特征維數(shù)為300時,分類的準(zhǔn)確率為0.794,較信息增益算法、基于微博情感詞典的分類算法準(zhǔn)確率要高。
文內(nèi)圖片:
圖片說明: 絡(luò)的快速發(fā)展,人們獲取信息的方式發(fā)生了巨大的改變。廣播、電視等成為人們獲取信息的重要渠道。然而,社交外一種獲取信息的便捷方式,人們可以通過網(wǎng)絡(luò)獲取自己點信息等。與傳統(tǒng)媒體被動的接受信息方式相比,網(wǎng)絡(luò)媒有主動性。不僅如此,互聯(lián)網(wǎng)上龐大的信息量及快速的傳大網(wǎng)民的青睞,網(wǎng)絡(luò)媒體逐漸成為人們獲取信息、傳播信中,以微博為代表的信息發(fā)布與信息交流平臺得到了普遍[1]發(fā)布的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,截至民數(shù)量已達到 6.18 億,其中使用微博的網(wǎng)民數(shù)量為 2.微博用戶規(guī)模的統(tǒng)計結(jié)果(如圖 1-1 所示)來看,中國微勢。
文內(nèi)圖片:
圖片說明: 屆傾向性分析評測中,增加了對微博的傾向性分析的評測,其主要任務(wù)是從 52000 條微博中提交 12000 條含有表示用戶觀點的微博并判斷其傾向性,在評測中,各參賽隊伍的評測結(jié)果正、負(fù)面 F1 值如圖 1-2 所示:圖 1-2 COAE2013 微博評測結(jié)果從圖 1-2 可以看出,在提交的 25 組評測結(jié)果中,正面和負(fù)面的 F1 值都低于 0.45,評測結(jié)果有待進一步提高。由于微博文本長度較短,評測數(shù)據(jù)集中噪音文本較多,且評測中缺乏應(yīng)有的訓(xùn)練語料,,因此 COAE2013 中微博傾向性評測的結(jié)果并不高,針對中文微博傾向性分析的研究有待進一步進行研究。1.4 研究思路在國內(nèi)外已有研究的基礎(chǔ)上,本文將微博情感分類看成是一個兩次二分類問題,即微博主客觀分類、主觀文本的正、負(fù)面分類
【學(xué)位授予單位】:湖南工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092;TP391.1
本文編號:2515677
文內(nèi)圖片:
圖片說明: 絡(luò)的快速發(fā)展,人們獲取信息的方式發(fā)生了巨大的改變。廣播、電視等成為人們獲取信息的重要渠道。然而,社交外一種獲取信息的便捷方式,人們可以通過網(wǎng)絡(luò)獲取自己點信息等。與傳統(tǒng)媒體被動的接受信息方式相比,網(wǎng)絡(luò)媒有主動性。不僅如此,互聯(lián)網(wǎng)上龐大的信息量及快速的傳大網(wǎng)民的青睞,網(wǎng)絡(luò)媒體逐漸成為人們獲取信息、傳播信中,以微博為代表的信息發(fā)布與信息交流平臺得到了普遍[1]發(fā)布的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,截至民數(shù)量已達到 6.18 億,其中使用微博的網(wǎng)民數(shù)量為 2.微博用戶規(guī)模的統(tǒng)計結(jié)果(如圖 1-1 所示)來看,中國微勢。
文內(nèi)圖片:
圖片說明: 屆傾向性分析評測中,增加了對微博的傾向性分析的評測,其主要任務(wù)是從 52000 條微博中提交 12000 條含有表示用戶觀點的微博并判斷其傾向性,在評測中,各參賽隊伍的評測結(jié)果正、負(fù)面 F1 值如圖 1-2 所示:圖 1-2 COAE2013 微博評測結(jié)果從圖 1-2 可以看出,在提交的 25 組評測結(jié)果中,正面和負(fù)面的 F1 值都低于 0.45,評測結(jié)果有待進一步提高。由于微博文本長度較短,評測數(shù)據(jù)集中噪音文本較多,且評測中缺乏應(yīng)有的訓(xùn)練語料,,因此 COAE2013 中微博傾向性評測的結(jié)果并不高,針對中文微博傾向性分析的研究有待進一步進行研究。1.4 研究思路在國內(nèi)外已有研究的基礎(chǔ)上,本文將微博情感分類看成是一個兩次二分類問題,即微博主客觀分類、主觀文本的正、負(fù)面分類
【學(xué)位授予單位】:湖南工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092;TP391.1
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前5條
1 楊武;宋靜靜;唐繼強;;中文微博情感分析中主客觀句分類方法[J];重慶理工大學(xué)學(xué)報(自然科學(xué));2013年01期
2 劉志明;劉魯;;基于機器學(xué)習(xí)的中文微博情感分類實證研究[J];計算機工程與應(yīng)用;2012年01期
3 柳位平;朱艷輝;栗春亮;向華政;文志強;;中文基礎(chǔ)情感詞詞典構(gòu)建方法研究[J];計算機應(yīng)用;2009年10期
4 楊鼎;陽愛民;;一種基于情感詞典和樸素貝葉斯的中文文本情感分類方法[J];計算機應(yīng)用研究;2010年10期
5 朱艷輝;栗春亮;徐葉強;柳位平;;一種基于多重詞典的中文文本情感特征抽取方法[J];湖南工業(yè)大學(xué)學(xué)報;2011年02期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 張冬梅;文本情感分類及觀點摘要關(guān)鍵問題研究[D];山東大學(xué);2012年
本文編號:2515677
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2515677.html
最近更新
教材專著