面向中文微博文本的情感分類研究
發(fā)布時(shí)間:2019-07-18 05:52
【摘要】:隨著網(wǎng)絡(luò)媒體的迅猛發(fā)展,以微博為代表的信息發(fā)布與信息共享平臺(tái)得到了普遍應(yīng)用。在微博平臺(tái)中包含著表明用戶觀點(diǎn)或態(tài)度的主觀情感傾向性文本,主觀情感傾向性微博在輿情監(jiān)控、熱點(diǎn)檢測(cè)等領(lǐng)域具有潛在的應(yīng)用價(jià)值。如何從微博中自動(dòng)識(shí)別表明用戶觀點(diǎn)的主觀微博文本,并判斷該主觀微博的情感傾向性成為本文研究的目的。 本文以中文微博情感分類為主線,展開了如下研究工作: (1)對(duì)微博情感詞典的構(gòu)建方法進(jìn)行了研究。首先對(duì)現(xiàn)有情感詞典在微博情感分類中的適用性進(jìn)行了分析,,針對(duì)現(xiàn)有情感詞典對(duì)微博中情感詞覆蓋度不高的問(wèn)題,整合現(xiàn)有情感詞典資源并提出了一種基于平滑的SO-PMI算法對(duì)微博情感詞典進(jìn)行了構(gòu)建,最后對(duì)微博情感詞典在微博情感分類中的分類性能進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文方法構(gòu)建的微博情感詞典在微博情感分類中具有較好的適用性。 (2)對(duì)主客觀微博文本的分類進(jìn)行了研究。針對(duì)現(xiàn)有主客觀微博文本分類準(zhǔn)確率不高的問(wèn)題,利用詞典與統(tǒng)計(jì)分析的方法對(duì)候選主觀特征進(jìn)行了抽取,對(duì)抽取的候選主觀特征,提出了一種基于粗糙集與概率加權(quán)的特征選擇算法,通過(guò)該算法選取了觀點(diǎn)詞、感嘆號(hào)、網(wǎng)絡(luò)詞、語(yǔ)氣詞、形容詞、程度詞作為主客觀分類特征,最后利用上述特征進(jìn)行主客觀分類實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,上述特征在微博主客觀分類中能達(dá)到較好的分類效果。 (3)對(duì)主觀微博文本的情感特征選擇進(jìn)行了研究。首先通過(guò)候選情感特征詞性表對(duì)候選情感特征進(jìn)行了抽取,并采用微博情感詞典對(duì)候選情感特征中的非情感噪音詞進(jìn)行過(guò)濾;然后,采用卡方(CHI)算法對(duì)過(guò)濾后的候選情感特征詞進(jìn)行情感特征選擇,對(duì)卡方算法在進(jìn)行情感特征選擇時(shí)存在的局部不穩(wěn)定性,提出了一種基于CHI-tfidf的情感特征選擇算法,最后,進(jìn)行相關(guān)實(shí)驗(yàn),對(duì)算法的穩(wěn)定性與有效性進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,本文提出的算法在進(jìn)行情感特征選擇時(shí)具有較好的穩(wěn)定性,且當(dāng)特征維數(shù)為300時(shí),分類的準(zhǔn)確率為0.794,較信息增益算法、基于微博情感詞典的分類算法準(zhǔn)確率要高。
文內(nèi)圖片:
圖片說(shuō)明: 絡(luò)的快速發(fā)展,人們獲取信息的方式發(fā)生了巨大的改變。廣播、電視等成為人們獲取信息的重要渠道。然而,社交外一種獲取信息的便捷方式,人們可以通過(guò)網(wǎng)絡(luò)獲取自己點(diǎn)信息等。與傳統(tǒng)媒體被動(dòng)的接受信息方式相比,網(wǎng)絡(luò)媒有主動(dòng)性。不僅如此,互聯(lián)網(wǎng)上龐大的信息量及快速的傳大網(wǎng)民的青睞,網(wǎng)絡(luò)媒體逐漸成為人們獲取信息、傳播信中,以微博為代表的信息發(fā)布與信息交流平臺(tái)得到了普遍[1]發(fā)布的《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至民數(shù)量已達(dá)到 6.18 億,其中使用微博的網(wǎng)民數(shù)量為 2.微博用戶規(guī)模的統(tǒng)計(jì)結(jié)果(如圖 1-1 所示)來(lái)看,中國(guó)微勢(shì)。
文內(nèi)圖片:
圖片說(shuō)明: 屆傾向性分析評(píng)測(cè)中,增加了對(duì)微博的傾向性分析的評(píng)測(cè),其主要任務(wù)是從 52000 條微博中提交 12000 條含有表示用戶觀點(diǎn)的微博并判斷其傾向性,在評(píng)測(cè)中,各參賽隊(duì)伍的評(píng)測(cè)結(jié)果正、負(fù)面 F1 值如圖 1-2 所示:圖 1-2 COAE2013 微博評(píng)測(cè)結(jié)果從圖 1-2 可以看出,在提交的 25 組評(píng)測(cè)結(jié)果中,正面和負(fù)面的 F1 值都低于 0.45,評(píng)測(cè)結(jié)果有待進(jìn)一步提高。由于微博文本長(zhǎng)度較短,評(píng)測(cè)數(shù)據(jù)集中噪音文本較多,且評(píng)測(cè)中缺乏應(yīng)有的訓(xùn)練語(yǔ)料,因此 COAE2013 中微博傾向性評(píng)測(cè)的結(jié)果并不高,針對(duì)中文微博傾向性分析的研究有待進(jìn)一步進(jìn)行研究。1.4 研究思路在國(guó)內(nèi)外已有研究的基礎(chǔ)上,本文將微博情感分類看成是一個(gè)兩次二分類問(wèn)題,即微博主客觀分類、主觀文本的正、負(fù)面分類
【學(xué)位授予單位】:湖南工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.092;TP391.1
本文編號(hào):2515676
文內(nèi)圖片:
圖片說(shuō)明: 絡(luò)的快速發(fā)展,人們獲取信息的方式發(fā)生了巨大的改變。廣播、電視等成為人們獲取信息的重要渠道。然而,社交外一種獲取信息的便捷方式,人們可以通過(guò)網(wǎng)絡(luò)獲取自己點(diǎn)信息等。與傳統(tǒng)媒體被動(dòng)的接受信息方式相比,網(wǎng)絡(luò)媒有主動(dòng)性。不僅如此,互聯(lián)網(wǎng)上龐大的信息量及快速的傳大網(wǎng)民的青睞,網(wǎng)絡(luò)媒體逐漸成為人們獲取信息、傳播信中,以微博為代表的信息發(fā)布與信息交流平臺(tái)得到了普遍[1]發(fā)布的《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至民數(shù)量已達(dá)到 6.18 億,其中使用微博的網(wǎng)民數(shù)量為 2.微博用戶規(guī)模的統(tǒng)計(jì)結(jié)果(如圖 1-1 所示)來(lái)看,中國(guó)微勢(shì)。
文內(nèi)圖片:
圖片說(shuō)明: 屆傾向性分析評(píng)測(cè)中,增加了對(duì)微博的傾向性分析的評(píng)測(cè),其主要任務(wù)是從 52000 條微博中提交 12000 條含有表示用戶觀點(diǎn)的微博并判斷其傾向性,在評(píng)測(cè)中,各參賽隊(duì)伍的評(píng)測(cè)結(jié)果正、負(fù)面 F1 值如圖 1-2 所示:圖 1-2 COAE2013 微博評(píng)測(cè)結(jié)果從圖 1-2 可以看出,在提交的 25 組評(píng)測(cè)結(jié)果中,正面和負(fù)面的 F1 值都低于 0.45,評(píng)測(cè)結(jié)果有待進(jìn)一步提高。由于微博文本長(zhǎng)度較短,評(píng)測(cè)數(shù)據(jù)集中噪音文本較多,且評(píng)測(cè)中缺乏應(yīng)有的訓(xùn)練語(yǔ)料,因此 COAE2013 中微博傾向性評(píng)測(cè)的結(jié)果并不高,針對(duì)中文微博傾向性分析的研究有待進(jìn)一步進(jìn)行研究。1.4 研究思路在國(guó)內(nèi)外已有研究的基礎(chǔ)上,本文將微博情感分類看成是一個(gè)兩次二分類問(wèn)題,即微博主客觀分類、主觀文本的正、負(fù)面分類
【學(xué)位授予單位】:湖南工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.092;TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 楊武;宋靜靜;唐繼強(qiáng);;中文微博情感分析中主客觀句分類方法[J];重慶理工大學(xué)學(xué)報(bào)(自然科學(xué));2013年01期
2 劉志明;劉魯;;基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J];計(jì)算機(jī)工程與應(yīng)用;2012年01期
3 柳位平;朱艷輝;栗春亮;向華政;文志強(qiáng);;中文基礎(chǔ)情感詞詞典構(gòu)建方法研究[J];計(jì)算機(jī)應(yīng)用;2009年10期
4 楊鼎;陽(yáng)愛民;;一種基于情感詞典和樸素貝葉斯的中文文本情感分類方法[J];計(jì)算機(jī)應(yīng)用研究;2010年10期
5 朱艷輝;栗春亮;徐葉強(qiáng);柳位平;;一種基于多重詞典的中文文本情感特征抽取方法[J];湖南工業(yè)大學(xué)學(xué)報(bào);2011年02期
相關(guān)博士學(xué)位論文 前1條
1 張冬梅;文本情感分類及觀點(diǎn)摘要關(guān)鍵問(wèn)題研究[D];山東大學(xué);2012年
本文編號(hào):2515676
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2515676.html
最近更新
教材專著