天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 新聞傳播論文 >

基于自動標注訓(xùn)練集的中文微博情感分類的研究

發(fā)布時間:2020-03-17 20:44
【摘要】:微博已經(jīng)成為最受網(wǎng)民歡迎的社交網(wǎng)絡(luò)平臺之一,它的快速發(fā)展使其顯示出了巨大的商業(yè)價值和社會價值。用戶已經(jīng)習(xí)慣在微博上獲取、分享信息以及發(fā)表對于時事熱點話題或者產(chǎn)品的觀點意見,這些觀點往往帶有豐富的情感色彩,因此,面向大規(guī)模微博數(shù)據(jù)的情感挖掘具有重大意義。通過情感挖掘可以及時了解用戶對輿論熱點、產(chǎn)品、政策等的反應(yīng),有助于為用戶自身、政府機構(gòu)、企業(yè)等提供決策支持。到目前為止,英文微博情感挖掘已經(jīng)有了大量研究成果,而中文微博的情感分析還處于起步階段。本文的主要研究工作包括以下幾點:1.以用戶數(shù)最多的微博平臺一新浪微博為研究對象,通過其開放平臺API獲取大規(guī)模的原始微博數(shù)據(jù),分析了微博數(shù)據(jù)的特征并比較了微博文本和傳統(tǒng)網(wǎng)絡(luò)文本的不同。2.由于目前尚無高標準的己標注情感信息的微博語料庫,本文提出了一種基于表情符號和心理詞匯的自動標注微博語料訓(xùn)練集的方法,獲取正負情感分類和七類情感分類的訓(xùn)練集,該方法省去了大量的人工標注的負擔,減少了傳統(tǒng)標注方式對領(lǐng)域、主題和時間等因素的依賴;诖朔椒(gòu)建了一定規(guī)模的語料庫。3.本文把微博情感傾向性分類任務(wù)主要分為兩種,即正負面情感分類和七類情感(高興、喜愛、驚、焦慮、哀、怒、惡)分類。我們將自動標注好的用于兩種分類任務(wù)的語料庫作為訓(xùn)練集構(gòu)建微博情感分類器,用以對微博文本進行情感極性分類。4.本文針對上述兩種情感分類任務(wù),分別進行了基于n-gram特征項的實驗,以及兩種特征選擇方法‘(信息增益、卡方統(tǒng)計)和兩種分類算法(樸素貝葉斯、支持向量機)的交叉驗證實驗。實驗結(jié)果表明,正負情感分類的整體性能優(yōu)于七類情感分類。在正負情感分類任務(wù)中,Unigram特征項的性能優(yōu)于Bigram;信息增益結(jié)合樸素貝葉斯的組合性能最佳。七類情感分類任務(wù)中,Bigram特征項的性能優(yōu)于Unigram;兩種特征選擇方法結(jié)合樸素貝葉斯和支持向量機算法實驗時,F-測度值的差異性不大。
【圖文】:

首頁,用戶界面,標簽,文史


用和使用便捷,可意時間,任意地點發(fā)送或獲得信息和圖片;诖耍,本文逡逑選用的微博語料數(shù)據(jù)來源是新浪微博。下面對新浪微博的功能和應(yīng)用做簡單的介逡逑紹。圖2.1是新浪微博用戶的基本結(jié)構(gòu)。逡逑。獸竊邐錦就}v焌笠1惦生佭?^;~枺鼖)樷》邐巧抑頒逡逑瞬堪TB邐邐邐邋\^j|P敏踞逡逑^邐礦逡逑眾夬I邐L心…逡逑貨舒橗邐250邋103邋520逡逑—邐邋.....邐邐邐邋歐竊蘭~T逡逑I邋@巧^邐'邐…….~s始楾知貨-逡逑I邐mm邐邐邋掉屋

本文編號:2587679

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/xinwenchuanbolunwen/2587679.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶87e2e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com