融合表情符號的微博文本傾向性分析
本文關(guān)鍵詞:融合表情符號的微博文本傾向性分析
更多相關(guān)文章: 微博 表情符號 新詞發(fā)現(xiàn) 傾向性分析
【摘要】:在現(xiàn)代社會中,隨著互聯(lián)網(wǎng)和新媒體的飛速發(fā)展,微博呈現(xiàn)爆發(fā)性的增長,越來越多的人開始使用微博。在微博上,人們可以實時發(fā)布消息來表達對現(xiàn)實生活中各種問題的觀點看法,討論當前熱點話題,共享信息資源等。微博用戶之間通過相互關(guān)注,相互轉(zhuǎn)發(fā)和評論使微博中的信息豐富,因而形成了海量的微博情感信息。對微博中的信息進行傾向性分析,分析出微博用戶對重大事件、企業(yè)產(chǎn)品的觀點看法,對網(wǎng)絡輿情預警與分析、市場產(chǎn)品調(diào)研和市場營銷等應用有著十分重要的意義。 現(xiàn)有的中文傾向性分析主要集中在產(chǎn)品評論、新聞報道等領(lǐng)域,而微博作為新興的社交網(wǎng)絡媒體,目前針對微博的傾向性分析還是采用原有的傾向性分析方法,缺少對微博相關(guān)特征的分析。本文針對微博的特點,研究工作主要包含如下三個方面: 1.針對微博短文本的語言特點,提出了融合互信息的改進N-Gram微博新詞發(fā)現(xiàn)方法。 微博是一種極其活躍且口語化的語言,每天都會有很多新詞產(chǎn)生,這些新詞往往帶有一定的情感傾向。本文針對微博中新詞的特點,提出了一種融合互信息和N-Gram微博新詞發(fā)現(xiàn)算法,通過N-Gram算法從微博語料中抽取字符串作為候選特征字,同時計算其互信息來合并候選特征詞,從而識別出語料中的新詞。實驗結(jié)果表明,該方法對新詞的識別具有較好的效果,可應用于微博的新詞發(fā)現(xiàn)。 2.針對微博中表情符號的特點,提出了基于統(tǒng)計的微博表情符號詞典構(gòu)建方法。 表情符號是一種十分重要的情感表達形式,已成為微博中人們交流溝通的重要方式。本文根據(jù)微博中表情符號的相關(guān)特點,提出了一種基于統(tǒng)計的表情符號詞典構(gòu)建方法,根據(jù)對微博語料中與表情符號相鄰的文本的情感分析,從而確定表情符號的傾向性,進而完成表情符號詞典的構(gòu)建。實驗結(jié)果表明,使用表情符號詞典提高了微博傾向性分析的準確性,達到了較好的實驗效果。 3.針對中文微博的特點,提出融合表情符號和微博新詞的微博文本傾向性分析算法。 本文在結(jié)合新詞發(fā)現(xiàn)算法和構(gòu)建的微博表情詞典,提出了一種融合表情符號和微博新詞的微博文本傾向性分析算法。該算法以微博文本中的情感傾向元素以及相關(guān)的語法特征作為情感傾向信息,在原有的以情感詞、程度副詞、否定詞為主的傳統(tǒng)情感詞典基礎(chǔ)上,針對用戶的使用習慣及微博語言特征,,添加了表情符號和網(wǎng)絡新詞,以有效地提升微博傾向性分析的準確度。與此同時,本算法還對微博文本中句子的結(jié)構(gòu)、所處的位置等信息進行分析,從而更好的獲得微博消息的情感傾向值。
【學位授予單位】:山東師范大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1;TP393.092
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李鈍;曹元大;萬月亮;;Internet中的新詞識別[J];北京郵電大學學報;2008年01期
2 王素格;楊安娜;李德玉;魏英杰;李偉;張武;;基于支持向量機的文本傾向性分類研究[J];中北大學學報(自然科學版);2008年05期
3 賈美英;楊炳儒;鄭德權(quán);楊靖;;采用CRF技術(shù)的軍事情報術(shù)語自動抽取研究[J];計算機工程與應用;2009年32期
4 張海軍;史樹敏;朱朝勇;黃河燕;;中文新詞識別技術(shù)綜述[J];計算機科學;2010年03期
5 丁建立;慈祥;黃劍雄;;一種基于免疫遺傳算法的網(wǎng)絡新詞識別方法[J];計算機科學;2011年01期
6 昝紅英;郭明;柴玉梅;吳云芳;;新聞報道文本的情感傾向性研究[J];計算機工程;2010年15期
7 吳濤;張毛迪;陳傳波;;一種改進的統(tǒng)計與后串最大匹配的中文分詞算法研究[J];計算機工程與科學;2008年08期
8 丁建立;慈祥;黃劍雄;;網(wǎng)絡評論傾向性分析[J];計算機應用;2010年11期
9 李明;劉晉;;基于關(guān)聯(lián)規(guī)則的新詞發(fā)現(xiàn)技術(shù)研究[J];科技與企業(yè);2012年09期
10 朱嫣嵐;閔錦;周雅倩;黃萱菁;吳立德;;基于HowNet的詞匯語義傾向計算[J];中文信息學報;2006年01期
本文編號:1153819
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1153819.html