融合表情符號的微博文本傾向性分析
本文關(guān)鍵詞:融合表情符號的微博文本傾向性分析
更多相關(guān)文章: 微博 表情符號 新詞發(fā)現(xiàn) 傾向性分析
【摘要】:在現(xiàn)代社會中,隨著互聯(lián)網(wǎng)和新媒體的飛速發(fā)展,微博呈現(xiàn)爆發(fā)性的增長,越來越多的人開始使用微博。在微博上,人們可以實(shí)時(shí)發(fā)布消息來表達(dá)對現(xiàn)實(shí)生活中各種問題的觀點(diǎn)看法,討論當(dāng)前熱點(diǎn)話題,共享信息資源等。微博用戶之間通過相互關(guān)注,相互轉(zhuǎn)發(fā)和評論使微博中的信息豐富,因而形成了海量的微博情感信息。對微博中的信息進(jìn)行傾向性分析,分析出微博用戶對重大事件、企業(yè)產(chǎn)品的觀點(diǎn)看法,對網(wǎng)絡(luò)輿情預(yù)警與分析、市場產(chǎn)品調(diào)研和市場營銷等應(yīng)用有著十分重要的意義。 現(xiàn)有的中文傾向性分析主要集中在產(chǎn)品評論、新聞報(bào)道等領(lǐng)域,而微博作為新興的社交網(wǎng)絡(luò)媒體,目前針對微博的傾向性分析還是采用原有的傾向性分析方法,缺少對微博相關(guān)特征的分析。本文針對微博的特點(diǎn),研究工作主要包含如下三個(gè)方面: 1.針對微博短文本的語言特點(diǎn),提出了融合互信息的改進(jìn)N-Gram微博新詞發(fā)現(xiàn)方法。 微博是一種極其活躍且口語化的語言,每天都會有很多新詞產(chǎn)生,這些新詞往往帶有一定的情感傾向。本文針對微博中新詞的特點(diǎn),提出了一種融合互信息和N-Gram微博新詞發(fā)現(xiàn)算法,通過N-Gram算法從微博語料中抽取字符串作為候選特征字,同時(shí)計(jì)算其互信息來合并候選特征詞,從而識別出語料中的新詞。實(shí)驗(yàn)結(jié)果表明,該方法對新詞的識別具有較好的效果,可應(yīng)用于微博的新詞發(fā)現(xiàn)。 2.針對微博中表情符號的特點(diǎn),提出了基于統(tǒng)計(jì)的微博表情符號詞典構(gòu)建方法。 表情符號是一種十分重要的情感表達(dá)形式,已成為微博中人們交流溝通的重要方式。本文根據(jù)微博中表情符號的相關(guān)特點(diǎn),提出了一種基于統(tǒng)計(jì)的表情符號詞典構(gòu)建方法,根據(jù)對微博語料中與表情符號相鄰的文本的情感分析,從而確定表情符號的傾向性,進(jìn)而完成表情符號詞典的構(gòu)建。實(shí)驗(yàn)結(jié)果表明,使用表情符號詞典提高了微博傾向性分析的準(zhǔn)確性,達(dá)到了較好的實(shí)驗(yàn)效果。 3.針對中文微博的特點(diǎn),提出融合表情符號和微博新詞的微博文本傾向性分析算法。 本文在結(jié)合新詞發(fā)現(xiàn)算法和構(gòu)建的微博表情詞典,提出了一種融合表情符號和微博新詞的微博文本傾向性分析算法。該算法以微博文本中的情感傾向元素以及相關(guān)的語法特征作為情感傾向信息,在原有的以情感詞、程度副詞、否定詞為主的傳統(tǒng)情感詞典基礎(chǔ)上,針對用戶的使用習(xí)慣及微博語言特征,,添加了表情符號和網(wǎng)絡(luò)新詞,以有效地提升微博傾向性分析的準(zhǔn)確度。與此同時(shí),本算法還對微博文本中句子的結(jié)構(gòu)、所處的位置等信息進(jìn)行分析,從而更好的獲得微博消息的情感傾向值。
【學(xué)位授予單位】:山東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1;TP393.092
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李鈍;曹元大;萬月亮;;Internet中的新詞識別[J];北京郵電大學(xué)學(xué)報(bào);2008年01期
2 王素格;楊安娜;李德玉;魏英杰;李偉;張武;;基于支持向量機(jī)的文本傾向性分類研究[J];中北大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年05期
3 賈美英;楊炳儒;鄭德權(quán);楊靖;;采用CRF技術(shù)的軍事情報(bào)術(shù)語自動抽取研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年32期
4 張海軍;史樹敏;朱朝勇;黃河燕;;中文新詞識別技術(shù)綜述[J];計(jì)算機(jī)科學(xué);2010年03期
5 丁建立;慈祥;黃劍雄;;一種基于免疫遺傳算法的網(wǎng)絡(luò)新詞識別方法[J];計(jì)算機(jī)科學(xué);2011年01期
6 昝紅英;郭明;柴玉梅;吳云芳;;新聞報(bào)道文本的情感傾向性研究[J];計(jì)算機(jī)工程;2010年15期
7 吳濤;張毛迪;陳傳波;;一種改進(jìn)的統(tǒng)計(jì)與后串最大匹配的中文分詞算法研究[J];計(jì)算機(jī)工程與科學(xué);2008年08期
8 丁建立;慈祥;黃劍雄;;網(wǎng)絡(luò)評論傾向性分析[J];計(jì)算機(jī)應(yīng)用;2010年11期
9 李明;劉晉;;基于關(guān)聯(lián)規(guī)則的新詞發(fā)現(xiàn)技術(shù)研究[J];科技與企業(yè);2012年09期
10 朱嫣嵐;閔錦;周雅倩;黃萱菁;吳立德;;基于HowNet的詞匯語義傾向計(jì)算[J];中文信息學(xué)報(bào);2006年01期
本文編號:1153819
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1153819.html