基于LDA模型的微博情感分析技術(shù)研究
本文關(guān)鍵詞:基于LDA模型的微博情感分析技術(shù)研究
更多相關(guān)文章: 微博情感分析 LDA模型 機(jī)器學(xué)習(xí) 情感詞典 半監(jiān)督訓(xùn)練
【摘要】:隨著互聯(lián)網(wǎng)進(jìn)入千家萬戶,網(wǎng)絡(luò)早已成為大眾獲取信息、發(fā)布信息、傳遞信息的重要途徑。與此同時,網(wǎng)絡(luò)中出現(xiàn)了越來越多的主觀性文字,如論壇帖子、博客、貼吧、微博等。人們可以很自由的通過這些主觀性文字抒發(fā)自己的情感、思想,表達(dá)自己的意見。微博作為全球受到廣泛歡迎的網(wǎng)絡(luò)應(yīng)用之一,越來越多的人習(xí)慣在以微博為代表的社交網(wǎng)絡(luò)上獲取信息、交流信息與表達(dá)情感。龐大的微博用戶量以及用戶所產(chǎn)生的微博數(shù)據(jù)背后隱藏著巨大的商業(yè)價值和社會價值。微博相關(guān)的研究課題越來越受到人們的關(guān)注,微博情感分析就是其中之一。微博情感分析是指通過分析和挖掘微博中的主觀性信息并判斷其情感傾向。微博情感分析技術(shù)應(yīng)用場景非常廣泛,能夠應(yīng)用于輿情監(jiān)測、產(chǎn)品推薦、信息預(yù)測等多種系統(tǒng)。微博短文本的情感分析技術(shù)是近年來學(xué)術(shù)界的研究熱點(diǎn),相關(guān)技術(shù)評測也得到了各大高校的廣泛參與,由于微博短文本存在口語化、簡潔化等社交網(wǎng)絡(luò)特征,對微博情感分析的研究具有相當(dāng)?shù)奶魬?zhàn)性。深入分析研究微博情感分析技術(shù),提升微博情感分析的性能具有十分重要的現(xiàn)實(shí)意義。微博的情感分析問題可以看作是分類問題,重點(diǎn)在于判別微博的正、負(fù)情感傾向性。所用的方法主要可以歸結(jié)于基于規(guī)則的分類方法和統(tǒng)計機(jī)器學(xué)習(xí)的分類方法。微博情感分析現(xiàn)已取得不少進(jìn)展,但從情感分類效果和性能看,依舊存在著準(zhǔn)確率不夠高、依賴性較強(qiáng)等缺點(diǎn),因此本文研究希望找到一種能提高準(zhǔn)確率,同時普適性較好的微博情感分析方法。首先,本文對文本情感傾向性分析的概念和基本的方法進(jìn)行了總結(jié)分析,針對當(dāng)前微博標(biāo)注語料不足的現(xiàn)狀,提出了半監(jiān)督訓(xùn)練的方法,該方法能充分利用未標(biāo)的注微博語料。其次,現(xiàn)有的情感分析方法主要是對微博的局部信息進(jìn)行利用,通過特征工程的方法來提高分類的效果,本文采用LDA(Latent Dirichlet Allocation,潛在狄利克雷分布)主題模型的方法可以對微博潛在的主題信息進(jìn)行很好的利用。最后,將半監(jiān)督訓(xùn)練的方法與LDA主題模型的方法進(jìn)行了融合,以半監(jiān)督訓(xùn)練為框架,使用LDA主題模型聚類后再使用SVM(Support Vector Machine,支持向量機(jī))的方法對微博進(jìn)行情感分析。實(shí)驗(yàn)結(jié)果表明,本文提出的方法能夠很好的利用未標(biāo)注微博語料和微博的主題信息,與傳統(tǒng)的方法相比,正確率,召回率以及F1值都得到了一定的提高。
【關(guān)鍵詞】:微博情感分析 LDA模型 機(jī)器學(xué)習(xí) 情感詞典 半監(jiān)督訓(xùn)練
【學(xué)位授予單位】:西北師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要8-9
- Abstract9-11
- 1 緒論11-15
- 1.1 研究背景11-12
- 1.2 微博情感分析的社會領(lǐng)域應(yīng)用12
- 1.2.1 輿情監(jiān)測12
- 1.2.2 事件預(yù)測12
- 1.3 微博情感分析的商業(yè)領(lǐng)域應(yīng)用12-13
- 1.4 本文研究內(nèi)容及創(chuàng)新點(diǎn)13
- 1.5 論文組織結(jié)構(gòu)13-15
- 2 相關(guān)技術(shù)理論與評測15-26
- 2.1 情感分析問題描述15
- 2.2 情感分析研究層次15-17
- 2.2.1 詞級情感分析15-16
- 2.2.2 句級情感分析16-17
- 2.2.3 篇章級情感分析17
- 2.3 情感分析與文本分類17-22
- 2.3.1 文本表示17-18
- 2.3.2 特征選擇18-20
- 2.3.3 特征權(quán)重20
- 2.3.4 基于規(guī)則的方法20-21
- 2.3.5 基于統(tǒng)計機(jī)器學(xué)習(xí)的方法21-22
- 2.4 相關(guān)評測22-26
- 3 基于LDA模型的微博情感分類26-34
- 3.1 引言26-27
- 3.2 微博預(yù)處理27-28
- 3.3 特征選擇28-29
- 3.4 半監(jiān)督訓(xùn)練29-31
- 3.5 主題模型在情感分析中的優(yōu)勢31-32
- 3.6 基于LDA的情感分析方法32-34
- 4 實(shí)驗(yàn)與分析34-38
- 4.1 實(shí)驗(yàn)語料34
- 4.2 評價標(biāo)準(zhǔn)34-35
- 4.3 實(shí)驗(yàn)過程35-36
- 4.3.1 一般的情感分類方法35-36
- 4.3.2 本文方法36
- 4.4 實(shí)驗(yàn)結(jié)果及分析36-38
- 5 基于LDA的微博情感分類技術(shù)在輿情系統(tǒng)中的應(yīng)用38-47
- 5.1 網(wǎng)頁數(shù)據(jù)抓取模塊38-39
- 5.2 頁面內(nèi)容提取模塊39-40
- 5.3 數(shù)據(jù)存儲模塊40-42
- 5.4 系統(tǒng)運(yùn)行效果展示42-47
- 6 結(jié)論與展望47-48
- 6.1 全文總結(jié)47
- 6.2 進(jìn)一步展望47-48
- 參考文獻(xiàn)48-50
- 致謝50
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 袁伯秋;周一民;李林;;LDA模型參數(shù)有偏估計方法[J];小型微型計算機(jī)系統(tǒng);2010年04期
2 唐曉波;向坤;;基于LDA模型和微博熱度的熱點(diǎn)挖掘[J];圖書情報工作;2014年05期
3 王嘉琦;徐朝軍;李藝;;基于LDA模型的社交網(wǎng)站自動量化評價研究[J];現(xiàn)代圖書情報技術(shù);2013年03期
4 曹娟;張勇東;李錦濤;唐勝;;一種基于密度的自適應(yīng)最優(yōu)LDA模型選擇方法[J];計算機(jī)學(xué)報;2008年10期
5 楚克明;李芳;;基于LDA模型的新聞話題的演化[J];計算機(jī)應(yīng)用與軟件;2011年04期
6 石大文;張暉;;基于LDA模型的BBS話題演化[J];工業(yè)控制計算機(jī);2012年05期
7 孫世杰;濮建忠;;基于LDA模型的Twitter中文微博熱點(diǎn)主題詞組發(fā)現(xiàn)[J];洛陽師范學(xué)院學(xué)報;2012年11期
8 石晶;胡明;石鑫;戴國忠;;基于LDA模型的文本分割[J];計算機(jī)學(xué)報;2008年10期
9 李保利;楊星;;基于LDA模型和話題過濾的研究主題演化分析[J];小型微型計算機(jī)系統(tǒng);2012年12期
10 ;[J];;年期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 丁兆云;王暉;;一種詞位置相關(guān)的LDA模型[A];2013第一屆中國指揮控制大會論文集[C];2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 張超;一種詞性標(biāo)注LDA模型的文本分類方法研究[D];華中師范大學(xué);2015年
2 毛龍龍;基于LDA模型的微博情感分析技術(shù)研究[D];西北師范大學(xué);2015年
3 張?zhí)锾?基于LDA模型的實(shí)體解析技術(shù)的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2013年
4 彭利斌;微博熱點(diǎn)話題發(fā)現(xiàn)與話題演化的研究[D];桂林電子科技大學(xué);2014年
5 荀靜;基于LDA模型的文檔情感摘要研究[D];山東師范大學(xué);2015年
,本文編號:559968
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/559968.html