基于多標(biāo)簽新聞?wù)Z料的閱讀者情感分析
發(fā)布時間:2017-05-06 10:05
本文關(guān)鍵詞:基于多標(biāo)簽新聞?wù)Z料的閱讀者情感分析,由筆耕文化傳播整理發(fā)布。
【摘要】:伴隨著Web 2.0技術(shù)的快速發(fā)展,許多工具如博客、微博、微信等成為人們?nèi)粘I钪行畔l(fā)布與共享的網(wǎng)絡(luò)平臺,每個人可以在網(wǎng)絡(luò)上分享對某事件的觀點、看法,其中也包含了大量的個人意見、主觀情感和情緒反饋;诖笠(guī)模網(wǎng)絡(luò)文本信息的情感分析是輿情分析領(lǐng)域的一個重要部分,探究文本信息中所包含群眾情緒的動態(tài)趨勢對于社會學(xué)研究有著重要意義。本文的研究主要是閱讀者角度的情感分析問題,即通過分析新聞文本中的詞語或包含的主題信息,來預(yù)測閱讀者在讀完這篇新聞后可能引發(fā)的情緒。在以往的研究中,文本情感分析主要是從作者角度出發(fā)探究其中表達的主觀情感,對閱讀者情緒反饋的相關(guān)研究相對較少;另一方面,相關(guān)領(lǐng)域通常將文本情感分析問題視為單標(biāo)簽問題進行處理,即默認一篇文檔只能引發(fā)閱讀者的一種情緒,顯然這與實際問題不符,一篇新聞對于社會大眾引起的情緒可能不盡相同,統(tǒng)計數(shù)據(jù)顯示投票較多的情感類別一般有多個;此外,相關(guān)工作大部分是基于詞袋模型進行的研究,根據(jù)社會心理學(xué)研究的觀點,閱讀者情緒不僅會與新聞文本中直觀的詞語有關(guān)聯(lián),還與新聞報道中隱含的事件主題有著間接關(guān)系。針對上述問題,本文基于社會大眾標(biāo)注的多標(biāo)簽語料進行了系統(tǒng)化的文本情感分析,主要的工作有以下幾個方面:(1)多標(biāo)簽新聞?wù)Z料的構(gòu)建。針對研究中的著重點“多標(biāo)簽”、“閱讀者”,將情感分析任務(wù)當(dāng)做多標(biāo)簽分類問題,爬取了社會化標(biāo)注的新浪社會新聞文本及其讀者投票數(shù)據(jù),并對投票數(shù)據(jù)進行處理。(2)分別采用詞袋模型和主題模型對多標(biāo)簽新聞?wù)Z料數(shù)據(jù)進行實驗,并分析了實驗結(jié)果。從不同角度對數(shù)據(jù)進行處理,針對二分類、多分類以及多標(biāo)簽分類問題對數(shù)據(jù)集進行建模,然后訓(xùn)練好模型預(yù)測閱讀者情感。實驗數(shù)據(jù)表明,在分類性能上主題模型相對優(yōu)于詞袋模型,并且,采用主題模型時文本的特征向量維度遠遠小于詞袋模型,模型代價消耗較小,有著重要的現(xiàn)實意義。(3)借鑒混合標(biāo)簽的M-LDA方法,將情緒標(biāo)簽視為已知標(biāo)簽并將該方法應(yīng)用到文本情緒分類中。傳統(tǒng)的LDA是一個無監(jiān)督的主題模型,應(yīng)用在標(biāo)簽分類問題中往往需要結(jié)合分類器來進行。為了處理本文的多標(biāo)簽新聞?wù)Z料,充分利用數(shù)據(jù)集的類別標(biāo)簽,借鑒的M-LDA是一種混合了已知類別的有監(jiān)督主題模型。M-LDA考慮在模型的主題層將已知類別與隱含主題進行混合,在模型的建模過程中引入已知類別信息,最后以權(quán)重的大小排序輸出標(biāo)簽。實驗表明,M-LDA模型在單標(biāo)簽多分類問題以及多標(biāo)簽分類問題上表現(xiàn)出良好的性能,特別是對于多標(biāo)簽的讀者情緒分類分類,相較于傳統(tǒng)的方法在準(zhǔn)確率上有較大的提升。
【關(guān)鍵詞】:多標(biāo)簽 主題模型 LDA 情感分析
【學(xué)位授予單位】:廣東工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要4-6
- ABSTRACT6-12
- 第一章 緒論12-18
- 1.1 研究背景、目的及意義12-13
- 1.2 國內(nèi)外相關(guān)技術(shù)發(fā)展現(xiàn)狀13-16
- 1.2.1 文本情感分析研究現(xiàn)狀14-15
- 1.2.2 閱讀者情感預(yù)測研究現(xiàn)狀15-16
- 1.3 論文主要內(nèi)容16-17
- 1.4 論文組織架構(gòu)17-18
- 第二章 文本情感分析相關(guān)技術(shù)18-34
- 2.1 概述18-19
- 2.2 向量空間模型19-21
- 2.3 基于詞袋模型的相關(guān)技術(shù)21-25
- 2.3.1 特征選擇方法21-23
- 2.3.2 特征提取23-24
- 2.3.3 特征權(quán)重24-25
- 2.4 基于主題模型的相關(guān)技術(shù)25-30
- 2.4.1 PLSA主題模型26-27
- 2.4.2 LDA主題模型27-29
- 2.4.3 模型參數(shù)的估算29-30
- 2.5 機器學(xué)習(xí)分類器30-34
- 第三章 多標(biāo)簽新聞?wù)Z料庫的構(gòu)建34-42
- 3.1 數(shù)據(jù)來源34-36
- 3.2 數(shù)據(jù)集簡介36
- 3.3 單標(biāo)簽化處理36-37
- 3.4 多標(biāo)簽化處理37-42
- 第四章 基于LDA改進的混合已知類別的主題模型42-48
- 4.1 混合已知類別的主題模型(M-LDA)42-44
- 4.2 模型參數(shù)的估計和優(yōu)化44-45
- 4.3 M-LDA在文本情緒分類中的應(yīng)用45-48
- 第五章 實驗與分析48-60
- 5.1 基于詞袋模型的閱讀者情感分析48-51
- 5.1.1 多類分類器構(gòu)造方法49
- 5.1.2 單標(biāo)簽分類實驗與分析49-51
- 5.2 基于主題模型的閱讀者情感分析51-60
- 5.2.1 二分類52-54
- 5.2.2 多類別分類54-55
- 5.2.3 多標(biāo)簽分類實驗55-60
- 總結(jié)和展望60-62
- 參考文獻62-66
- 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文66-68
- 致謝68
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 劉麗;;“標(biāo)簽新聞”的符號學(xué)分析[J];編輯之友;2014年06期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 彭曉彬;基于多標(biāo)簽新聞?wù)Z料的閱讀者情感分析[D];廣東工業(yè)大學(xué);2016年
本文關(guān)鍵詞:基于多標(biāo)簽新聞?wù)Z料的閱讀者情感分析,由筆耕文化傳播整理發(fā)布。
,本文編號:348179
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/348179.html
最近更新
教材專著