基于語義相關(guān)的網(wǎng)絡(luò)文本情感分類研究
發(fā)布時間:2017-03-25 08:07
本文關(guān)鍵詞:基于語義相關(guān)的網(wǎng)絡(luò)文本情感分類研究,由筆耕文化傳播整理發(fā)布。
【摘要】:在Web2.0時代,人們能夠主動地在網(wǎng)絡(luò)上表達和傳播自己的觀點、態(tài)度、情感以及情緒等,由此產(chǎn)生了海量帶有主觀色彩的網(wǎng)絡(luò)文本。面對如此大規(guī)模的網(wǎng)絡(luò)文本數(shù)據(jù),如果僅僅依靠人工的方式進行分析顯然不切實際,由此推動了文本情感分析技術(shù)的產(chǎn)生與發(fā)展。目前,該技術(shù)已經(jīng)被成功運用到輿情分析、產(chǎn)品營銷、股價預(yù)測等領(lǐng)域,具有十分重要的理論價值和實用價值。網(wǎng)絡(luò)文本由于存在主題廣泛、用詞不規(guī)范、篇幅短和邏輯混亂等特點,給網(wǎng)絡(luò)文本情感分析的研究帶來了許多的困難與挑戰(zhàn)。鑒于此,本文以網(wǎng)絡(luò)評論文本和微博文本為研究對象,深入地討論了語義相關(guān)性的概念,并將主題模型和詞向量模型這兩種語義挖掘方法引入到網(wǎng)絡(luò)文本情感傾向的分析中,以此有效地提高網(wǎng)絡(luò)文本情感分類的精度。具體內(nèi)容如下:(1)對“相似”與“相關(guān)”兩者概念之間的區(qū)別與聯(lián)系進行介紹與總結(jié),指出“相關(guān)性”的概念涵蓋了“相似性”的概念。然后進一步明確詞語相關(guān)性的定義,對詞語相關(guān)性的一系列計算方法進行總結(jié),并闡述了主題模型和詞向量模型的核心思想以及它們在挖掘詞語背后語義關(guān)聯(lián)方面的出色表現(xiàn)。(2)基于主題模型的網(wǎng)絡(luò)文本情感分類研究,主要包括:(1)通過制定上下文與當前詞兩者之間搭配規(guī)則的方式構(gòu)造情感單元,以此從文本中提取出對網(wǎng)絡(luò)文本情感分類的研究有用的情感信息;(2)提出基于主題模型的算法從情感信息中抽取出關(guān)鍵特征,并以此構(gòu)建向量空間模型,最后利用機器學習分類器實現(xiàn)網(wǎng)絡(luò)文本情感的分類。實驗結(jié)果證明了本文方法的有效性,并且其在降維方面比一般的降維方法表現(xiàn)更佳。(3)面向微博的網(wǎng)絡(luò)文本情感分類研究,主要進行兩部分的研究。第一部分是表情符情感傾向自動標注方法的研究,主要是通過統(tǒng)計與人工結(jié)合的方法篩選得到種子詞,并基于種子詞設(shè)計算法實現(xiàn)對表情符的情感傾向進行自動標注。第二部分是基于word2vec的微博文本情感分類研究,主要包括:(1)利用情感詞典提取文本中的情感特征,并提出通過定義的方式將特征分為種子特征、相似特征和剩余特征三大類;(2)提出基于word2vec的算法將特征合并成特征集的形式,以此構(gòu)建基于特征集的文本向量,然后利用機器學習分類器實現(xiàn)微博文本情感的分類。實驗結(jié)果證明了本文提出的表情符情感傾向自動標注方法和微博文本情感分類方法的有效性,并且后者的降維效果表現(xiàn)出色。(4)在本文方法的基礎(chǔ)上設(shè)計并實現(xiàn)實驗系統(tǒng),對文本情感分類進行探討。系統(tǒng)包括了數(shù)據(jù)預(yù)處理、情感詞典構(gòu)建、文本情感分析和實驗報告四個模塊。
【關(guān)鍵詞】:網(wǎng)絡(luò)文本 情感分類 語義相關(guān)性 主題模型 詞向量模型
【學位授予單位】:廣東外語外貿(mào)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-10
- 第1章 緒論10-16
- 1.1 研究背景與意義10-11
- 1.2 研究現(xiàn)狀11-14
- 1.3 主要研究內(nèi)容與組織結(jié)構(gòu)14-16
- 1.3.1 主要研究內(nèi)容14-15
- 1.3.2 論文組織結(jié)構(gòu)15-16
- 第2章 文本情感分析關(guān)鍵技術(shù)16-26
- 2.1 概述16
- 2.2 文本預(yù)處理16-18
- 2.3 文本表示技術(shù)18-20
- 2.3.1 文本表示模型18-19
- 2.3.2 文本特征選擇19-20
- 2.4 情感詞典20-22
- 2.5 文本分類方法22-24
- 2.5.1 樸素貝葉斯分類方法23
- 2.5.2 支持向量機23-24
- 2.6 評價指標24-25
- 2.7 小結(jié)25-26
- 第3章 語義相關(guān)性26-33
- 3.1 相似性與相關(guān)性26-27
- 3.2 詞語相關(guān)性27-29
- 3.3 主題模型29-31
- 3.4 詞向量模型31-32
- 3.5 小結(jié)32-33
- 第4章 基于主題模型的網(wǎng)絡(luò)文本情感分類方法33-42
- 4.1 方法概述33-34
- 4.2 情感信息抽取34-37
- 4.2.1 情感詞典35
- 4.2.2 提取情感特征35-37
- 4.3 基于主題的情感向量空間模型構(gòu)建37-39
- 4.3.1 提取關(guān)鍵特征37-39
- 4.3.2 計算特征權(quán)重39
- 4.4 實驗結(jié)果及分析39-41
- 4.4.1 實驗數(shù)據(jù)39
- 4.4.2 評價指標39
- 4.4.3 實驗結(jié)果及分析39-41
- 4.5 小結(jié)41-42
- 第5章 面向微博的網(wǎng)絡(luò)文本情感分類方法42-57
- 5.1 表情符的情感傾向自動標注方法研究42-47
- 5.1.1 方法概述42-43
- 5.1.2 標注語料庫的構(gòu)建43-44
- 5.1.3 情感傾向明顯的表情符的自動標注44-45
- 5.1.4 情感傾向不明顯的表情符的自動標注45
- 5.1.5 實驗與結(jié)果分析45-47
- 5.2 基于word2vec的微博文本情感分類方法47-55
- 5.2.1 方法概述47-49
- 5.2.2 文本情感特征的提取49
- 5.2.3 基于特征集的文本向量表示49-51
- 5.2.4 特征集構(gòu)造算法51-52
- 5.2.5 實驗與結(jié)果分析52-55
- 5.3 小結(jié)55-57
- 第6章 文本情感分析實驗系統(tǒng)的設(shè)計與實現(xiàn)57-67
- 6.1 系統(tǒng)基本架構(gòu)57
- 6.2 系統(tǒng)設(shè)計57-61
- 6.2.1 數(shù)據(jù)庫設(shè)計57-58
- 6.2.2 數(shù)據(jù)預(yù)處理模塊設(shè)計58-60
- 6.2.3 情感詞典構(gòu)建設(shè)計60
- 6.2.4 文本情感分析模塊設(shè)計60-61
- 6.2.5 實驗報告模塊設(shè)計61
- 6.3 系統(tǒng)實現(xiàn)61-66
- 6.3.1 數(shù)據(jù)預(yù)處理模塊實現(xiàn)61-62
- 6.3.2 情感詞典構(gòu)建模塊實現(xiàn)62
- 6.3.3 文本情感分析模塊實現(xiàn)62-63
- 6.3.4 實驗報告模塊實現(xiàn)63-66
- 6.4 小結(jié)66-67
- 第7章 總結(jié)與展望67-69
- 7.1 研究總結(jié)67
- 7.2 研究展望67-69
- 參考文獻69-73
- 致謝73-74
- 在學期間的研究成果及發(fā)表的學術(shù)論文74
- 在學期間參與的科研項目74
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉建華;張智雄;謝靖;鄒益民;;基于規(guī)則的網(wǎng)絡(luò)文本資源標題快速自動識別方法[J];現(xiàn)代圖書情報技術(shù);2011年06期
2 劉倩;;網(wǎng)絡(luò)文本情感分析綜述——從中文和英文的縫隙中看到契機[J];新聞傳播;2013年08期
3 戴麗貞;;移動IP化網(wǎng)絡(luò)文本分類聚類模型[J];中國新通信;2014年02期
4 曾依靈;許洪波;白碩;;網(wǎng)絡(luò)文本主題詞的提取與組織研究[J];中文信息學報;2008年03期
5 費銀銀;;狂歡環(huán)境下的網(wǎng)絡(luò)文本特性簡析[J];新聞世界;2012年07期
6 李璐e,
本文編號:266892
本文鏈接:http://sikaile.net/guanlilunwen/yingxiaoguanlilunwen/266892.html
最近更新
教材專著