針對文本情感分類的特征生成方法研究
本文關(guān)鍵詞:針對文本情感分類的特征生成方法研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:文本情感分類(Text Sentiment Classification)是文本挖掘的一個重要內(nèi)容,其目的在于檢測文本中蘊含的來自作者的主觀情感。隨著互聯(lián)網(wǎng)的飛速發(fā)展,用戶可以在不同的社交平臺上自由發(fā)表自己的觀點。大量收集這些觀點并對其進行文本情感分類,將可以在商業(yè)、政治、醫(yī)學等領(lǐng)域發(fā)揮巨大的作用。在傳統(tǒng)的文本情感分類問題中,龐大的特征總數(shù)和稀疏的特征分布往往會給分類算法帶來困難。因此,如何采用高效的特征選擇(Feature Selection)方法生成合適的特征子集,以降低分類器的時間開銷并提高分類準確率,是文本情感分類問題中重要的問題。此外,文本的情感傾向往往與詞語中蘊含的語義信息相關(guān),如果我們能獲取文本中的詞語在語義層面上的信息,文本情感分類的結(jié)果將會得到進一步提升。本文主要關(guān)注文本情感分類領(lǐng)域的特征生成問題,針對如何生成合適的特征子集、如何從特征中獲取更豐富的語義信息以及如何提高文本情感分類準確率等方面進行研究。首先,我們提出一種改進后的基于粒子群優(yōu)化算法(Particle Swarm Opti-mization)的特征選擇方法。和傳統(tǒng)的基于粒子群優(yōu)化算法的特征選擇方法相比,本文提出的方法改進了速度更新公式,使其更符合特征選擇領(lǐng)域的特點。此外,改進后的方法還結(jié)合了封裝器和過濾器兩種常見的特征選擇思想,并考慮了特征本身的語義信息,因而更適合文本情感分類領(lǐng)域的特征選擇。我們在多個UCI標準數(shù)據(jù)集和文本數(shù)據(jù)集上進行了實驗,結(jié)果表明我們提出的方法可以在普通的特征選擇問題和文本情感分類領(lǐng)域的特征選擇問題上均取得更好的效果。接著,我們設計兩種不同的方法從文本數(shù)據(jù)集中自動生成帶有情感信息的詞組,以構(gòu)成情感詞典(Sentiment Lexicon)并用于文本情感分類。和普通的情感詞典相比,我們生成的情感詞典更多關(guān)注與數(shù)據(jù)集所屬的話題領(lǐng)域相關(guān)的知識,因此也被叫做領(lǐng)域相關(guān)(Domain-specific)的情感詞典。我們在多個文本數(shù)據(jù)集上進行了實驗,結(jié)果表明領(lǐng)域相關(guān)的情感詞典可以在對應的話題領(lǐng)域上取得比普通情感詞典更好的分類效果。此外,我們還將監(jiān)督學習思想與基于情感詞典的文本情感分類方法相結(jié)合,并進一步提高了情感分類的準確率。最后,當前文本情感分類的目標往往是將整篇文檔劃分至某一個情感類別中。而如果文檔本身針對事物不同的屬性發(fā)表了不同的評論,基于整篇文檔的分類就會顯得不夠細致。在這種情況下,基于屬性(Aspect-level)的文本情感分類的重要性漸漸凸顯了出來;趯傩缘奈谋厩楦蟹诸悤紫茸R別文檔一共提及了事物的哪些方面屬性,然后再分別對這些方面屬性進行情感分類,因而比針對整篇文檔的情感分類更加合理。本文最后以領(lǐng)域相關(guān)的情感詞典為基礎,提出了兩種屬性標注方法,給詞典中的詞組標注其所屬屬性。之后,我們提出一種利用改進后的情感詞典對數(shù)據(jù)集進行基于屬性的情感分類的方法。實驗表明我們提出的方法可以較為準確地提取出文本中所包含的屬性信息。
【關(guān)鍵詞】:文本情感分類 特征選擇 粒子群優(yōu)化算法 情感詞典 基于屬性的文本情感分類
【學位授予單位】:南京大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要4-6
- Abstract6-13
- 第一章 緒論13-18
- 1.1 研究背景13
- 1.2 研究現(xiàn)狀13-15
- 1.3 本文工作15-16
- 1.4 本文組織16-18
- 第二章 相關(guān)工作18-23
- 2.1 文本情感分類與特征選擇18-20
- 2.2 基于情感詞典的文本情感分類20-23
- 第三章 基于粒子群優(yōu)化算法的文本情感特征選擇方法23-43
- 3.1 引言23-24
- 3.2 粒子群優(yōu)化算法及其在特征選擇中的應用24-27
- 3.2.1 粒子群優(yōu)化算法簡介24-25
- 3.2.2 基于二進制粒子群優(yōu)化算法的特征選擇25-27
- 3.3 基于改進BPSO的面向文本情感分類的特征選擇27-34
- 3.3.1 傳統(tǒng)BPSO方法的缺陷27-28
- 3.3.2 利用適應度比例選擇改進BPSO28-30
- 3.3.3 F-BPSO在文本情感特征選擇領(lǐng)域的改進30-34
- 3.4 實驗和分析34-41
- 3.4.1 實驗準備35-37
- 3.4.2 實驗結(jié)果和分析37-41
- 3.5 本章總結(jié)41-43
- 第四章 基于情感特征自動提取的文本情感分類方法43-61
- 4.1 引言43-44
- 4.2 領(lǐng)域相關(guān)的情感特征提取和極性標注44-52
- 4.2.1 候選詞組生成方法45-46
- 4.2.2 情感極性標注方法46-52
- 4.3 結(jié)合情感詞典和監(jiān)督學習的文本情感分類方法52-55
- 4.4 實驗和分析55-60
- 4.4.1 D-SPL方法的參數(shù)調(diào)整56-57
- 4.4.2 實驗結(jié)果和分析57-60
- 4.5 本章總結(jié)60-61
- 第五章 基于屬性的文本情感分類與評分方法61-74
- 5.1 引言61-62
- 5.2 基于屬性的文本情感分類簡介62-63
- 5.3 一種基于屬性的文本情感分類與評分方法63-69
- 5.3.1 情感詞典生成64-67
- 5.3.2 情感分類和綜合評分67-69
- 5.4 實驗和分析69-72
- 5.4.1 實驗準備69
- 5.4.2 實驗結(jié)果和分析69-72
- 5.5 本章總結(jié)72-74
- 第六章 總結(jié)與展望74-76
- 6.1 作總結(jié)74
- 6.2 研究展望74-76
- 參考文獻76-82
- 簡歷與科研成果82-83
- 致謝83-84
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李盛瑜;何文;;一種對聊天文本進行特征選取的方法研究[J];計算機科學;2007年05期
2 蔣志方;祝翠玲;吳強;;一個對不帶類別標記文本進行分類的方法[J];計算機工程;2007年12期
3 趙鋼;;從復雜文本中導入數(shù)據(jù)的方法[J];中國審計;2007年18期
4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計算機科學;2002年08期
5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學學報;2004年09期
6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達式編程的Web文本分類研究[J];網(wǎng)絡安全技術(shù)與應用;2009年03期
7 諶志群;;文本趨勢挖掘綜述[J];情報科學;2010年02期
8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報雜志;2012年08期
9 江偉;潘昊;;基于優(yōu)化的多核學習方法的Web文本分類的研究[J];計算機技術(shù)與發(fā)展;2013年10期
10 陳福海;C++中用>>和<<重載實現(xiàn)文本文件的方便存取[J];現(xiàn)代計算機;1997年05期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復制文本檢測[A];第29屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學術(shù)年會論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導的遺傳算法在文本分類中的應用[A];第十九屆全國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2002年
4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年
5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年
7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)[C];2010年
8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2004年
9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進展[A];開創(chuàng)新世紀的通信技術(shù)——第七屆全國青年通信學術(shù)會議論文集[C];2001年
10 江荻;;藏語文本信息處理的歷程與進展[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術(shù)會議論文集[C];2006年
中國重要報紙全文數(shù)據(jù)庫 前1條
1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報;2004年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學;2014年
2 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國科學技術(shù)大學;2016年
3 韓磊;漢語句義結(jié)構(gòu)模型分析及其文本表示方法研究[D];北京理工大學;2016年
4 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學 ;2009年
5 孫曉華;基于聚類的文本機會發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學;2010年
6 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學;2007年
7 霍躍紅;典籍英譯譯者文體分析與文本的譯者識別[D];大連理工大學;2010年
8 熊云波;文本信息處理的若干關(guān)鍵技術(shù)研究[D];復旦大學;2006年
9 李自強;大規(guī)模文本分類的若干問題研究[D];電子科技大學;2013年
10 楊震;文本分類和聚類中若干問題的研究[D];北京郵電大學;2007年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實現(xiàn)[D];南京信息工程大學;2015年
2 李少卿;不良文本及其變體信息的檢測過濾技術(shù)研究[D];復旦大學;2014年
3 楊名陽;基于空間文本數(shù)據(jù)的k近鄰連接研究[D];上海交通大學;2015年
4 李天彩;短文本信息流的會話抽取與分析技術(shù)研究[D];解放軍信息工程大學;2015年
5 陳亮宇;面向微博文本的事件抽取[D];東南大學;2015年
6 許慧芳;基于全覆蓋粒計算模型的文本表示和特征提取研究[D];太原理工大學;2016年
7 王煒;面向網(wǎng)絡輿情的文本語義傾向性分類算法研究[D];河北工程大學;2016年
8 任倚天;基于支持向量機的海量文本分類并行化技術(shù)研究[D];北京理工大學;2016年
9 光順利;基于Spark的文本分類的研究[D];長春工業(yè)大學;2016年
10 張高祥;基于SVM的文本信息過濾算法研究[D];吉林大學;2016年
本文關(guān)鍵詞:針對文本情感分類的特征生成方法研究,由筆耕文化傳播整理發(fā)布。
本文編號:376493
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/376493.html