天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

針對(duì)文本情感分類的特征生成方法研究

發(fā)布時(shí)間:2017-05-18 16:10

  本文關(guān)鍵詞:針對(duì)文本情感分類的特征生成方法研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:文本情感分類(Text Sentiment Classification)是文本挖掘的一個(gè)重要內(nèi)容,其目的在于檢測(cè)文本中蘊(yùn)含的來自作者的主觀情感。隨著互聯(lián)網(wǎng)的飛速發(fā)展,用戶可以在不同的社交平臺(tái)上自由發(fā)表自己的觀點(diǎn)。大量收集這些觀點(diǎn)并對(duì)其進(jìn)行文本情感分類,將可以在商業(yè)、政治、醫(yī)學(xué)等領(lǐng)域發(fā)揮巨大的作用。在傳統(tǒng)的文本情感分類問題中,龐大的特征總數(shù)和稀疏的特征分布往往會(huì)給分類算法帶來困難。因此,如何采用高效的特征選擇(Feature Selection)方法生成合適的特征子集,以降低分類器的時(shí)間開銷并提高分類準(zhǔn)確率,是文本情感分類問題中重要的問題。此外,文本的情感傾向往往與詞語中蘊(yùn)含的語義信息相關(guān),如果我們能獲取文本中的詞語在語義層面上的信息,文本情感分類的結(jié)果將會(huì)得到進(jìn)一步提升。本文主要關(guān)注文本情感分類領(lǐng)域的特征生成問題,針對(duì)如何生成合適的特征子集、如何從特征中獲取更豐富的語義信息以及如何提高文本情感分類準(zhǔn)確率等方面進(jìn)行研究。首先,我們提出一種改進(jìn)后的基于粒子群優(yōu)化算法(Particle Swarm Opti-mization)的特征選擇方法。和傳統(tǒng)的基于粒子群優(yōu)化算法的特征選擇方法相比,本文提出的方法改進(jìn)了速度更新公式,使其更符合特征選擇領(lǐng)域的特點(diǎn)。此外,改進(jìn)后的方法還結(jié)合了封裝器和過濾器兩種常見的特征選擇思想,并考慮了特征本身的語義信息,因而更適合文本情感分類領(lǐng)域的特征選擇。我們?cè)诙鄠(gè)UCI標(biāo)準(zhǔn)數(shù)據(jù)集和文本數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明我們提出的方法可以在普通的特征選擇問題和文本情感分類領(lǐng)域的特征選擇問題上均取得更好的效果。接著,我們?cè)O(shè)計(jì)兩種不同的方法從文本數(shù)據(jù)集中自動(dòng)生成帶有情感信息的詞組,以構(gòu)成情感詞典(Sentiment Lexicon)并用于文本情感分類。和普通的情感詞典相比,我們生成的情感詞典更多關(guān)注與數(shù)據(jù)集所屬的話題領(lǐng)域相關(guān)的知識(shí),因此也被叫做領(lǐng)域相關(guān)(Domain-specific)的情感詞典。我們?cè)诙鄠(gè)文本數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明領(lǐng)域相關(guān)的情感詞典可以在對(duì)應(yīng)的話題領(lǐng)域上取得比普通情感詞典更好的分類效果。此外,我們還將監(jiān)督學(xué)習(xí)思想與基于情感詞典的文本情感分類方法相結(jié)合,并進(jìn)一步提高了情感分類的準(zhǔn)確率。最后,當(dāng)前文本情感分類的目標(biāo)往往是將整篇文檔劃分至某一個(gè)情感類別中。而如果文檔本身針對(duì)事物不同的屬性發(fā)表了不同的評(píng)論,基于整篇文檔的分類就會(huì)顯得不夠細(xì)致。在這種情況下,基于屬性(Aspect-level)的文本情感分類的重要性漸漸凸顯了出來;趯傩缘奈谋厩楦蟹诸悤(huì)首先識(shí)別文檔一共提及了事物的哪些方面屬性,然后再分別對(duì)這些方面屬性進(jìn)行情感分類,因而比針對(duì)整篇文檔的情感分類更加合理。本文最后以領(lǐng)域相關(guān)的情感詞典為基礎(chǔ),提出了兩種屬性標(biāo)注方法,給詞典中的詞組標(biāo)注其所屬屬性。之后,我們提出一種利用改進(jìn)后的情感詞典對(duì)數(shù)據(jù)集進(jìn)行基于屬性的情感分類的方法。實(shí)驗(yàn)表明我們提出的方法可以較為準(zhǔn)確地提取出文本中所包含的屬性信息。
【關(guān)鍵詞】:文本情感分類 特征選擇 粒子群優(yōu)化算法 情感詞典 基于屬性的文本情感分類
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要4-6
  • Abstract6-13
  • 第一章 緒論13-18
  • 1.1 研究背景13
  • 1.2 研究現(xiàn)狀13-15
  • 1.3 本文工作15-16
  • 1.4 本文組織16-18
  • 第二章 相關(guān)工作18-23
  • 2.1 文本情感分類與特征選擇18-20
  • 2.2 基于情感詞典的文本情感分類20-23
  • 第三章 基于粒子群優(yōu)化算法的文本情感特征選擇方法23-43
  • 3.1 引言23-24
  • 3.2 粒子群優(yōu)化算法及其在特征選擇中的應(yīng)用24-27
  • 3.2.1 粒子群優(yōu)化算法簡(jiǎn)介24-25
  • 3.2.2 基于二進(jìn)制粒子群優(yōu)化算法的特征選擇25-27
  • 3.3 基于改進(jìn)BPSO的面向文本情感分類的特征選擇27-34
  • 3.3.1 傳統(tǒng)BPSO方法的缺陷27-28
  • 3.3.2 利用適應(yīng)度比例選擇改進(jìn)BPSO28-30
  • 3.3.3 F-BPSO在文本情感特征選擇領(lǐng)域的改進(jìn)30-34
  • 3.4 實(shí)驗(yàn)和分析34-41
  • 3.4.1 實(shí)驗(yàn)準(zhǔn)備35-37
  • 3.4.2 實(shí)驗(yàn)結(jié)果和分析37-41
  • 3.5 本章總結(jié)41-43
  • 第四章 基于情感特征自動(dòng)提取的文本情感分類方法43-61
  • 4.1 引言43-44
  • 4.2 領(lǐng)域相關(guān)的情感特征提取和極性標(biāo)注44-52
  • 4.2.1 候選詞組生成方法45-46
  • 4.2.2 情感極性標(biāo)注方法46-52
  • 4.3 結(jié)合情感詞典和監(jiān)督學(xué)習(xí)的文本情感分類方法52-55
  • 4.4 實(shí)驗(yàn)和分析55-60
  • 4.4.1 D-SPL方法的參數(shù)調(diào)整56-57
  • 4.4.2 實(shí)驗(yàn)結(jié)果和分析57-60
  • 4.5 本章總結(jié)60-61
  • 第五章 基于屬性的文本情感分類與評(píng)分方法61-74
  • 5.1 引言61-62
  • 5.2 基于屬性的文本情感分類簡(jiǎn)介62-63
  • 5.3 一種基于屬性的文本情感分類與評(píng)分方法63-69
  • 5.3.1 情感詞典生成64-67
  • 5.3.2 情感分類和綜合評(píng)分67-69
  • 5.4 實(shí)驗(yàn)和分析69-72
  • 5.4.1 實(shí)驗(yàn)準(zhǔn)備69
  • 5.4.2 實(shí)驗(yàn)結(jié)果和分析69-72
  • 5.5 本章總結(jié)72-74
  • 第六章 總結(jié)與展望74-76
  • 6.1 作總結(jié)74
  • 6.2 研究展望74-76
  • 參考文獻(xiàn)76-82
  • 簡(jiǎn)歷與科研成果82-83
  • 致謝83-84

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 李盛瑜;何文;;一種對(duì)聊天文本進(jìn)行特征選取的方法研究[J];計(jì)算機(jī)科學(xué);2007年05期

2 蔣志方;祝翠玲;吳強(qiáng);;一個(gè)對(duì)不帶類別標(biāo)記文本進(jìn)行分類的方法[J];計(jì)算機(jī)工程;2007年12期

3 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國(guó)審計(jì);2007年18期

4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期

5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2004年09期

6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達(dá)式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期

7 諶志群;;文本趨勢(shì)挖掘綜述[J];情報(bào)科學(xué);2010年02期

8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報(bào)雜志;2012年08期

9 江偉;潘昊;;基于優(yōu)化的多核學(xué)習(xí)方法的Web文本分類的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年10期

10 陳福海;C++中用>>和<<重載實(shí)現(xiàn)文本文件的方便存取[J];現(xiàn)代計(jì)算機(jī);1997年05期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測(cè)[A];第29屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年

2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年

3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年

4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年

7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測(cè)[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年

8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年

9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2001年

10 江荻;;藏語文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前1條

1 戴洪玲;向Excel中快速輸入相同文本[N];中國(guó)電腦教育報(bào);2004年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年

2 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年

3 韓磊;漢語句義結(jié)構(gòu)模型分析及其文本表示方法研究[D];北京理工大學(xué);2016年

4 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年

5 孫曉華;基于聚類的文本機(jī)會(huì)發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學(xué);2010年

6 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年

7 霍躍紅;典籍英譯譯者文體分析與文本的譯者識(shí)別[D];大連理工大學(xué);2010年

8 熊云波;文本信息處理的若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2006年

9 李自強(qiáng);大規(guī)模文本分類的若干問題研究[D];電子科技大學(xué);2013年

10 楊震;文本分類和聚類中若干問題的研究[D];北京郵電大學(xué);2007年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實(shí)現(xiàn)[D];南京信息工程大學(xué);2015年

2 李少卿;不良文本及其變體信息的檢測(cè)過濾技術(shù)研究[D];復(fù)旦大學(xué);2014年

3 楊名陽;基于空間文本數(shù)據(jù)的k近鄰連接研究[D];上海交通大學(xué);2015年

4 李天彩;短文本信息流的會(huì)話抽取與分析技術(shù)研究[D];解放軍信息工程大學(xué);2015年

5 陳亮宇;面向微博文本的事件抽取[D];東南大學(xué);2015年

6 許慧芳;基于全覆蓋粒計(jì)算模型的文本表示和特征提取研究[D];太原理工大學(xué);2016年

7 王煒;面向網(wǎng)絡(luò)輿情的文本語義傾向性分類算法研究[D];河北工程大學(xué);2016年

8 任倚天;基于支持向量機(jī)的海量文本分類并行化技術(shù)研究[D];北京理工大學(xué);2016年

9 光順利;基于Spark的文本分類的研究[D];長(zhǎng)春工業(yè)大學(xué);2016年

10 張高祥;基于SVM的文本信息過濾算法研究[D];吉林大學(xué);2016年


  本文關(guān)鍵詞:針對(duì)文本情感分類的特征生成方法研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):376493

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/376493.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3d0ac***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
日本免费熟女一区二区三区| 男人和女人黄 色大片| 亚洲国产精品肉丝袜久久| 免费黄片视频美女一区| 国产精品国三级国产专不卡| 日本女人亚洲国产性高潮视频| 中文字幕一区二区久久综合| 午夜精品国产精品久久久| 日韩中文字幕人妻精品| 91欧美激情在线视频| 色婷婷丁香激情五月天| 国产户外勾引精品露出一区| 国产原创中文av在线播放| 韩国日本欧美国产三级| 中文字幕无线码一区欧美| 国产精品一区二区成人在线| 国产精品内射视频免费| 91在线国内在线中文字幕| 好吊色欧美一区二区三区顽频 | 亚洲熟妇熟女久久精品| 中文字幕亚洲人妻在线视频| 亚洲精品福利视频在线观看| 国产精品亚洲综合天堂夜夜| 好东西一起分享老鸭窝| 欧美人禽色视频免费看| 色婷婷日本视频在线观看| 在线懂色一区二区三区精品| 亚洲婷婷开心色四房播播| 午夜国产精品国自产拍av| 欧美欧美欧美欧美一区| 激情五月天深爱丁香婷婷| 欧美成人免费一级特黄| 亚洲一区二区三区四区性色av| 欧美日韩精品久久亚洲区熟妇人| 日韩黄色一级片免费收看| 精品推荐久久久国产av| 亚洲最新av在线观看| 成人你懂的在线免费视频| 欧美在线视频一区观看| 欧美黄色黑人一区二区| 好吊妞视频这里有精品|