基于文本挖掘的文本情緒分類

發(fā)布時(shí)間：2017-07-27 03:22

本文關(guān)鍵詞：基于文本挖掘的文本情緒分類

【摘要】：隨著信息技術(shù)的進(jìn)步,人們生活中出現(xiàn)了大量的、甚至海量的數(shù)據(jù),其中蘊(yùn)含著大量的價(jià)值,這就是“大數(shù)據(jù)”。金融行業(yè)與互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展產(chǎn)生的大量的互聯(lián)網(wǎng)上的與金融相關(guān)的一種金融大數(shù)據(jù):互聯(lián)網(wǎng)中儲(chǔ)存的金融文本數(shù)據(jù)。通過(guò)對(duì)這些類型的數(shù)據(jù)進(jìn)行分析,提取其中的價(jià)值,是大勢(shì)所趨。對(duì)于文本數(shù)據(jù)進(jìn)行分析,文本挖掘技術(shù)是行之有效的方法。文本挖掘包括文本數(shù)據(jù)收集、文本信息提取、文本數(shù)據(jù)建模等多方面的研究?jī)?nèi)容,本文基于文本挖掘中的文本分類方法對(duì)一組實(shí)際中常出現(xiàn)的“股吧”評(píng)論、帖子文本數(shù)據(jù)進(jìn)行情緒分類。對(duì)于“股吧”文本數(shù)據(jù)的分析,本文使用從非結(jié)構(gòu)化數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化而進(jìn)行建模的思路,首先說(shuō)明如何得到一組與"股吧"信息一一對(duì)應(yīng)的文本特征數(shù)據(jù),并基于此數(shù)據(jù)進(jìn)行分類建模。對(duì)于文本特征數(shù)據(jù)的建模,本文基于“數(shù)據(jù)驅(qū)動(dòng)”的建模方式,即從“股吧”文本數(shù)據(jù)進(jìn)行特征提取之后的文本特征數(shù)據(jù)集出發(fā),通過(guò)交叉驗(yàn)證,尋找合適的分類模型進(jìn)行建模,并提出了基于交叉驗(yàn)證結(jié)果的非參數(shù)統(tǒng)計(jì)的檢驗(yàn)方法,科學(xué)的對(duì)這些模型的泛化能力進(jìn)行評(píng)價(jià),并從中選擇合適的、泛化能力穩(wěn)健的模型對(duì)文本特征數(shù)據(jù)進(jìn)行分類,從而完成對(duì)“股吧”文本數(shù)據(jù)進(jìn)行分類。其中,本文提出了一種基于兩分類模型的多重多折的交叉研究結(jié)果,使用適用于成對(duì)數(shù)據(jù)檢驗(yàn)的非參數(shù)檢驗(yàn)方法檢驗(yàn)兩模型建模效果的差異,提出了穩(wěn)健的兩模型泛化能力的比較方法。這也是本文的創(chuàng)新之處。本文在第一章的引言部分五節(jié)內(nèi)容說(shuō)明研究背景、研究問(wèn)題、研究?jī)?nèi)容以及研究意義;其次,本文提出建模思路以及介紹、說(shuō)明研究過(guò)程中使用的分類模型理論、降維理論、不平衡分類數(shù)據(jù)建模理論、多重多折的交叉驗(yàn)證理論以及非參數(shù)假設(shè)檢驗(yàn)理論;再次,本文通過(guò)對(duì)一組實(shí)際的“股吧”文本特征數(shù)據(jù)進(jìn)行建模分析,并得出結(jié)論;最后,說(shuō)明本文的研究結(jié)論與不足之處,以及展望了今后的研究方向。
【關(guān)鍵詞】：文本分類 文本特征 不平衡分類數(shù)據(jù) 降維 交叉驗(yàn)證 非參數(shù)假設(shè)檢驗(yàn)
【學(xué)位授予單位】：云南財(cái)經(jīng)大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2016
【分類號(hào)】：TP391.1;F49
【目錄】：

摘要3-4
ABSTRACT4-8
第一章引言8-22
第一節(jié) 研究背景8-13
一、對(duì)“大數(shù)據(jù)”的討論8-9
二、金融大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)的介紹9-10
三、一種存在于互聯(lián)網(wǎng)的金融大數(shù)據(jù)：股吧文本數(shù)據(jù)10-11
四、文本挖掘11-13
第二節(jié) 提出問(wèn)題13-17
一、研究對(duì)象13-14
二、相關(guān)金融理論與實(shí)際應(yīng)用14-15
三、研究目的15
四、研究思路15-17
第三節(jié) 本文研究?jī)?nèi)容及研究意義17-18
一、研究?jī)?nèi)容17-18
二、研究意義18
第四節(jié) 國(guó)內(nèi)外研究現(xiàn)狀18-22
一、文本挖掘與文本分類18-19
二、分類模型19
三、不平衡分類理論19-20
四、降維理論20
五、交叉驗(yàn)證20
六、非參數(shù)假設(shè)檢驗(yàn)20-22
第二章理論及方法介紹22-37
第一節(jié) 建模思路分析22-28
一、文本數(shù)據(jù)的收集22-23
二、文本特征數(shù)據(jù)提取23-25
三、提出建模思路25-28
第二節(jié) 相關(guān)方法介紹28-37
一、分類模型28-31
二、降維方法31-32
三、不平衡數(shù)據(jù)32-33
四、交叉驗(yàn)證33-34
五、非參數(shù)假設(shè)檢驗(yàn)34-37
第三章數(shù)據(jù)分析及建模37-44
第一節(jié) 數(shù)據(jù)收集37-38
第二節(jié) 數(shù)據(jù)集探索性分析38-39
第三節(jié) 模型建立39-44
一、建立分類樹(shù)模型40-41
二、降維41-42
三、不平衡分類問(wèn)題的考慮42
四、隨機(jī)森林與SVD降維分類樹(shù)的比較42-43
五、檢驗(yàn)隨機(jī)森林模型有效性43-44
第四章結(jié)論44-46
參考文獻(xiàn)46-50
附錄A50-51
附錄B51-56
致謝56-57
在讀期間研究成果57

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 張?chǎng)?許鑫;;文本挖掘工具述評(píng)[J];圖書(shū)情報(bào)工作;2012年08期

2 邢鴻飛;;文本挖掘口角升溫[J];世界科學(xué);2013年05期

3 蔣良孝,蔡之華;文本挖掘及其應(yīng)用[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2003年02期

4 諶志群;張國(guó)煊;;文本挖掘研究進(jìn)展[J];模式識(shí)別與人工智能;2005年01期

5 王娜;李云松;;基于概念格的文本挖掘[J];計(jì)算機(jī)技術(shù)與發(fā)展;2006年01期

6 黃維金;顧益軍;;刑偵檔案文本挖掘系統(tǒng)平臺(tái)中的文本精煉初探[J];中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年02期

7 張燕;寒楓;楚紅濤;;文本挖掘簡(jiǎn)述[J];中國(guó)電力教育;2006年S3期

8 韓春;田大鋼;;對(duì)股票市場(chǎng)信息的文本挖掘[J];中國(guó)高新技術(shù)企業(yè);2008年23期

9 程志;黃榮懷;;文本挖掘及其教育應(yīng)用[J];現(xiàn)代遠(yuǎn)距離教育;2008年02期

10 鞏知樂(lè);張德賢;;文本挖掘理論概述[J];福建電腦;2008年09期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 陳林;王曉華;李殿峗;文俊浩;;基于自增模式的文本挖掘研究[A];’2004計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)議論文集[C];2004年

2 王巍;楊武;張樂(lè)君;鄭軍;;支持網(wǎng)絡(luò)話題管理的文本挖掘算法分析[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集（下冊(cè)）[C];2007年

3 王繼成;孫穎;張福炎;;文本挖掘-數(shù)據(jù)挖掘研究的新課題[A];第十六屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1999年

4 高飛;荊繼武;向繼;;文本挖掘系統(tǒng)的可視化方法研究[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集（上冊(cè)）[C];2007年

5 朱強(qiáng)生;田英;周延泉;何華燦;;基于非負(fù)因子分析的模糊文本挖掘[A];2006通信理論與技術(shù)新進(jìn)展——第十一屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2006年

6 錢(qián)程揚(yáng);龍毅;徐震;孫昊;;基于Web文本挖掘的地理位置信息重建技術(shù)[A];中國(guó)地理學(xué)會(huì)2007年學(xué)術(shù)年會(huì)論文摘要集[C];2007年

7 蔣子海;周斌;吳泉源;;基于UIMA AS的文本挖掘系統(tǒng)的性能分析與評(píng)估[A];全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集·第二十五卷[C];2010年

8 邱曉蕾;張聰超;;基于SVD和部分聚集分類的文本挖掘算法[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議（NCIRCS-2005）論文集[C];2005年

9 武洪萍;周?chē)?guó)祥;;Web文本挖掘研究[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展·2007——全國(guó)第18屆計(jì)算機(jī)技術(shù)與應(yīng)用（CACIS）學(xué)術(shù)會(huì)議論文集[C];2007年

10 陳宇;王強(qiáng);;聚類算法在Web文本挖掘中的應(yīng)用研究[A];2009全國(guó)計(jì)算機(jī)網(wǎng)絡(luò)與通信學(xué)術(shù)會(huì)議論文集[C];2009年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前4條

1 本報(bào)記者施鵬;非結(jié)構(gòu)信息和文本挖掘[N];21世紀(jì)經(jīng)濟(jì)報(bào)道;2009年

2 周青編譯;文本挖掘工具實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)價(jià)值[N];計(jì)算機(jī)世界;2004年

3 ;SAS公司收購(gòu)Teragram 強(qiáng)化BI領(lǐng)域地位[N];計(jì)算機(jī)世界;2008年

4 ;用挖掘技術(shù)使學(xué)術(shù)資源利用效益最大化[N];中國(guó)計(jì)算機(jī)報(bào);2007年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 曹奇敏;網(wǎng)絡(luò)信息文本挖掘若干問(wèn)題研究[D];北京理工大學(xué);2015年

2 陳虹樞;基于主題模型的專利文本挖掘方法及應(yīng)用研究[D];北京理工大學(xué);2015年

3 李梅;文本挖掘中若干關(guān)鍵技術(shù)研究[D];西北農(nóng)林科技大學(xué);2016年

4 袁鋒;中醫(yī)醫(yī)案文本挖掘的若干關(guān)鍵技術(shù)研究[D];山東師范大學(xué);2016年

5 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年

6 周雪忠;文本挖掘在中醫(yī)藥中的若干應(yīng)用研究[D];浙江大學(xué);2004年

7 王明春;基于粗糙集的數(shù)據(jù)及文本挖掘方法研究[D];天津大學(xué);2005年

8 李芳;文本挖掘若干關(guān)鍵技術(shù)研究[D];北京化工大學(xué);2010年

9 文翰;面向信息檢索的Web文本挖掘方法研究[D];華南理工大學(xué);2012年

10 卜東波;聚類/分類理論研究及其在文本挖掘中的應(yīng)用[D];中國(guó)科學(xué)院研究生院（計(jì)算技術(shù)研究所）;2000年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 張馨允;基于Spark的Web文本挖掘系統(tǒng)的研究與實(shí)現(xiàn)[D];吉林大學(xué);2016年

2 王釗;基于Hadoop的文本挖掘研究與應(yīng)用[D];廣東工業(yè)大學(xué);2016年

3 黃建澍;面向人大代表議案處理的文本挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];中國(guó)科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院);2016年

4 徐奇釗;基于文本挖掘的文本情緒分類[D];云南財(cái)經(jīng)大學(xué);2016年

5 鄒運(yùn)懷;基于文本挖掘的道岔故障分類研究[D];北京交通大學(xué);2016年

6 王萍;基于Web文本挖掘的電子商務(wù)專業(yè)人才市場(chǎng)需求研究[D];重慶工商大學(xué);2016年

7 盛華;聚類分析在文本挖掘中的應(yīng)用與研究[D];江南大學(xué);2016年

8 劉超;業(yè)界專家的媒體發(fā)言對(duì)公司股價(jià)影響的分析[D];上海師范大學(xué);2016年

9 吳亞宇;基于文本挖掘的年報(bào)情感與上市公司業(yè)績(jī)的關(guān)系研究[D];中國(guó)地質(zhì)大學(xué)(北京);2016年

10 高希瑞;基于文本挖掘的企業(yè)危機(jī)預(yù)警研究[D];華東師范大學(xué);2011年

，

本文編號(hào)：579630

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/sjfx/579630.html

上一篇：DL通信設(shè)備公司技術(shù)創(chuàng)新體系優(yōu)化設(shè)計(jì)
下一篇：中國(guó)移動(dòng)網(wǎng)上營(yíng)業(yè)廳發(fā)展現(xiàn)狀分析與用戶使用行為研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于文本挖掘的文本情緒分類