基于文本挖掘的文本情緒分類
本文關(guān)鍵詞:基于文本挖掘的文本情緒分類
更多相關(guān)文章: 文本分類 文本特征 不平衡分類數(shù)據(jù) 降維 交叉驗(yàn)證 非參數(shù)假設(shè)檢驗(yàn)
【摘要】:隨著信息技術(shù)的進(jìn)步,人們生活中出現(xiàn)了大量的、甚至海量的數(shù)據(jù),其中蘊(yùn)含著大量的價(jià)值,這就是“大數(shù)據(jù)”。金融行業(yè)與互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展產(chǎn)生的大量的互聯(lián)網(wǎng)上的與金融相關(guān)的一種金融大數(shù)據(jù):互聯(lián)網(wǎng)中儲(chǔ)存的金融文本數(shù)據(jù)。通過(guò)對(duì)這些類型的數(shù)據(jù)進(jìn)行分析,提取其中的價(jià)值,是大勢(shì)所趨。對(duì)于文本數(shù)據(jù)進(jìn)行分析,文本挖掘技術(shù)是行之有效的方法。文本挖掘包括文本數(shù)據(jù)收集、文本信息提取、文本數(shù)據(jù)建模等多方面的研究?jī)?nèi)容,本文基于文本挖掘中的文本分類方法對(duì)一組實(shí)際中常出現(xiàn)的“股吧”評(píng)論、帖子文本數(shù)據(jù)進(jìn)行情緒分類。對(duì)于“股吧”文本數(shù)據(jù)的分析,本文使用從非結(jié)構(gòu)化數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化而進(jìn)行建模的思路,首先說(shuō)明如何得到一組與"股吧"信息一一對(duì)應(yīng)的文本特征數(shù)據(jù),并基于此數(shù)據(jù)進(jìn)行分類建模。對(duì)于文本特征數(shù)據(jù)的建模,本文基于“數(shù)據(jù)驅(qū)動(dòng)”的建模方式,即從“股吧”文本數(shù)據(jù)進(jìn)行特征提取之后的文本特征數(shù)據(jù)集出發(fā),通過(guò)交叉驗(yàn)證,尋找合適的分類模型進(jìn)行建模,并提出了基于交叉驗(yàn)證結(jié)果的非參數(shù)統(tǒng)計(jì)的檢驗(yàn)方法,科學(xué)的對(duì)這些模型的泛化能力進(jìn)行評(píng)價(jià),并從中選擇合適的、泛化能力穩(wěn)健的模型對(duì)文本特征數(shù)據(jù)進(jìn)行分類,從而完成對(duì)“股吧”文本數(shù)據(jù)進(jìn)行分類。其中,本文提出了一種基于兩分類模型的多重多折的交叉研究結(jié)果,使用適用于成對(duì)數(shù)據(jù)檢驗(yàn)的非參數(shù)檢驗(yàn)方法檢驗(yàn)兩模型建模效果的差異,提出了穩(wěn)健的兩模型泛化能力的比較方法。這也是本文的創(chuàng)新之處。本文在第一章的引言部分五節(jié)內(nèi)容說(shuō)明研究背景、研究問(wèn)題、研究?jī)?nèi)容以及研究意義;其次,本文提出建模思路以及介紹、說(shuō)明研究過(guò)程中使用的分類模型理論、降維理論、不平衡分類數(shù)據(jù)建模理論、多重多折的交叉驗(yàn)證理論以及非參數(shù)假設(shè)檢驗(yàn)理論;再次,本文通過(guò)對(duì)一組實(shí)際的“股吧”文本特征數(shù)據(jù)進(jìn)行建模分析,并得出結(jié)論;最后,說(shuō)明本文的研究結(jié)論與不足之處,以及展望了今后的研究方向。
【關(guān)鍵詞】:文本分類 文本特征 不平衡分類數(shù)據(jù) 降維 交叉驗(yàn)證 非參數(shù)假設(shè)檢驗(yàn)
【學(xué)位授予單位】:云南財(cái)經(jīng)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1;F49
【目錄】:
- 摘要3-4
- ABSTRACT4-8
- 第一章 引言8-22
- 第一節(jié) 研究背景8-13
- 一、對(duì)“大數(shù)據(jù)”的討論8-9
- 二、金融大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)的介紹9-10
- 三、一種存在于互聯(lián)網(wǎng)的金融大數(shù)據(jù):股吧文本數(shù)據(jù)10-11
- 四、文本挖掘11-13
- 第二節(jié) 提出問(wèn)題13-17
- 一、研究對(duì)象13-14
- 二、相關(guān)金融理論與實(shí)際應(yīng)用14-15
- 三、研究目的15
- 四、研究思路15-17
- 第三節(jié) 本文研究?jī)?nèi)容及研究意義17-18
- 一、研究?jī)?nèi)容17-18
- 二、研究意義18
- 第四節(jié) 國(guó)內(nèi)外研究現(xiàn)狀18-22
- 一、文本挖掘與文本分類18-19
- 二、分類模型19
- 三、不平衡分類理論19-20
- 四、降維理論20
- 五、交叉驗(yàn)證20
- 六、非參數(shù)假設(shè)檢驗(yàn)20-22
- 第二章 理論及方法介紹22-37
- 第一節(jié) 建模思路分析22-28
- 一、文本數(shù)據(jù)的收集22-23
- 二、文本特征數(shù)據(jù)提取23-25
- 三、提出建模思路25-28
- 第二節(jié) 相關(guān)方法介紹28-37
- 一、分類模型28-31
- 二、降維方法31-32
- 三、不平衡數(shù)據(jù)32-33
- 四、交叉驗(yàn)證33-34
- 五、非參數(shù)假設(shè)檢驗(yàn)34-37
- 第三章 數(shù)據(jù)分析及建模37-44
- 第一節(jié) 數(shù)據(jù)收集37-38
- 第二節(jié) 數(shù)據(jù)集探索性分析38-39
- 第三節(jié) 模型建立39-44
- 一、建立分類樹(shù)模型40-41
- 二、降維41-42
- 三、不平衡分類問(wèn)題的考慮42
- 四、隨機(jī)森林與SVD降維分類樹(shù)的比較42-43
- 五、檢驗(yàn)隨機(jī)森林模型有效性43-44
- 第四章 結(jié)論44-46
- 參考文獻(xiàn)46-50
- 附錄A50-51
- 附錄B51-56
- 致謝56-57
- 在讀期間研究成果57
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 張?chǎng)?許鑫;;文本挖掘工具述評(píng)[J];圖書(shū)情報(bào)工作;2012年08期
2 邢鴻飛;;文本挖掘口角升溫[J];世界科學(xué);2013年05期
3 蔣良孝,蔡之華;文本挖掘及其應(yīng)用[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2003年02期
4 諶志群;張國(guó)煊;;文本挖掘研究進(jìn)展[J];模式識(shí)別與人工智能;2005年01期
5 王娜;李云松;;基于概念格的文本挖掘[J];計(jì)算機(jī)技術(shù)與發(fā)展;2006年01期
6 黃維金;顧益軍;;刑偵檔案文本挖掘系統(tǒng)平臺(tái)中的文本精煉初探[J];中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年02期
7 張燕;寒楓;楚紅濤;;文本挖掘簡(jiǎn)述[J];中國(guó)電力教育;2006年S3期
8 韓春;田大鋼;;對(duì)股票市場(chǎng)信息的文本挖掘[J];中國(guó)高新技術(shù)企業(yè);2008年23期
9 程志;黃榮懷;;文本挖掘及其教育應(yīng)用[J];現(xiàn)代遠(yuǎn)距離教育;2008年02期
10 鞏知樂(lè);張德賢;;文本挖掘理論概述[J];福建電腦;2008年09期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 陳林;王曉華;李殿峗;文俊浩;;基于自增模式的文本挖掘研究[A];’2004計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)議論文集[C];2004年
2 王巍;楊武;張樂(lè)君;鄭軍;;支持網(wǎng)絡(luò)話題管理的文本挖掘算法分析[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(下冊(cè))[C];2007年
3 王繼成;孫穎;張福炎;;文本挖掘-數(shù)據(jù)挖掘研究的新課題[A];第十六屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1999年
4 高飛;荊繼武;向繼;;文本挖掘系統(tǒng)的可視化方法研究[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年
5 朱強(qiáng)生;田英;周延泉;何華燦;;基于非負(fù)因子分析的模糊文本挖掘[A];2006通信理論與技術(shù)新進(jìn)展——第十一屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2006年
6 錢(qián)程揚(yáng);龍毅;徐震;孫昊;;基于Web文本挖掘的地理位置信息重建技術(shù)[A];中國(guó)地理學(xué)會(huì)2007年學(xué)術(shù)年會(huì)論文摘要集[C];2007年
7 蔣子海;周斌;吳泉源;;基于UIMA AS的文本挖掘系統(tǒng)的性能分析與評(píng)估[A];全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集·第二十五卷[C];2010年
8 邱曉蕾;張聰超;;基于SVD和部分聚集分類的文本挖掘算法[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
9 武洪萍;周?chē)?guó)祥;;Web文本挖掘研究[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展·2007——全國(guó)第18屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集[C];2007年
10 陳宇;王強(qiáng);;聚類算法在Web文本挖掘中的應(yīng)用研究[A];2009全國(guó)計(jì)算機(jī)網(wǎng)絡(luò)與通信學(xué)術(shù)會(huì)議論文集[C];2009年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前4條
1 本報(bào)記者 施鵬;非結(jié)構(gòu)信息和文本挖掘[N];21世紀(jì)經(jīng)濟(jì)報(bào)道;2009年
2 周青 編譯;文本挖掘工具實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)價(jià)值[N];計(jì)算機(jī)世界;2004年
3 ;SAS公司收購(gòu)Teragram 強(qiáng)化BI領(lǐng)域地位[N];計(jì)算機(jī)世界;2008年
4 ;用挖掘技術(shù)使學(xué)術(shù)資源利用效益最大化[N];中國(guó)計(jì)算機(jī)報(bào);2007年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 曹奇敏;網(wǎng)絡(luò)信息文本挖掘若干問(wèn)題研究[D];北京理工大學(xué);2015年
2 陳虹樞;基于主題模型的專利文本挖掘方法及應(yīng)用研究[D];北京理工大學(xué);2015年
3 李梅;文本挖掘中若干關(guān)鍵技術(shù)研究[D];西北農(nóng)林科技大學(xué);2016年
4 袁鋒;中醫(yī)醫(yī)案文本挖掘的若干關(guān)鍵技術(shù)研究[D];山東師范大學(xué);2016年
5 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年
6 周雪忠;文本挖掘在中醫(yī)藥中的若干應(yīng)用研究[D];浙江大學(xué);2004年
7 王明春;基于粗糙集的數(shù)據(jù)及文本挖掘方法研究[D];天津大學(xué);2005年
8 李芳;文本挖掘若干關(guān)鍵技術(shù)研究[D];北京化工大學(xué);2010年
9 文翰;面向信息檢索的Web文本挖掘方法研究[D];華南理工大學(xué);2012年
10 卜東波;聚類/分類理論研究及其在文本挖掘中的應(yīng)用[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2000年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 張馨允;基于Spark的Web文本挖掘系統(tǒng)的研究與實(shí)現(xiàn)[D];吉林大學(xué);2016年
2 王釗;基于Hadoop的文本挖掘研究與應(yīng)用[D];廣東工業(yè)大學(xué);2016年
3 黃建澍;面向人大代表議案處理的文本挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];中國(guó)科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院);2016年
4 徐奇釗;基于文本挖掘的文本情緒分類[D];云南財(cái)經(jīng)大學(xué);2016年
5 鄒運(yùn)懷;基于文本挖掘的道岔故障分類研究[D];北京交通大學(xué);2016年
6 王萍;基于Web文本挖掘的電子商務(wù)專業(yè)人才市場(chǎng)需求研究[D];重慶工商大學(xué);2016年
7 盛華;聚類分析在文本挖掘中的應(yīng)用與研究[D];江南大學(xué);2016年
8 劉超;業(yè)界專家的媒體發(fā)言對(duì)公司股價(jià)影響的分析[D];上海師范大學(xué);2016年
9 吳亞宇;基于文本挖掘的年報(bào)情感與上市公司業(yè)績(jī)的關(guān)系研究[D];中國(guó)地質(zhì)大學(xué)(北京);2016年
10 高希瑞;基于文本挖掘的企業(yè)危機(jī)預(yù)警研究[D];華東師范大學(xué);2011年
,本文編號(hào):579630
本文鏈接:http://sikaile.net/guanlilunwen/sjfx/579630.html