天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 管理論文 > 信息管理論文 >

基于文本挖掘的文本情緒分類

發(fā)布時(shí)間:2017-07-27 03:22

  本文關(guān)鍵詞:基于文本挖掘的文本情緒分類


  更多相關(guān)文章: 文本分類 文本特征 不平衡分類數(shù)據(jù) 降維 交叉驗(yàn)證 非參數(shù)假設(shè)檢驗(yàn)


【摘要】:隨著信息技術(shù)的進(jìn)步,人們生活中出現(xiàn)了大量的、甚至海量的數(shù)據(jù),其中蘊(yùn)含著大量的價(jià)值,這就是“大數(shù)據(jù)”。金融行業(yè)與互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展產(chǎn)生的大量的互聯(lián)網(wǎng)上的與金融相關(guān)的一種金融大數(shù)據(jù):互聯(lián)網(wǎng)中儲(chǔ)存的金融文本數(shù)據(jù)。通過(guò)對(duì)這些類型的數(shù)據(jù)進(jìn)行分析,提取其中的價(jià)值,是大勢(shì)所趨。對(duì)于文本數(shù)據(jù)進(jìn)行分析,文本挖掘技術(shù)是行之有效的方法。文本挖掘包括文本數(shù)據(jù)收集、文本信息提取、文本數(shù)據(jù)建模等多方面的研究?jī)?nèi)容,本文基于文本挖掘中的文本分類方法對(duì)一組實(shí)際中常出現(xiàn)的“股吧”評(píng)論、帖子文本數(shù)據(jù)進(jìn)行情緒分類。對(duì)于“股吧”文本數(shù)據(jù)的分析,本文使用從非結(jié)構(gòu)化數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化而進(jìn)行建模的思路,首先說(shuō)明如何得到一組與"股吧"信息一一對(duì)應(yīng)的文本特征數(shù)據(jù),并基于此數(shù)據(jù)進(jìn)行分類建模。對(duì)于文本特征數(shù)據(jù)的建模,本文基于“數(shù)據(jù)驅(qū)動(dòng)”的建模方式,即從“股吧”文本數(shù)據(jù)進(jìn)行特征提取之后的文本特征數(shù)據(jù)集出發(fā),通過(guò)交叉驗(yàn)證,尋找合適的分類模型進(jìn)行建模,并提出了基于交叉驗(yàn)證結(jié)果的非參數(shù)統(tǒng)計(jì)的檢驗(yàn)方法,科學(xué)的對(duì)這些模型的泛化能力進(jìn)行評(píng)價(jià),并從中選擇合適的、泛化能力穩(wěn)健的模型對(duì)文本特征數(shù)據(jù)進(jìn)行分類,從而完成對(duì)“股吧”文本數(shù)據(jù)進(jìn)行分類。其中,本文提出了一種基于兩分類模型的多重多折的交叉研究結(jié)果,使用適用于成對(duì)數(shù)據(jù)檢驗(yàn)的非參數(shù)檢驗(yàn)方法檢驗(yàn)兩模型建模效果的差異,提出了穩(wěn)健的兩模型泛化能力的比較方法。這也是本文的創(chuàng)新之處。本文在第一章的引言部分五節(jié)內(nèi)容說(shuō)明研究背景、研究問(wèn)題、研究?jī)?nèi)容以及研究意義;其次,本文提出建模思路以及介紹、說(shuō)明研究過(guò)程中使用的分類模型理論、降維理論、不平衡分類數(shù)據(jù)建模理論、多重多折的交叉驗(yàn)證理論以及非參數(shù)假設(shè)檢驗(yàn)理論;再次,本文通過(guò)對(duì)一組實(shí)際的“股吧”文本特征數(shù)據(jù)進(jìn)行建模分析,并得出結(jié)論;最后,說(shuō)明本文的研究結(jié)論與不足之處,以及展望了今后的研究方向。
【關(guān)鍵詞】:文本分類 文本特征 不平衡分類數(shù)據(jù) 降維 交叉驗(yàn)證 非參數(shù)假設(shè)檢驗(yàn)
【學(xué)位授予單位】:云南財(cái)經(jīng)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1;F49
【目錄】:
  • 摘要3-4
  • ABSTRACT4-8
  • 第一章 引言8-22
  • 第一節(jié) 研究背景8-13
  • 一、對(duì)“大數(shù)據(jù)”的討論8-9
  • 二、金融大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)的介紹9-10
  • 三、一種存在于互聯(lián)網(wǎng)的金融大數(shù)據(jù):股吧文本數(shù)據(jù)10-11
  • 四、文本挖掘11-13
  • 第二節(jié) 提出問(wèn)題13-17
  • 一、研究對(duì)象13-14
  • 二、相關(guān)金融理論與實(shí)際應(yīng)用14-15
  • 三、研究目的15
  • 四、研究思路15-17
  • 第三節(jié) 本文研究?jī)?nèi)容及研究意義17-18
  • 一、研究?jī)?nèi)容17-18
  • 二、研究意義18
  • 第四節(jié) 國(guó)內(nèi)外研究現(xiàn)狀18-22
  • 一、文本挖掘與文本分類18-19
  • 二、分類模型19
  • 三、不平衡分類理論19-20
  • 四、降維理論20
  • 五、交叉驗(yàn)證20
  • 六、非參數(shù)假設(shè)檢驗(yàn)20-22
  • 第二章 理論及方法介紹22-37
  • 第一節(jié) 建模思路分析22-28
  • 一、文本數(shù)據(jù)的收集22-23
  • 二、文本特征數(shù)據(jù)提取23-25
  • 三、提出建模思路25-28
  • 第二節(jié) 相關(guān)方法介紹28-37
  • 一、分類模型28-31
  • 二、降維方法31-32
  • 三、不平衡數(shù)據(jù)32-33
  • 四、交叉驗(yàn)證33-34
  • 五、非參數(shù)假設(shè)檢驗(yàn)34-37
  • 第三章 數(shù)據(jù)分析及建模37-44
  • 第一節(jié) 數(shù)據(jù)收集37-38
  • 第二節(jié) 數(shù)據(jù)集探索性分析38-39
  • 第三節(jié) 模型建立39-44
  • 一、建立分類樹(shù)模型40-41
  • 二、降維41-42
  • 三、不平衡分類問(wèn)題的考慮42
  • 四、隨機(jī)森林與SVD降維分類樹(shù)的比較42-43
  • 五、檢驗(yàn)隨機(jī)森林模型有效性43-44
  • 第四章 結(jié)論44-46
  • 參考文獻(xiàn)46-50
  • 附錄A50-51
  • 附錄B51-56
  • 致謝56-57
  • 在讀期間研究成果57

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 張?chǎng)?許鑫;;文本挖掘工具述評(píng)[J];圖書(shū)情報(bào)工作;2012年08期

2 邢鴻飛;;文本挖掘口角升溫[J];世界科學(xué);2013年05期

3 蔣良孝,蔡之華;文本挖掘及其應(yīng)用[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2003年02期

4 諶志群;張國(guó)煊;;文本挖掘研究進(jìn)展[J];模式識(shí)別與人工智能;2005年01期

5 王娜;李云松;;基于概念格的文本挖掘[J];計(jì)算機(jī)技術(shù)與發(fā)展;2006年01期

6 黃維金;顧益軍;;刑偵檔案文本挖掘系統(tǒng)平臺(tái)中的文本精煉初探[J];中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年02期

7 張燕;寒楓;楚紅濤;;文本挖掘簡(jiǎn)述[J];中國(guó)電力教育;2006年S3期

8 韓春;田大鋼;;對(duì)股票市場(chǎng)信息的文本挖掘[J];中國(guó)高新技術(shù)企業(yè);2008年23期

9 程志;黃榮懷;;文本挖掘及其教育應(yīng)用[J];現(xiàn)代遠(yuǎn)距離教育;2008年02期

10 鞏知樂(lè);張德賢;;文本挖掘理論概述[J];福建電腦;2008年09期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 陳林;王曉華;李殿峗;文俊浩;;基于自增模式的文本挖掘研究[A];’2004計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)議論文集[C];2004年

2 王巍;楊武;張樂(lè)君;鄭軍;;支持網(wǎng)絡(luò)話題管理的文本挖掘算法分析[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(下冊(cè))[C];2007年

3 王繼成;孫穎;張福炎;;文本挖掘-數(shù)據(jù)挖掘研究的新課題[A];第十六屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1999年

4 高飛;荊繼武;向繼;;文本挖掘系統(tǒng)的可視化方法研究[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年

5 朱強(qiáng)生;田英;周延泉;何華燦;;基于非負(fù)因子分析的模糊文本挖掘[A];2006通信理論與技術(shù)新進(jìn)展——第十一屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2006年

6 錢(qián)程揚(yáng);龍毅;徐震;孫昊;;基于Web文本挖掘的地理位置信息重建技術(shù)[A];中國(guó)地理學(xué)會(huì)2007年學(xué)術(shù)年會(huì)論文摘要集[C];2007年

7 蔣子海;周斌;吳泉源;;基于UIMA AS的文本挖掘系統(tǒng)的性能分析與評(píng)估[A];全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集·第二十五卷[C];2010年

8 邱曉蕾;張聰超;;基于SVD和部分聚集分類的文本挖掘算法[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年

9 武洪萍;周?chē)?guó)祥;;Web文本挖掘研究[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展·2007——全國(guó)第18屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集[C];2007年

10 陳宇;王強(qiáng);;聚類算法在Web文本挖掘中的應(yīng)用研究[A];2009全國(guó)計(jì)算機(jī)網(wǎng)絡(luò)與通信學(xué)術(shù)會(huì)議論文集[C];2009年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前4條

1 本報(bào)記者 施鵬;非結(jié)構(gòu)信息和文本挖掘[N];21世紀(jì)經(jīng)濟(jì)報(bào)道;2009年

2 周青 編譯;文本挖掘工具實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)價(jià)值[N];計(jì)算機(jī)世界;2004年

3 ;SAS公司收購(gòu)Teragram 強(qiáng)化BI領(lǐng)域地位[N];計(jì)算機(jī)世界;2008年

4 ;用挖掘技術(shù)使學(xué)術(shù)資源利用效益最大化[N];中國(guó)計(jì)算機(jī)報(bào);2007年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 曹奇敏;網(wǎng)絡(luò)信息文本挖掘若干問(wèn)題研究[D];北京理工大學(xué);2015年

2 陳虹樞;基于主題模型的專利文本挖掘方法及應(yīng)用研究[D];北京理工大學(xué);2015年

3 李梅;文本挖掘中若干關(guān)鍵技術(shù)研究[D];西北農(nóng)林科技大學(xué);2016年

4 袁鋒;中醫(yī)醫(yī)案文本挖掘的若干關(guān)鍵技術(shù)研究[D];山東師范大學(xué);2016年

5 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年

6 周雪忠;文本挖掘在中醫(yī)藥中的若干應(yīng)用研究[D];浙江大學(xué);2004年

7 王明春;基于粗糙集的數(shù)據(jù)及文本挖掘方法研究[D];天津大學(xué);2005年

8 李芳;文本挖掘若干關(guān)鍵技術(shù)研究[D];北京化工大學(xué);2010年

9 文翰;面向信息檢索的Web文本挖掘方法研究[D];華南理工大學(xué);2012年

10 卜東波;聚類/分類理論研究及其在文本挖掘中的應(yīng)用[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2000年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 張馨允;基于Spark的Web文本挖掘系統(tǒng)的研究與實(shí)現(xiàn)[D];吉林大學(xué);2016年

2 王釗;基于Hadoop的文本挖掘研究與應(yīng)用[D];廣東工業(yè)大學(xué);2016年

3 黃建澍;面向人大代表議案處理的文本挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];中國(guó)科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院);2016年

4 徐奇釗;基于文本挖掘的文本情緒分類[D];云南財(cái)經(jīng)大學(xué);2016年

5 鄒運(yùn)懷;基于文本挖掘的道岔故障分類研究[D];北京交通大學(xué);2016年

6 王萍;基于Web文本挖掘的電子商務(wù)專業(yè)人才市場(chǎng)需求研究[D];重慶工商大學(xué);2016年

7 盛華;聚類分析在文本挖掘中的應(yīng)用與研究[D];江南大學(xué);2016年

8 劉超;業(yè)界專家的媒體發(fā)言對(duì)公司股價(jià)影響的分析[D];上海師范大學(xué);2016年

9 吳亞宇;基于文本挖掘的年報(bào)情感與上市公司業(yè)績(jī)的關(guān)系研究[D];中國(guó)地質(zhì)大學(xué)(北京);2016年

10 高希瑞;基于文本挖掘的企業(yè)危機(jī)預(yù)警研究[D];華東師范大學(xué);2011年



本文編號(hào):579630

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/sjfx/579630.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶35d0c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
国产一区二区三中文字幕| 亚洲视频在线观看免费中文字幕| 久久精品国产亚洲av麻豆| 国产情侣激情在线对白| 韩国日本欧美国产三级| 精品人妻一区二区三区四区久久| 欧美一级特黄特色大色大片| 国产又粗又猛又爽色噜噜| 99国产成人免费一区二区| 欧美一区二区在线日韩| 国产传媒精品视频一区| 国产精品欧美一区二区三区| 成人精品亚洲欧美日韩| 午夜福利在线观看免费| 麻豆果冻传媒一二三区| 日韩一区二区免费在线观看| 能在线看的视频你懂的| 天堂网中文字幕在线观看| 日韩精品综合福利在线观看| 国产麻豆成人精品区在线观看| 丁香六月啪啪激情综合区| 国产成人午夜福利片片| 国产精品久久三级精品| 日本道播放一区二区三区| 老熟妇2久久国内精品| 国产免费成人激情视频| 国内午夜精品视频在线观看| 国产欧洲亚洲日产一区二区| 国产精品视频一级香蕉| 91偷拍裸体一区二区三区| 亚洲欧美日韩国产自拍| 色婷婷国产熟妇人妻露脸| 国产精品免费不卡视频| 欧美日韩精品人妻二区三区| 午夜福利视频偷拍91| 激情内射亚洲一区二区三区| 欧美整片精品日韩综合| 欧美黑人在线精品极品| 国产精品一区二区三区激情| 香蕉久久夜色精品国产尤物| 国产欧美性成人精品午夜|