股市輿情數(shù)據(jù)的挖掘與分析研究
發(fā)布時(shí)間:2022-10-18 19:41
隨著計(jì)算機(jī)科技的高速發(fā)展與網(wǎng)絡(luò)數(shù)據(jù)信息的激增,數(shù)據(jù)挖據(jù)技術(shù)已經(jīng)逐步成為信息時(shí)代下推動金融股票市場創(chuàng)新發(fā)展的核心力量。在股票市場中越來越多的股民投資者熱衷于在網(wǎng)絡(luò)論壇中交流股市投資心得,由此產(chǎn)生的非結(jié)構(gòu)化股評輿情數(shù)據(jù)成為了影響股票市場健康發(fā)展的重要因素。在有關(guān)網(wǎng)絡(luò)輿情數(shù)據(jù)與股票市場關(guān)系的各類研究中,傳統(tǒng)的股市交易指標(biāo)已經(jīng)無法滿足投資者把握股票市場運(yùn)行規(guī)律的需求。本文基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)對股市輿情數(shù)據(jù)進(jìn)行了挖掘與分析,力求解決股市輿情潛藏情感傾向挖掘能力不足以及相關(guān)交易指標(biāo)預(yù)測結(jié)果不佳的問題,相關(guān)研究工作如下:1.使用爬蟲抓取器,按照特定規(guī)則遍歷解析東方財(cái)富網(wǎng)股吧網(wǎng)頁評論信息及其它特定屬性列表信息作為股市輿情數(shù)據(jù)源。借助多個(gè)處理工具對原始數(shù)據(jù)進(jìn)行去噪聲、去干擾以及分詞、停用詞過濾等預(yù)處理工作,在中文分詞和特征矩陣構(gòu)建的結(jié)構(gòu)化過程中引入TF-IDF加權(quán)技術(shù)和Word2vec表達(dá)技術(shù)實(shí)現(xiàn)非結(jié)構(gòu)文本的量化表示,以提高后續(xù)分類預(yù)測模型的輸入質(zhì)量與學(xué)習(xí)效果。2.以挖掘股市輿情數(shù)據(jù)的情感傾向作為研究目標(biāo),基于樸素貝葉斯和卷積神經(jīng)網(wǎng)絡(luò)兩種思想構(gòu)建股評輿情數(shù)據(jù)情感傾向分類器,根據(jù)分類器評測指標(biāo)對比分...
【文章頁數(shù)】:72 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 基于輿情數(shù)據(jù)的情感分析研究現(xiàn)狀
1.2.2 輿情數(shù)據(jù)情感傾向分類的研究現(xiàn)狀
1.2.3 基于輿情數(shù)據(jù)的預(yù)測類研究現(xiàn)狀
1.3 主要研究內(nèi)容
1.4 組織結(jié)構(gòu)安排
第2章 相關(guān)理論知識
2.1 機(jī)器學(xué)習(xí)模型
2.1.1 樸素貝葉斯
2.1.2 支持向量回歸機(jī)
2.2 深度學(xué)習(xí)模型
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)
2.2.2 BP神經(jīng)網(wǎng)絡(luò)
2.3 評測指標(biāo)
2.3.1 分類評測指標(biāo)
2.3.2 預(yù)測評價(jià)指標(biāo)
2.4 本章小結(jié)
第3章 數(shù)據(jù)采集與規(guī)范化處理
3.1 數(shù)據(jù)樣本采集
3.1.1 股評數(shù)據(jù)獲取
3.1.2 情感詞典語料設(shè)定
3.2 輿情文本預(yù)處理
3.2.1 股評除噪
3.2.2 文本分詞
3.3 數(shù)據(jù)結(jié)構(gòu)化表示
3.3.1 文本量化
3.3.2 特征矩陣構(gòu)建
3.3.3 詞嵌入表達(dá)
3.4 本章小結(jié)
第4章 基于股市輿情數(shù)據(jù)的情感傾向分類研究
4.1 樸素貝葉斯情感傾向分類
4.2 卷積神經(jīng)網(wǎng)絡(luò)情感傾向分類
4.2.1 Word2Vec訓(xùn)練
4.2.2 相似度求解
4.2.3 CNN分類
4.3 實(shí)驗(yàn)結(jié)果分析與討論
4.3.1 Naive Bayes樣本訓(xùn)練結(jié)果
4.3.2 CNN參數(shù)配置結(jié)果
4.3.3 情感分類結(jié)果對比與分析
4.4 本章小結(jié)
第5章 輿情數(shù)據(jù)對股市相關(guān)指標(biāo)的預(yù)測研究
5.1 股評輿情情感值對成交量的預(yù)測
5.1.1 情感值計(jì)算
5.1.2 情感值預(yù)測
5.2 支持向量回歸機(jī)模型預(yù)測股市收益率
5.2.1 支持向量回歸機(jī)構(gòu)建
5.2.2 支持向量回歸機(jī)預(yù)測
5.3 BP神經(jīng)網(wǎng)絡(luò)預(yù)測股市收益率
5.3.1 BP神經(jīng)網(wǎng)絡(luò)模型構(gòu)建
5.3.2 BP預(yù)測
5.4 結(jié)果對比與分析
5.5 本章小結(jié)
總結(jié)與展望
參考文獻(xiàn)
致謝
附錄A 攻讀碩士期間所發(fā)表的論文
【參考文獻(xiàn)】:
期刊論文
[1]改進(jìn)樸素貝葉斯算法在文本分類中的應(yīng)用[J]. 黃勇,羅文輝,張瑞舒. 科技創(chuàng)新與應(yīng)用. 2019(05)
[2]基于深度學(xué)習(xí)支持向量機(jī)的上證指數(shù)預(yù)測[J]. 張晶華,甘宇健. 統(tǒng)計(jì)與決策. 2019(02)
[3]基于支持向量機(jī)模型的地鐵進(jìn)站客流量預(yù)測[J]. 郭文,肖為周,秦菲菲. 河北工業(yè)科技. 2019(01)
[4]面向大規(guī)模中文文本分類的樸素貝葉斯并行Spark算法(英文)[J]. 劉鵬,趙慧含,滕家雨,仰彥妍,劉亞峰,朱宗衛(wèi). Journal of Central South University. 2019(01)
[5]大數(shù)據(jù)背景下機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用[J]. 王旸. 信息與電腦(理論版). 2018(21)
[6]卷積神經(jīng)網(wǎng)絡(luò)下的Twitter文本情感分析[J]. 王煜涵,張春云,趙寶林,襲肖明,耿蕾蕾,崔超然. 數(shù)據(jù)采集與處理. 2018(05)
[7]用于情感分類的雙向深度LSTM[J]. 曾蒸,李莉,陳晶. 計(jì)算機(jī)科學(xué). 2018(08)
[8]Network-based naive Bayes model for social network[J]. Danyang Huang,Guoyu Guan,Jing Zhou,Hansheng Wang. Science China(Mathematics). 2018(04)
[9]Influence Analysis of Emotional Behaviors and User Relationships Based on Twitter Data[J]. Kiichi Tago,Qun Jin. Tsinghua Science and Technology. 2018(01)
[10]基于灰色GARCH模型和BP神經(jīng)網(wǎng)絡(luò)的股票價(jià)格預(yù)測[J]. 曹曉,孫紅兵. 軟件. 2017(11)
碩士論文
[1]基于BP算法的鋼結(jié)構(gòu)建筑工業(yè)化建造施工質(zhì)量評價(jià)體系研究[D]. 鄭海濤.沈陽建筑大學(xué) 2015
本文編號:3692933
【文章頁數(shù)】:72 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 基于輿情數(shù)據(jù)的情感分析研究現(xiàn)狀
1.2.2 輿情數(shù)據(jù)情感傾向分類的研究現(xiàn)狀
1.2.3 基于輿情數(shù)據(jù)的預(yù)測類研究現(xiàn)狀
1.3 主要研究內(nèi)容
1.4 組織結(jié)構(gòu)安排
第2章 相關(guān)理論知識
2.1 機(jī)器學(xué)習(xí)模型
2.1.1 樸素貝葉斯
2.1.2 支持向量回歸機(jī)
2.2 深度學(xué)習(xí)模型
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)
2.2.2 BP神經(jīng)網(wǎng)絡(luò)
2.3 評測指標(biāo)
2.3.1 分類評測指標(biāo)
2.3.2 預(yù)測評價(jià)指標(biāo)
2.4 本章小結(jié)
第3章 數(shù)據(jù)采集與規(guī)范化處理
3.1 數(shù)據(jù)樣本采集
3.1.1 股評數(shù)據(jù)獲取
3.1.2 情感詞典語料設(shè)定
3.2 輿情文本預(yù)處理
3.2.1 股評除噪
3.2.2 文本分詞
3.3 數(shù)據(jù)結(jié)構(gòu)化表示
3.3.1 文本量化
3.3.2 特征矩陣構(gòu)建
3.3.3 詞嵌入表達(dá)
3.4 本章小結(jié)
第4章 基于股市輿情數(shù)據(jù)的情感傾向分類研究
4.1 樸素貝葉斯情感傾向分類
4.2 卷積神經(jīng)網(wǎng)絡(luò)情感傾向分類
4.2.1 Word2Vec訓(xùn)練
4.2.2 相似度求解
4.2.3 CNN分類
4.3 實(shí)驗(yàn)結(jié)果分析與討論
4.3.1 Naive Bayes樣本訓(xùn)練結(jié)果
4.3.2 CNN參數(shù)配置結(jié)果
4.3.3 情感分類結(jié)果對比與分析
4.4 本章小結(jié)
第5章 輿情數(shù)據(jù)對股市相關(guān)指標(biāo)的預(yù)測研究
5.1 股評輿情情感值對成交量的預(yù)測
5.1.1 情感值計(jì)算
5.1.2 情感值預(yù)測
5.2 支持向量回歸機(jī)模型預(yù)測股市收益率
5.2.1 支持向量回歸機(jī)構(gòu)建
5.2.2 支持向量回歸機(jī)預(yù)測
5.3 BP神經(jīng)網(wǎng)絡(luò)預(yù)測股市收益率
5.3.1 BP神經(jīng)網(wǎng)絡(luò)模型構(gòu)建
5.3.2 BP預(yù)測
5.4 結(jié)果對比與分析
5.5 本章小結(jié)
總結(jié)與展望
參考文獻(xiàn)
致謝
附錄A 攻讀碩士期間所發(fā)表的論文
【參考文獻(xiàn)】:
期刊論文
[1]改進(jìn)樸素貝葉斯算法在文本分類中的應(yīng)用[J]. 黃勇,羅文輝,張瑞舒. 科技創(chuàng)新與應(yīng)用. 2019(05)
[2]基于深度學(xué)習(xí)支持向量機(jī)的上證指數(shù)預(yù)測[J]. 張晶華,甘宇健. 統(tǒng)計(jì)與決策. 2019(02)
[3]基于支持向量機(jī)模型的地鐵進(jìn)站客流量預(yù)測[J]. 郭文,肖為周,秦菲菲. 河北工業(yè)科技. 2019(01)
[4]面向大規(guī)模中文文本分類的樸素貝葉斯并行Spark算法(英文)[J]. 劉鵬,趙慧含,滕家雨,仰彥妍,劉亞峰,朱宗衛(wèi). Journal of Central South University. 2019(01)
[5]大數(shù)據(jù)背景下機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用[J]. 王旸. 信息與電腦(理論版). 2018(21)
[6]卷積神經(jīng)網(wǎng)絡(luò)下的Twitter文本情感分析[J]. 王煜涵,張春云,趙寶林,襲肖明,耿蕾蕾,崔超然. 數(shù)據(jù)采集與處理. 2018(05)
[7]用于情感分類的雙向深度LSTM[J]. 曾蒸,李莉,陳晶. 計(jì)算機(jī)科學(xué). 2018(08)
[8]Network-based naive Bayes model for social network[J]. Danyang Huang,Guoyu Guan,Jing Zhou,Hansheng Wang. Science China(Mathematics). 2018(04)
[9]Influence Analysis of Emotional Behaviors and User Relationships Based on Twitter Data[J]. Kiichi Tago,Qun Jin. Tsinghua Science and Technology. 2018(01)
[10]基于灰色GARCH模型和BP神經(jīng)網(wǎng)絡(luò)的股票價(jià)格預(yù)測[J]. 曹曉,孫紅兵. 軟件. 2017(11)
碩士論文
[1]基于BP算法的鋼結(jié)構(gòu)建筑工業(yè)化建造施工質(zhì)量評價(jià)體系研究[D]. 鄭海濤.沈陽建筑大學(xué) 2015
本文編號:3692933
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3692933.html
最近更新
教材專著