基于社交情感數(shù)據(jù)挖掘的股票市場預(yù)測研究
發(fā)布時間:2020-12-07 18:02
在互信息與左右熵識別新詞的基礎(chǔ)上,針對股票市場建立了金融情感詞典,提出結(jié)合粒子群閾值優(yōu)化改進(jìn)的貝葉斯算法,并對每條評論的情感傾向進(jìn)行自動識別,從而完成對股票市場的分析.實驗與多種預(yù)測方法進(jìn)行比較,基于情感詞典的改進(jìn)貝葉斯算法識別準(zhǔn)確率為90.6%,表明該方法能夠獲得較為理想的預(yù)測結(jié)果.
【文章來源】:東北師大學(xué)報(自然科學(xué)版). 2020年03期 第105-110頁 北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
圖1分詞算法比較表24個數(shù)據(jù)庫的新詞識別
情感數(shù)據(jù)挖掘的股票市場預(yù)測研究通過粒子群算法找出Ssentiment的最佳閾值,以此閾值為界限,大于此閾值的視為積極情緒,標(biāo)記為1(Pnumber為大于此閾值的評論數(shù)目),小于此閾值的視為消極情緒,標(biāo)記為0(Nnumber為小于此閾值的評論數(shù)目),以歸一化的ψdaily_sentiment和實際的上證指數(shù)的價格變動曲線(ψprice_change)為研究目標(biāo),以灰色相關(guān)聯(lián)系數(shù)作為判定標(biāo)準(zhǔn),經(jīng)過300次迭代,如圖3所示,得出最佳閾值為0.546,此時灰自相關(guān)系數(shù)達(dá)到最大,為0.729,ψdaily_sentiment的計算公式為ψdaily_sentiment=PnumberPnumber+Nnumber.(14)圖3計算的灰自相關(guān)系數(shù)4實驗及其結(jié)果分析為驗證經(jīng)過改進(jìn)貝葉斯的情感判別結(jié)果,實驗使用準(zhǔn)確率、灰色相關(guān)系數(shù)、同斜率占天數(shù)比來評判實驗結(jié)果.實驗選。担埃埃皸l已人工標(biāo)注好情感極性的帖子(即積極記為1,消極記為0),其中4000條作為實驗樣本,1000個作為測試樣本,同時使用KNN、最大熵、SVM等機(jī)器學(xué)習(xí)方法與實驗改進(jìn)方法進(jìn)行比較.準(zhǔn)確率為MacroP=1N∑Ni=1Precisioni.(15)灰色相關(guān)系數(shù)為ξi(k)=minsmint|x0(t)-xs(t)|+ρmaxsmaxt|x0-xs(t)||x0(t)-xi(t)|+ρmaxsmax
【參考文獻(xiàn)】:
期刊論文
[1]數(shù)據(jù)挖掘中并行離散化數(shù)據(jù)準(zhǔn)備優(yōu)化[J]. 劉云,袁浩恒. 四川大學(xué)學(xué)報(自然科學(xué)版). 2018(05)
[2]在線社交網(wǎng)絡(luò)信息有效分類傳播模型研究[J]. 楊林楓,黃賢英,劉小洋,劉超,劉萬平. 四川大學(xué)學(xué)報(自然科學(xué)版). 2018(04)
[3]基于擴(kuò)展規(guī)則與統(tǒng)計特征的未登錄詞識別[J]. 曾浩,詹恩奇,鄭建彬,汪陽. 計算機(jī)應(yīng)用研究. 2019(09)
[4]基于文本信息的股票指數(shù)預(yù)測[J]. 董理,王中卿,熊德意. 北京大學(xué)學(xué)報(自然科學(xué)版). 2017(02)
[5]基于中文股票博客的情感分類[J]. 李亞珍,李曉戈,于根. 武漢大學(xué)學(xué)報(理學(xué)版). 2015(02)
[6]基于情感分析技術(shù)的股票研究報告分類[J]. 彭敏,汪清,黃濟(jì)民,周李,胡鑫匯. 武漢大學(xué)學(xué)報(理學(xué)版). 2015(02)
[7]自然語言理解在Web數(shù)據(jù)挖掘中的應(yīng)用[J]. 蔡霞,張森. 計算機(jī)工程與設(shè)計. 2003(11)
博士論文
[1]樸素貝葉斯分類器及其改進(jìn)算法研究[D]. 蔣良孝.中國地質(zhì)大學(xué) 2009
碩士論文
[1]針對文本情感分類的特征生成方法研究[D]. 周哲.南京大學(xué) 2016
[2]基于雪球網(wǎng)的股市波動數(shù)據(jù)分析與預(yù)測[D]. 王迪.北京郵電大學(xué) 2017
[3]基于領(lǐng)域特殊性和統(tǒng)計語言知識的新詞抽取方法[D]. 梅莉莉.北京理工大學(xué) 2016
[4]基于微博輿情的股票高頻交易分析技術(shù)研究與實現(xiàn)[D]. 陳亮.復(fù)旦大學(xué) 2014
本文編號:2903679
【文章來源】:東北師大學(xué)報(自然科學(xué)版). 2020年03期 第105-110頁 北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
圖1分詞算法比較表24個數(shù)據(jù)庫的新詞識別
情感數(shù)據(jù)挖掘的股票市場預(yù)測研究通過粒子群算法找出Ssentiment的最佳閾值,以此閾值為界限,大于此閾值的視為積極情緒,標(biāo)記為1(Pnumber為大于此閾值的評論數(shù)目),小于此閾值的視為消極情緒,標(biāo)記為0(Nnumber為小于此閾值的評論數(shù)目),以歸一化的ψdaily_sentiment和實際的上證指數(shù)的價格變動曲線(ψprice_change)為研究目標(biāo),以灰色相關(guān)聯(lián)系數(shù)作為判定標(biāo)準(zhǔn),經(jīng)過300次迭代,如圖3所示,得出最佳閾值為0.546,此時灰自相關(guān)系數(shù)達(dá)到最大,為0.729,ψdaily_sentiment的計算公式為ψdaily_sentiment=PnumberPnumber+Nnumber.(14)圖3計算的灰自相關(guān)系數(shù)4實驗及其結(jié)果分析為驗證經(jīng)過改進(jìn)貝葉斯的情感判別結(jié)果,實驗使用準(zhǔn)確率、灰色相關(guān)系數(shù)、同斜率占天數(shù)比來評判實驗結(jié)果.實驗選。担埃埃皸l已人工標(biāo)注好情感極性的帖子(即積極記為1,消極記為0),其中4000條作為實驗樣本,1000個作為測試樣本,同時使用KNN、最大熵、SVM等機(jī)器學(xué)習(xí)方法與實驗改進(jìn)方法進(jìn)行比較.準(zhǔn)確率為MacroP=1N∑Ni=1Precisioni.(15)灰色相關(guān)系數(shù)為ξi(k)=minsmint|x0(t)-xs(t)|+ρmaxsmaxt|x0-xs(t)||x0(t)-xi(t)|+ρmaxsmax
【參考文獻(xiàn)】:
期刊論文
[1]數(shù)據(jù)挖掘中并行離散化數(shù)據(jù)準(zhǔn)備優(yōu)化[J]. 劉云,袁浩恒. 四川大學(xué)學(xué)報(自然科學(xué)版). 2018(05)
[2]在線社交網(wǎng)絡(luò)信息有效分類傳播模型研究[J]. 楊林楓,黃賢英,劉小洋,劉超,劉萬平. 四川大學(xué)學(xué)報(自然科學(xué)版). 2018(04)
[3]基于擴(kuò)展規(guī)則與統(tǒng)計特征的未登錄詞識別[J]. 曾浩,詹恩奇,鄭建彬,汪陽. 計算機(jī)應(yīng)用研究. 2019(09)
[4]基于文本信息的股票指數(shù)預(yù)測[J]. 董理,王中卿,熊德意. 北京大學(xué)學(xué)報(自然科學(xué)版). 2017(02)
[5]基于中文股票博客的情感分類[J]. 李亞珍,李曉戈,于根. 武漢大學(xué)學(xué)報(理學(xué)版). 2015(02)
[6]基于情感分析技術(shù)的股票研究報告分類[J]. 彭敏,汪清,黃濟(jì)民,周李,胡鑫匯. 武漢大學(xué)學(xué)報(理學(xué)版). 2015(02)
[7]自然語言理解在Web數(shù)據(jù)挖掘中的應(yīng)用[J]. 蔡霞,張森. 計算機(jī)工程與設(shè)計. 2003(11)
博士論文
[1]樸素貝葉斯分類器及其改進(jìn)算法研究[D]. 蔣良孝.中國地質(zhì)大學(xué) 2009
碩士論文
[1]針對文本情感分類的特征生成方法研究[D]. 周哲.南京大學(xué) 2016
[2]基于雪球網(wǎng)的股市波動數(shù)據(jù)分析與預(yù)測[D]. 王迪.北京郵電大學(xué) 2017
[3]基于領(lǐng)域特殊性和統(tǒng)計語言知識的新詞抽取方法[D]. 梅莉莉.北京理工大學(xué) 2016
[4]基于微博輿情的股票高頻交易分析技術(shù)研究與實現(xiàn)[D]. 陳亮.復(fù)旦大學(xué) 2014
本文編號:2903679
本文鏈接:http://sikaile.net/jingjilunwen/jinrongzhengquanlunwen/2903679.html
最近更新
教材專著