基于字符串核的股吧文本情感分類
發(fā)布時間:2022-09-21 20:15
傳統(tǒng)的金融學(xué)理論是在股民滿足理性假設(shè)的基礎(chǔ)上提出的,此理論只適用于比較成熟的股票市場,要求股民可以理智地對股票市場進(jìn)行判斷,對于所得到的市場信息可以進(jìn)行正確地解讀。很顯然對于尚不成熟的中國股市而言,這種要求有些苛刻。中國股市現(xiàn)在仍處于不斷發(fā)展的階段,而且還會呈現(xiàn)暴漲暴跌的狀況,行為金融學(xué)家對此進(jìn)行了相關(guān)研究。研究結(jié)果表明,股票市場中非理性股民的投資行為會對股票漲跌造成一定的影響,股民投資情緒是否高漲也和股市有著密切的關(guān)系,所以分析股民的情緒變化對于最終分析股票的漲跌情況,有著至關(guān)重要的作用。在如今互聯(lián)網(wǎng)時代,大部分股民可以在網(wǎng)上進(jìn)行交流和獲取信息。股吧就是一個股票交流平臺,參與對象主要是股民,股民通過股吧可以分享投資經(jīng)驗、表達(dá)自我觀點,同時也為分析股民當(dāng)下的情感傾向提供了平臺。本文以股吧(東方財富網(wǎng)股吧)評論文本作為研究對象,對其進(jìn)行情感傾向分類研究。首先通過Scrapy爬蟲技術(shù)抓取股吧評論的文本,進(jìn)行文本篩選以及詞匯過濾,而后應(yīng)用提出的基于LSA和PageRank的同義詞識別算法,對文本進(jìn)行同義詞替換,最終在支撐向量機(jī)(Support Vector Machine,SVM)的基礎(chǔ)上,...
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景
1.2 研究意義
1.3 研究現(xiàn)狀
1.3.1 基于詞表的情感分類方法
1.3.2 基于機(jī)器學(xué)習(xí)的情感分類方法
1.4 本文的主要工作
1.5 本文的章節(jié)結(jié)構(gòu)
第2章 文本情感分類的相關(guān)知識
2.1 支撐向量機(jī)的相關(guān)知識
2.1.1 SVM的統(tǒng)計學(xué)理論基礎(chǔ)
2.1.2 SVM的數(shù)據(jù)分類問題
2.1.3 SVM的優(yōu)化算法
2.1.4 SVM的文本表示
2.2 核函數(shù)的相關(guān)知識
2.2.1 核函數(shù)的定義
2.2.2 核函數(shù)的性質(zhì)
2.2.3 常用核函數(shù)
2.2.4 核函數(shù)的算法應(yīng)用
2.3 字符串核的相關(guān)知識
2.3.1 結(jié)構(gòu)化核函數(shù)
2.3.2 字符串核的理論介紹
2.4 本章小結(jié)
第3章 基于LSA和PageRank的同義詞識別
3.1 基于LSA的同義詞識別
3.1.1 基于信息增益的詞匯權(quán)重計算
3.1.2 文本矩陣的形成
3.1.3 奇異值分解
3.1.4 基于LSA的詞匯相似度
3.2 基于PageRank的同義詞識別
3.2.1 依存句法分析
3.2.2 基于句法分析的PageRank算法
3.3 基于LSA和PageRank的詞匯相似度
3.4 實驗流程及結(jié)果分析
3.4.1 實驗流程
3.4.2 實驗結(jié)果及分析
3.5 本章小結(jié)
第4章 基于MSK字符串核的股吧文本情感分類
4.1 MSK字符串核函數(shù)
4.1.1 子序列權(quán)重
4.1.2 基于子序列權(quán)重的MSK核函數(shù)
4.2 實驗流程及結(jié)果分析
4.2.1 實驗流程
4.2.2 實驗結(jié)果及分析
4.3 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間所發(fā)表的學(xué)術(shù)論文
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于PageRank的新聞關(guān)鍵詞提取算法[J]. 顧亦然,許夢馨. 電子科技大學(xué)學(xué)報. 2017(05)
[2]基于依存句法分析的多特征詞義消歧[J]. 史兆鵬,鄒徐熹,向潤昭. 計算機(jī)工程. 2017(09)
[3]基于高維k-近鄰互信息的特征選擇方法[J]. 周紅標(biāo),喬俊飛. 智能系統(tǒng)學(xué)報. 2017(05)
[4]圖核函數(shù)研究現(xiàn)狀與進(jìn)展[J]. 白璐,徐立祥,崔麗欣,焦宇航,吳宇帆,潘云逸. 安徽大學(xué)學(xué)報(自然科學(xué)版). 2017(01)
[5]基于雙語詞典的微博多類情感分析方法[J]. 栗雨晴,禮欣,韓煦,宋丹丹,廖樂健. 電子學(xué)報. 2016(09)
[6]基于詞加權(quán)LDA算法的無監(jiān)督情感分類[J]. 郝潔,謝珺,蘇婧瓊,續(xù)欣瑩,韓曉霞. 智能系統(tǒng)學(xué)報. 2016(04)
[7]基于SVM的在線商品評論的情感傾向性分析[J]. 肖江,王曉進(jìn). 信息技術(shù). 2016(07)
[8]組合核函數(shù)SVM在特定領(lǐng)域文本分類中的應(yīng)用[J]. 呂洪艷,劉芳. 計算機(jī)系統(tǒng)應(yīng)用. 2016(05)
[9]基于譜特征和圖分割的圖聚類算法[J]. 高陽,李昌華,李智杰,崔歡歡. 計算機(jī)工程與應(yīng)用. 2017(15)
[10]面向腦網(wǎng)絡(luò)的新型圖核及其在MCI分類上的應(yīng)用[J]. 接標(biāo),張道強. 計算機(jī)學(xué)報. 2016(08)
博士論文
[1]基于核函數(shù)的目標(biāo)跟蹤算法研究[D]. 田浩.長安大學(xué) 2016
[2]投資者情緒對中國股市收益影響的實證研究[D]. 王鎮(zhèn).東北財經(jīng)大學(xué) 2015
[3]中國股票市場與宏觀經(jīng)濟(jì)相關(guān)性研究[D]. 張培源.中共中央黨校 2013
[4]漢語依存句法分析關(guān)鍵技術(shù)研究[D]. 李正華.哈爾濱工業(yè)大學(xué) 2013
碩士論文
[1]中國股市是國家宏觀經(jīng)濟(jì)的晴雨表嗎?[D]. 金芳.山西財經(jīng)大學(xué) 2017
[2]文本表示模型和特征選擇算法研究[D]. 陳磊.中國科學(xué)技術(shù)大學(xué) 2017
[3]宏觀經(jīng)濟(jì)與股票市場波動內(nèi)在關(guān)聯(lián)性研究[D]. 王艷歌.武漢大學(xué) 2017
[4]基于支持向量機(jī)的不平衡數(shù)據(jù)分類算法研究[D]. 劉東啟.浙江大學(xué) 2017
[5]支持向量機(jī)核函數(shù)及關(guān)鍵參數(shù)選擇研究[D]. 尹嘉鵬.哈爾濱工業(yè)大學(xué) 2016
[6]基于半監(jiān)督學(xué)習(xí)的餐廳評論情感分析技術(shù)[D]. 馮佳.華中科技大學(xué) 2016
[7]基于混合核函數(shù)的SVM及其應(yīng)用研究[D]. 王立達(dá).大連海事大學(xué) 2016
[8]基于半監(jiān)督機(jī)器學(xué)習(xí)的文本情感分析技術(shù)[D]. 王成.南京理工大學(xué) 2015
[9]基于大規(guī)模語料庫的中文同義詞抽取方法研究[D]. 馬海昌.西北師范大學(xué) 2014
[10]投資者情緒對股票收益的影響[D]. 宋艷西.西南財經(jīng)大學(xué) 2014
本文編號:3680592
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景
1.2 研究意義
1.3 研究現(xiàn)狀
1.3.1 基于詞表的情感分類方法
1.3.2 基于機(jī)器學(xué)習(xí)的情感分類方法
1.4 本文的主要工作
1.5 本文的章節(jié)結(jié)構(gòu)
第2章 文本情感分類的相關(guān)知識
2.1 支撐向量機(jī)的相關(guān)知識
2.1.1 SVM的統(tǒng)計學(xué)理論基礎(chǔ)
2.1.2 SVM的數(shù)據(jù)分類問題
2.1.3 SVM的優(yōu)化算法
2.1.4 SVM的文本表示
2.2 核函數(shù)的相關(guān)知識
2.2.1 核函數(shù)的定義
2.2.2 核函數(shù)的性質(zhì)
2.2.3 常用核函數(shù)
2.2.4 核函數(shù)的算法應(yīng)用
2.3 字符串核的相關(guān)知識
2.3.1 結(jié)構(gòu)化核函數(shù)
2.3.2 字符串核的理論介紹
2.4 本章小結(jié)
第3章 基于LSA和PageRank的同義詞識別
3.1 基于LSA的同義詞識別
3.1.1 基于信息增益的詞匯權(quán)重計算
3.1.2 文本矩陣的形成
3.1.3 奇異值分解
3.1.4 基于LSA的詞匯相似度
3.2 基于PageRank的同義詞識別
3.2.1 依存句法分析
3.2.2 基于句法分析的PageRank算法
3.3 基于LSA和PageRank的詞匯相似度
3.4 實驗流程及結(jié)果分析
3.4.1 實驗流程
3.4.2 實驗結(jié)果及分析
3.5 本章小結(jié)
第4章 基于MSK字符串核的股吧文本情感分類
4.1 MSK字符串核函數(shù)
4.1.1 子序列權(quán)重
4.1.2 基于子序列權(quán)重的MSK核函數(shù)
4.2 實驗流程及結(jié)果分析
4.2.1 實驗流程
4.2.2 實驗結(jié)果及分析
4.3 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間所發(fā)表的學(xué)術(shù)論文
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于PageRank的新聞關(guān)鍵詞提取算法[J]. 顧亦然,許夢馨. 電子科技大學(xué)學(xué)報. 2017(05)
[2]基于依存句法分析的多特征詞義消歧[J]. 史兆鵬,鄒徐熹,向潤昭. 計算機(jī)工程. 2017(09)
[3]基于高維k-近鄰互信息的特征選擇方法[J]. 周紅標(biāo),喬俊飛. 智能系統(tǒng)學(xué)報. 2017(05)
[4]圖核函數(shù)研究現(xiàn)狀與進(jìn)展[J]. 白璐,徐立祥,崔麗欣,焦宇航,吳宇帆,潘云逸. 安徽大學(xué)學(xué)報(自然科學(xué)版). 2017(01)
[5]基于雙語詞典的微博多類情感分析方法[J]. 栗雨晴,禮欣,韓煦,宋丹丹,廖樂健. 電子學(xué)報. 2016(09)
[6]基于詞加權(quán)LDA算法的無監(jiān)督情感分類[J]. 郝潔,謝珺,蘇婧瓊,續(xù)欣瑩,韓曉霞. 智能系統(tǒng)學(xué)報. 2016(04)
[7]基于SVM的在線商品評論的情感傾向性分析[J]. 肖江,王曉進(jìn). 信息技術(shù). 2016(07)
[8]組合核函數(shù)SVM在特定領(lǐng)域文本分類中的應(yīng)用[J]. 呂洪艷,劉芳. 計算機(jī)系統(tǒng)應(yīng)用. 2016(05)
[9]基于譜特征和圖分割的圖聚類算法[J]. 高陽,李昌華,李智杰,崔歡歡. 計算機(jī)工程與應(yīng)用. 2017(15)
[10]面向腦網(wǎng)絡(luò)的新型圖核及其在MCI分類上的應(yīng)用[J]. 接標(biāo),張道強. 計算機(jī)學(xué)報. 2016(08)
博士論文
[1]基于核函數(shù)的目標(biāo)跟蹤算法研究[D]. 田浩.長安大學(xué) 2016
[2]投資者情緒對中國股市收益影響的實證研究[D]. 王鎮(zhèn).東北財經(jīng)大學(xué) 2015
[3]中國股票市場與宏觀經(jīng)濟(jì)相關(guān)性研究[D]. 張培源.中共中央黨校 2013
[4]漢語依存句法分析關(guān)鍵技術(shù)研究[D]. 李正華.哈爾濱工業(yè)大學(xué) 2013
碩士論文
[1]中國股市是國家宏觀經(jīng)濟(jì)的晴雨表嗎?[D]. 金芳.山西財經(jīng)大學(xué) 2017
[2]文本表示模型和特征選擇算法研究[D]. 陳磊.中國科學(xué)技術(shù)大學(xué) 2017
[3]宏觀經(jīng)濟(jì)與股票市場波動內(nèi)在關(guān)聯(lián)性研究[D]. 王艷歌.武漢大學(xué) 2017
[4]基于支持向量機(jī)的不平衡數(shù)據(jù)分類算法研究[D]. 劉東啟.浙江大學(xué) 2017
[5]支持向量機(jī)核函數(shù)及關(guān)鍵參數(shù)選擇研究[D]. 尹嘉鵬.哈爾濱工業(yè)大學(xué) 2016
[6]基于半監(jiān)督學(xué)習(xí)的餐廳評論情感分析技術(shù)[D]. 馮佳.華中科技大學(xué) 2016
[7]基于混合核函數(shù)的SVM及其應(yīng)用研究[D]. 王立達(dá).大連海事大學(xué) 2016
[8]基于半監(jiān)督機(jī)器學(xué)習(xí)的文本情感分析技術(shù)[D]. 王成.南京理工大學(xué) 2015
[9]基于大規(guī)模語料庫的中文同義詞抽取方法研究[D]. 馬海昌.西北師范大學(xué) 2014
[10]投資者情緒對股票收益的影響[D]. 宋艷西.西南財經(jīng)大學(xué) 2014
本文編號:3680592
本文鏈接:http://sikaile.net/jingjilunwen/jinrongzhengquanlunwen/3680592.html
最近更新
教材專著