基于新聞媒體文本挖掘和百度指數(shù)的投資者情緒指數(shù)研究
發(fā)布時間:2021-06-10 16:22
現(xiàn)今,互聯(lián)網(wǎng)迅速發(fā)展,已不僅僅只是投資者獲取信息的來源,而逐漸發(fā)展成為一個交流式的信息共享,溝通平臺,成為普通公眾獲取豐富數(shù)據(jù)必不可少的載體。同時,互聯(lián)網(wǎng)有效縮小了不同投資者之間對信息獲取成本及分析處理技術(shù)等各方面的差距。另一方面,由于中國金融市場發(fā)展不成熟,部分更看重商業(yè)價值的新聞媒體往往對現(xiàn)實(shí)狀況做出選擇性地取舍或夸大報道,亦或者無意表達(dá)出筆者的主觀看法。包含著對未來市場或樂觀或悲觀態(tài)度的新聞信息往往會影響投資者對待未來金融市場的策略,以致投資者根據(jù)這類新聞進(jìn)一步調(diào)節(jié)其投資決策與投資行為,F(xiàn)有研究中缺少通過將媒體信息、投資者情緒關(guān)聯(lián)從而研究對金融市場的影響效果。投資者情緒為我們看待股票市場的變動提供了一個新的視野,本研究以上證50指數(shù)成分股作為篩選樣本,在社會媒體大數(shù)據(jù)的基礎(chǔ)上以新浪財經(jīng)作為金融媒體信息源,依次進(jìn)行相關(guān)媒體新聞報道爬取、自建詞典、文本分詞、特征提取和情感分析等網(wǎng)絡(luò)文本挖掘技術(shù),結(jié)合百度指數(shù),構(gòu)建上證50指數(shù)成分股在2016年1月1日至2016年12月31日期間的投資者情緒指數(shù),并將該指數(shù)與上證50指數(shù)的變動關(guān)系展開實(shí)證研究。研究以與金融新聞媒體報道影響投資者情緒作為...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:76 頁
【學(xué)位級別】:碩士
【部分圖文】:
論文框架
(c)網(wǎng)頁新聞文本抓取圖 3-1 網(wǎng)頁的抓取及存儲金融媒體信息預(yù)處理 網(wǎng)頁解析及噪聲消除過網(wǎng)絡(luò)采集的新聞文本數(shù)據(jù)中存在大量的無用符號以及許多網(wǎng)址鏈的信息稱為新聞文本的噪聲,存在噪聲的新聞文本由于其符號的混進(jìn)行斷句與分詞處理的,為了進(jìn)行接下來的分詞與情感分析,需要信息進(jìn)行信息去噪處理,去除空格,空白符,亂碼等無用符號,轉(zhuǎn)文本以便供軟件進(jìn)行下一步分析。本文應(yīng)用MATLAB對抓取的新聞去噪處理,使用 regexp 正則表達(dá)式函數(shù)進(jìn)行處理,得到去除無用信本,經(jīng)去噪處理的新聞文本結(jié)果如圖 3-2 所示,可見,新聞文本中已去除,得到可以進(jìn)行直接斷句分詞的純文本。
哈爾濱工業(yè)大學(xué)經(jīng)濟(jì)學(xué)碩士學(xué)位論文具體程序運(yùn)行情況如圖 3-3 所示。圖 3-3(a)中,新聞采集程序通過讀入新聞所在的網(wǎng)址鏈接,利用正則表達(dá)式匹配,得到新聞的文本,再經(jīng)過去噪處理,去除網(wǎng)頁源碼中的無效符號,得到該網(wǎng)頁新聞的純文本。圖 3-3(b)中,將新聞文本經(jīng)標(biāo)點(diǎn)符號斷句,得到新聞的斷句,以 cell 字符串形式保存下來。圖 3-3(c)進(jìn)行了句子級的情感值計算,如圖所示,首先將句子進(jìn)行詞性標(biāo)注,圖中 P_K 代表積極屬性詞,PW 代表積極情感詞,然后根據(jù)句子級情感值計算公式進(jìn)行極性累加,得到該句的情感值(sentiment)為 3。(a) 新聞采集程序運(yùn)行結(jié)果
【參考文獻(xiàn)】:
期刊論文
[1]金融危機(jī)背景下中美投資者情緒的傳染性分析[J]. 文鳳華,楊鑫,龔旭,黃創(chuàng)霞,楊曉光. 系統(tǒng)工程理論與實(shí)踐. 2015(03)
[2]基于網(wǎng)絡(luò)搜索數(shù)據(jù)的房地產(chǎn)價格預(yù)測[J]. 董倩,孫娜娜,李偉. 統(tǒng)計研究. 2014(10)
[3]眾里尋“股”千百度——股票收益率與百度搜索量關(guān)系的實(shí)證探究[J]. 趙龍凱,陸子昱,王致遠(yuǎn). 金融研究. 2013(04)
[4]IPO發(fā)行價溢價異象與投資者情緒研究[J]. 呂東鍇,蔣先玲. 經(jīng)濟(jì)與管理. 2013(01)
[5]基于投資者關(guān)注的媒體報道影響投資行為的實(shí)驗(yàn)研究[J]. 張雅慧,萬迪昉,付雷鳴. 系統(tǒng)工程. 2012(10)
[6]投資者有限關(guān)注與股票收益——以百度指數(shù)作為關(guān)注度的一項(xiàng)實(shí)證研究[J]. 俞慶進(jìn),張兵. 金融研究. 2012(08)
[7]有限注意、投資者行為與資產(chǎn)定價——一個研究評述[J]. 彭疊峰,饒育蕾,王建新. 中南大學(xué)學(xué)報(社會科學(xué)版). 2012(03)
[8]創(chuàng)業(yè)板投資者情緒及其收益率相關(guān)性研究[J]. 吳海燕,楊朝軍,龔霄. 上海管理科學(xué). 2012(03)
[9]投資者情緒與股票特征關(guān)系[J]. 宋澤芳,李元. 系統(tǒng)工程理論與實(shí)踐. 2012(01)
[10]投資者關(guān)注與IPO異象——來自網(wǎng)絡(luò)搜索量的經(jīng)驗(yàn)證據(jù)[J]. 宋雙杰,曹暉,楊坤. 經(jīng)濟(jì)研究. 2011(S1)
博士論文
[1]投資者情緒的統(tǒng)計測評及其應(yīng)用研究[D]. 崔亮.西南財經(jīng)大學(xué) 2013
[2]基于投資者情緒的行為資產(chǎn)定價研究[D]. 閆偉.華南理工大學(xué) 2012
碩士論文
[1]基于百度指數(shù)的投資者關(guān)注度對于股票市場表現(xiàn)的影響[D]. 繆杰.廈門大學(xué) 2014
[2]基于百度指數(shù)的投資者關(guān)注度與股票指數(shù)表現(xiàn)的相關(guān)性研究[D]. 王曙.南京大學(xué) 2013
[3]投資者情緒對中國股市收益與收益波動影響實(shí)證研究[D]. 仇冬.華中科技大學(xué) 2012
[4]基于互聯(lián)網(wǎng)搜索的有限注意與我國股票市場的關(guān)系研究[D]. 謝世宏.南京大學(xué) 2012
本文編號:3222715
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:76 頁
【學(xué)位級別】:碩士
【部分圖文】:
論文框架
(c)網(wǎng)頁新聞文本抓取圖 3-1 網(wǎng)頁的抓取及存儲金融媒體信息預(yù)處理 網(wǎng)頁解析及噪聲消除過網(wǎng)絡(luò)采集的新聞文本數(shù)據(jù)中存在大量的無用符號以及許多網(wǎng)址鏈的信息稱為新聞文本的噪聲,存在噪聲的新聞文本由于其符號的混進(jìn)行斷句與分詞處理的,為了進(jìn)行接下來的分詞與情感分析,需要信息進(jìn)行信息去噪處理,去除空格,空白符,亂碼等無用符號,轉(zhuǎn)文本以便供軟件進(jìn)行下一步分析。本文應(yīng)用MATLAB對抓取的新聞去噪處理,使用 regexp 正則表達(dá)式函數(shù)進(jìn)行處理,得到去除無用信本,經(jīng)去噪處理的新聞文本結(jié)果如圖 3-2 所示,可見,新聞文本中已去除,得到可以進(jìn)行直接斷句分詞的純文本。
哈爾濱工業(yè)大學(xué)經(jīng)濟(jì)學(xué)碩士學(xué)位論文具體程序運(yùn)行情況如圖 3-3 所示。圖 3-3(a)中,新聞采集程序通過讀入新聞所在的網(wǎng)址鏈接,利用正則表達(dá)式匹配,得到新聞的文本,再經(jīng)過去噪處理,去除網(wǎng)頁源碼中的無效符號,得到該網(wǎng)頁新聞的純文本。圖 3-3(b)中,將新聞文本經(jīng)標(biāo)點(diǎn)符號斷句,得到新聞的斷句,以 cell 字符串形式保存下來。圖 3-3(c)進(jìn)行了句子級的情感值計算,如圖所示,首先將句子進(jìn)行詞性標(biāo)注,圖中 P_K 代表積極屬性詞,PW 代表積極情感詞,然后根據(jù)句子級情感值計算公式進(jìn)行極性累加,得到該句的情感值(sentiment)為 3。(a) 新聞采集程序運(yùn)行結(jié)果
【參考文獻(xiàn)】:
期刊論文
[1]金融危機(jī)背景下中美投資者情緒的傳染性分析[J]. 文鳳華,楊鑫,龔旭,黃創(chuàng)霞,楊曉光. 系統(tǒng)工程理論與實(shí)踐. 2015(03)
[2]基于網(wǎng)絡(luò)搜索數(shù)據(jù)的房地產(chǎn)價格預(yù)測[J]. 董倩,孫娜娜,李偉. 統(tǒng)計研究. 2014(10)
[3]眾里尋“股”千百度——股票收益率與百度搜索量關(guān)系的實(shí)證探究[J]. 趙龍凱,陸子昱,王致遠(yuǎn). 金融研究. 2013(04)
[4]IPO發(fā)行價溢價異象與投資者情緒研究[J]. 呂東鍇,蔣先玲. 經(jīng)濟(jì)與管理. 2013(01)
[5]基于投資者關(guān)注的媒體報道影響投資行為的實(shí)驗(yàn)研究[J]. 張雅慧,萬迪昉,付雷鳴. 系統(tǒng)工程. 2012(10)
[6]投資者有限關(guān)注與股票收益——以百度指數(shù)作為關(guān)注度的一項(xiàng)實(shí)證研究[J]. 俞慶進(jìn),張兵. 金融研究. 2012(08)
[7]有限注意、投資者行為與資產(chǎn)定價——一個研究評述[J]. 彭疊峰,饒育蕾,王建新. 中南大學(xué)學(xué)報(社會科學(xué)版). 2012(03)
[8]創(chuàng)業(yè)板投資者情緒及其收益率相關(guān)性研究[J]. 吳海燕,楊朝軍,龔霄. 上海管理科學(xué). 2012(03)
[9]投資者情緒與股票特征關(guān)系[J]. 宋澤芳,李元. 系統(tǒng)工程理論與實(shí)踐. 2012(01)
[10]投資者關(guān)注與IPO異象——來自網(wǎng)絡(luò)搜索量的經(jīng)驗(yàn)證據(jù)[J]. 宋雙杰,曹暉,楊坤. 經(jīng)濟(jì)研究. 2011(S1)
博士論文
[1]投資者情緒的統(tǒng)計測評及其應(yīng)用研究[D]. 崔亮.西南財經(jīng)大學(xué) 2013
[2]基于投資者情緒的行為資產(chǎn)定價研究[D]. 閆偉.華南理工大學(xué) 2012
碩士論文
[1]基于百度指數(shù)的投資者關(guān)注度對于股票市場表現(xiàn)的影響[D]. 繆杰.廈門大學(xué) 2014
[2]基于百度指數(shù)的投資者關(guān)注度與股票指數(shù)表現(xiàn)的相關(guān)性研究[D]. 王曙.南京大學(xué) 2013
[3]投資者情緒對中國股市收益與收益波動影響實(shí)證研究[D]. 仇冬.華中科技大學(xué) 2012
[4]基于互聯(lián)網(wǎng)搜索的有限注意與我國股票市場的關(guān)系研究[D]. 謝世宏.南京大學(xué) 2012
本文編號:3222715
本文鏈接:http://sikaile.net/jingjilunwen/xxjj/3222715.html
最近更新
教材專著