基于新聞媒體文本挖掘和百度指數(shù)的投資者情緒指數(shù)研究
發(fā)布時(shí)間:2021-06-10 16:22
現(xiàn)今,互聯(lián)網(wǎng)迅速發(fā)展,已不僅僅只是投資者獲取信息的來(lái)源,而逐漸發(fā)展成為一個(gè)交流式的信息共享,溝通平臺(tái),成為普通公眾獲取豐富數(shù)據(jù)必不可少的載體。同時(shí),互聯(lián)網(wǎng)有效縮小了不同投資者之間對(duì)信息獲取成本及分析處理技術(shù)等各方面的差距。另一方面,由于中國(guó)金融市場(chǎng)發(fā)展不成熟,部分更看重商業(yè)價(jià)值的新聞媒體往往對(duì)現(xiàn)實(shí)狀況做出選擇性地取舍或夸大報(bào)道,亦或者無(wú)意表達(dá)出筆者的主觀看法。包含著對(duì)未來(lái)市場(chǎng)或樂(lè)觀或悲觀態(tài)度的新聞信息往往會(huì)影響投資者對(duì)待未來(lái)金融市場(chǎng)的策略,以致投資者根據(jù)這類(lèi)新聞進(jìn)一步調(diào)節(jié)其投資決策與投資行為,F(xiàn)有研究中缺少通過(guò)將媒體信息、投資者情緒關(guān)聯(lián)從而研究對(duì)金融市場(chǎng)的影響效果。投資者情緒為我們看待股票市場(chǎng)的變動(dòng)提供了一個(gè)新的視野,本研究以上證50指數(shù)成分股作為篩選樣本,在社會(huì)媒體大數(shù)據(jù)的基礎(chǔ)上以新浪財(cái)經(jīng)作為金融媒體信息源,依次進(jìn)行相關(guān)媒體新聞報(bào)道爬取、自建詞典、文本分詞、特征提取和情感分析等網(wǎng)絡(luò)文本挖掘技術(shù),結(jié)合百度指數(shù),構(gòu)建上證50指數(shù)成分股在2016年1月1日至2016年12月31日期間的投資者情緒指數(shù),并將該指數(shù)與上證50指數(shù)的變動(dòng)關(guān)系展開(kāi)實(shí)證研究。研究以與金融新聞媒體報(bào)道影響投資者情緒作為...
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:76 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
論文框架
(c)網(wǎng)頁(yè)新聞文本抓取圖 3-1 網(wǎng)頁(yè)的抓取及存儲(chǔ)金融媒體信息預(yù)處理 網(wǎng)頁(yè)解析及噪聲消除過(guò)網(wǎng)絡(luò)采集的新聞文本數(shù)據(jù)中存在大量的無(wú)用符號(hào)以及許多網(wǎng)址鏈的信息稱(chēng)為新聞文本的噪聲,存在噪聲的新聞文本由于其符號(hào)的混進(jìn)行斷句與分詞處理的,為了進(jìn)行接下來(lái)的分詞與情感分析,需要信息進(jìn)行信息去噪處理,去除空格,空白符,亂碼等無(wú)用符號(hào),轉(zhuǎn)文本以便供軟件進(jìn)行下一步分析。本文應(yīng)用MATLAB對(duì)抓取的新聞去噪處理,使用 regexp 正則表達(dá)式函數(shù)進(jìn)行處理,得到去除無(wú)用信本,經(jīng)去噪處理的新聞文本結(jié)果如圖 3-2 所示,可見(jiàn),新聞文本中已去除,得到可以進(jìn)行直接斷句分詞的純文本。
哈爾濱工業(yè)大學(xué)經(jīng)濟(jì)學(xué)碩士學(xué)位論文具體程序運(yùn)行情況如圖 3-3 所示。圖 3-3(a)中,新聞采集程序通過(guò)讀入新聞所在的網(wǎng)址鏈接,利用正則表達(dá)式匹配,得到新聞的文本,再經(jīng)過(guò)去噪處理,去除網(wǎng)頁(yè)源碼中的無(wú)效符號(hào),得到該網(wǎng)頁(yè)新聞的純文本。圖 3-3(b)中,將新聞文本經(jīng)標(biāo)點(diǎn)符號(hào)斷句,得到新聞的斷句,以 cell 字符串形式保存下來(lái)。圖 3-3(c)進(jìn)行了句子級(jí)的情感值計(jì)算,如圖所示,首先將句子進(jìn)行詞性標(biāo)注,圖中 P_K 代表積極屬性詞,PW 代表積極情感詞,然后根據(jù)句子級(jí)情感值計(jì)算公式進(jìn)行極性累加,得到該句的情感值(sentiment)為 3。(a) 新聞采集程序運(yùn)行結(jié)果
【參考文獻(xiàn)】:
期刊論文
[1]金融危機(jī)背景下中美投資者情緒的傳染性分析[J]. 文鳳華,楊鑫,龔旭,黃創(chuàng)霞,楊曉光. 系統(tǒng)工程理論與實(shí)踐. 2015(03)
[2]基于網(wǎng)絡(luò)搜索數(shù)據(jù)的房地產(chǎn)價(jià)格預(yù)測(cè)[J]. 董倩,孫娜娜,李偉. 統(tǒng)計(jì)研究. 2014(10)
[3]眾里尋“股”千百度——股票收益率與百度搜索量關(guān)系的實(shí)證探究[J]. 趙龍凱,陸子昱,王致遠(yuǎn). 金融研究. 2013(04)
[4]IPO發(fā)行價(jià)溢價(jià)異象與投資者情緒研究[J]. 呂東鍇,蔣先玲. 經(jīng)濟(jì)與管理. 2013(01)
[5]基于投資者關(guān)注的媒體報(bào)道影響投資行為的實(shí)驗(yàn)研究[J]. 張雅慧,萬(wàn)迪昉,付雷鳴. 系統(tǒng)工程. 2012(10)
[6]投資者有限關(guān)注與股票收益——以百度指數(shù)作為關(guān)注度的一項(xiàng)實(shí)證研究[J]. 俞慶進(jìn),張兵. 金融研究. 2012(08)
[7]有限注意、投資者行為與資產(chǎn)定價(jià)——一個(gè)研究評(píng)述[J]. 彭疊峰,饒育蕾,王建新. 中南大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版). 2012(03)
[8]創(chuàng)業(yè)板投資者情緒及其收益率相關(guān)性研究[J]. 吳海燕,楊朝軍,龔霄. 上海管理科學(xué). 2012(03)
[9]投資者情緒與股票特征關(guān)系[J]. 宋澤芳,李元. 系統(tǒng)工程理論與實(shí)踐. 2012(01)
[10]投資者關(guān)注與IPO異象——來(lái)自網(wǎng)絡(luò)搜索量的經(jīng)驗(yàn)證據(jù)[J]. 宋雙杰,曹暉,楊坤. 經(jīng)濟(jì)研究. 2011(S1)
博士論文
[1]投資者情緒的統(tǒng)計(jì)測(cè)評(píng)及其應(yīng)用研究[D]. 崔亮.西南財(cái)經(jīng)大學(xué) 2013
[2]基于投資者情緒的行為資產(chǎn)定價(jià)研究[D]. 閆偉.華南理工大學(xué) 2012
碩士論文
[1]基于百度指數(shù)的投資者關(guān)注度對(duì)于股票市場(chǎng)表現(xiàn)的影響[D]. 繆杰.廈門(mén)大學(xué) 2014
[2]基于百度指數(shù)的投資者關(guān)注度與股票指數(shù)表現(xiàn)的相關(guān)性研究[D]. 王曙.南京大學(xué) 2013
[3]投資者情緒對(duì)中國(guó)股市收益與收益波動(dòng)影響實(shí)證研究[D]. 仇冬.華中科技大學(xué) 2012
[4]基于互聯(lián)網(wǎng)搜索的有限注意與我國(guó)股票市場(chǎng)的關(guān)系研究[D]. 謝世宏.南京大學(xué) 2012
本文編號(hào):3222715
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:76 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
論文框架
(c)網(wǎng)頁(yè)新聞文本抓取圖 3-1 網(wǎng)頁(yè)的抓取及存儲(chǔ)金融媒體信息預(yù)處理 網(wǎng)頁(yè)解析及噪聲消除過(guò)網(wǎng)絡(luò)采集的新聞文本數(shù)據(jù)中存在大量的無(wú)用符號(hào)以及許多網(wǎng)址鏈的信息稱(chēng)為新聞文本的噪聲,存在噪聲的新聞文本由于其符號(hào)的混進(jìn)行斷句與分詞處理的,為了進(jìn)行接下來(lái)的分詞與情感分析,需要信息進(jìn)行信息去噪處理,去除空格,空白符,亂碼等無(wú)用符號(hào),轉(zhuǎn)文本以便供軟件進(jìn)行下一步分析。本文應(yīng)用MATLAB對(duì)抓取的新聞去噪處理,使用 regexp 正則表達(dá)式函數(shù)進(jìn)行處理,得到去除無(wú)用信本,經(jīng)去噪處理的新聞文本結(jié)果如圖 3-2 所示,可見(jiàn),新聞文本中已去除,得到可以進(jìn)行直接斷句分詞的純文本。
哈爾濱工業(yè)大學(xué)經(jīng)濟(jì)學(xué)碩士學(xué)位論文具體程序運(yùn)行情況如圖 3-3 所示。圖 3-3(a)中,新聞采集程序通過(guò)讀入新聞所在的網(wǎng)址鏈接,利用正則表達(dá)式匹配,得到新聞的文本,再經(jīng)過(guò)去噪處理,去除網(wǎng)頁(yè)源碼中的無(wú)效符號(hào),得到該網(wǎng)頁(yè)新聞的純文本。圖 3-3(b)中,將新聞文本經(jīng)標(biāo)點(diǎn)符號(hào)斷句,得到新聞的斷句,以 cell 字符串形式保存下來(lái)。圖 3-3(c)進(jìn)行了句子級(jí)的情感值計(jì)算,如圖所示,首先將句子進(jìn)行詞性標(biāo)注,圖中 P_K 代表積極屬性詞,PW 代表積極情感詞,然后根據(jù)句子級(jí)情感值計(jì)算公式進(jìn)行極性累加,得到該句的情感值(sentiment)為 3。(a) 新聞采集程序運(yùn)行結(jié)果
【參考文獻(xiàn)】:
期刊論文
[1]金融危機(jī)背景下中美投資者情緒的傳染性分析[J]. 文鳳華,楊鑫,龔旭,黃創(chuàng)霞,楊曉光. 系統(tǒng)工程理論與實(shí)踐. 2015(03)
[2]基于網(wǎng)絡(luò)搜索數(shù)據(jù)的房地產(chǎn)價(jià)格預(yù)測(cè)[J]. 董倩,孫娜娜,李偉. 統(tǒng)計(jì)研究. 2014(10)
[3]眾里尋“股”千百度——股票收益率與百度搜索量關(guān)系的實(shí)證探究[J]. 趙龍凱,陸子昱,王致遠(yuǎn). 金融研究. 2013(04)
[4]IPO發(fā)行價(jià)溢價(jià)異象與投資者情緒研究[J]. 呂東鍇,蔣先玲. 經(jīng)濟(jì)與管理. 2013(01)
[5]基于投資者關(guān)注的媒體報(bào)道影響投資行為的實(shí)驗(yàn)研究[J]. 張雅慧,萬(wàn)迪昉,付雷鳴. 系統(tǒng)工程. 2012(10)
[6]投資者有限關(guān)注與股票收益——以百度指數(shù)作為關(guān)注度的一項(xiàng)實(shí)證研究[J]. 俞慶進(jìn),張兵. 金融研究. 2012(08)
[7]有限注意、投資者行為與資產(chǎn)定價(jià)——一個(gè)研究評(píng)述[J]. 彭疊峰,饒育蕾,王建新. 中南大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版). 2012(03)
[8]創(chuàng)業(yè)板投資者情緒及其收益率相關(guān)性研究[J]. 吳海燕,楊朝軍,龔霄. 上海管理科學(xué). 2012(03)
[9]投資者情緒與股票特征關(guān)系[J]. 宋澤芳,李元. 系統(tǒng)工程理論與實(shí)踐. 2012(01)
[10]投資者關(guān)注與IPO異象——來(lái)自網(wǎng)絡(luò)搜索量的經(jīng)驗(yàn)證據(jù)[J]. 宋雙杰,曹暉,楊坤. 經(jīng)濟(jì)研究. 2011(S1)
博士論文
[1]投資者情緒的統(tǒng)計(jì)測(cè)評(píng)及其應(yīng)用研究[D]. 崔亮.西南財(cái)經(jīng)大學(xué) 2013
[2]基于投資者情緒的行為資產(chǎn)定價(jià)研究[D]. 閆偉.華南理工大學(xué) 2012
碩士論文
[1]基于百度指數(shù)的投資者關(guān)注度對(duì)于股票市場(chǎng)表現(xiàn)的影響[D]. 繆杰.廈門(mén)大學(xué) 2014
[2]基于百度指數(shù)的投資者關(guān)注度與股票指數(shù)表現(xiàn)的相關(guān)性研究[D]. 王曙.南京大學(xué) 2013
[3]投資者情緒對(duì)中國(guó)股市收益與收益波動(dòng)影響實(shí)證研究[D]. 仇冬.華中科技大學(xué) 2012
[4]基于互聯(lián)網(wǎng)搜索的有限注意與我國(guó)股票市場(chǎng)的關(guān)系研究[D]. 謝世宏.南京大學(xué) 2012
本文編號(hào):3222715
本文鏈接:http://sikaile.net/jingjilunwen/xxjj/3222715.html
最近更新
教材專(zhuān)著