基于文本挖掘的量化投資策略影響因素分析
發(fā)布時(shí)間:2021-12-23 17:32
股市是個(gè)動(dòng)態(tài)的經(jīng)濟(jì)環(huán)境,投資者在股市中博弈的結(jié)果往往取決于對(duì)信息的掌握數(shù)量和解讀質(zhì)量。隨著互聯(lián)網(wǎng)的發(fā)展及計(jì)算機(jī)技術(shù)的進(jìn)步,數(shù)據(jù)的獲取和經(jīng)驗(yàn)的積累更加便捷,投資策略逐漸從定性研究拓展到定量分析;诖,量化投資研究得到廣泛關(guān)注,不斷發(fā)展壯大。相比傳統(tǒng)的定性投資方式,量化投資具備快速有效、客觀理性、收益與風(fēng)險(xiǎn)平衡以及個(gè)股與組合平衡的優(yōu)勢(shì)。作為數(shù)據(jù)挖掘的一個(gè)重要分支,文本挖掘是指在大規(guī)模文本集合中發(fā)現(xiàn)隱含的、以往未知的、潛在有用的模式的過(guò)程。近些年,很多研究也將基于語(yǔ)言學(xué)、金融學(xué)、計(jì)算機(jī)技術(shù)等方面的文本挖掘技術(shù)作為量化投資研究的一個(gè)重要手段,如從文本數(shù)據(jù)中構(gòu)造情緒指數(shù),分析其對(duì)股市的影響等。本文主要是通過(guò)Python爬取新聞、研報(bào)、論壇文章數(shù)據(jù),然后通過(guò)基于類的隱馬爾可夫中文算法對(duì)中文文本進(jìn)行分詞、TF-IDF算法對(duì)文本進(jìn)行向量化、層次聚類算法對(duì)文檔進(jìn)行聚類、LDA算法和基于鄰接熵的關(guān)鍵詞提取算法對(duì)文檔主題進(jìn)行識(shí)別抽取和基于詞典對(duì)文章進(jìn)行情感分析,最后基于行為金融的前提和量化投資的策略理念,構(gòu)造關(guān)注度因子、情感因子、關(guān)注度與情感交互因子,分析這些因子與概念板漲跌幅之間相關(guān)關(guān)系。通過(guò)研究,我們...
【文章來(lái)源】:蘇州大學(xué)江蘇省 211工程院校
【文章頁(yè)數(shù)】:46 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3-1基于層次隱馬爾可夫模型的漢語(yǔ)詞法分析框架[16]??10??
cation,簡(jiǎn)記LDA)算法是一種典型的主??題模型(TopicModel)算法,其對(duì)海量的文本數(shù)據(jù)進(jìn)行探索,對(duì)詞組聚類,提取出??一系列文檔中隱含的主題,屬于非監(jiān)督學(xué)習(xí)方法。LDA泛化能力強(qiáng),其將文檔??集合中每篇文檔的主題以概率分布的形式給出,得到它們的主題分布后,便可以??根據(jù)主題分布進(jìn)行主題聚類或文本分類%1。根據(jù)LDA算法思想,一篇文檔的生??成是由以下流程生成:??P?)—*{??J?—I?K1???????Q???0?Z?y??N???M??圖3-2?LDA模型??#表示詞分布,0表示主題分布,《是主題分布0的先驗(yàn)分布的參數(shù),/?是詞分??布#的先驗(yàn)分布的參數(shù),N表示文檔的詞語(yǔ)總數(shù),M表示文檔的總數(shù),K表示主??題總數(shù)。Z表示文檔的主題集合,W表示文檔中的所有詞語(yǔ)集合。LDA生成文??檔步驟如下:??Stepl:第/篇文檔D,?的主題分布&是從參數(shù)為a的Dirichlet先驗(yàn)分布中采樣??得到的Multinomia丨分布,即0;先驗(yàn)分布服從D丨r(a),??=<P(Z1|D;)P(ZJD,)?>,?(3.7)??從主題分布仏抽取主題z。??Step2:第A個(gè)主題的詞分布外是從參數(shù)為/?的Dirichlet先驗(yàn)分布中采樣得??13??
第四章研究方法和結(jié)論?基于文本挖掘的量化投資策略影響因素分析??些鏈接中爬取文章數(shù)據(jù)。其中,若有些文章鏈接無(wú)法打開(kāi)或只含圖片,則保存文??章的摘要部分。圖4-2為新華網(wǎng)爬取首頁(yè)。??C?<0?不安金.??'?????????mil?Wfm?羊。.-V’?.?tif;??■巧Ji雜軹櫓踢w?±頭:??房地產(chǎn)六大熱詞,你讀懂多少??W.ff?.;5??牛?rS3?中設(shè)M:??|i?I'i-f-?*?/A^:-?上>5指教??薇?^?s:>a.->f?.?[s?^\?^?HH?4??匇????..?.城'..V?_?1。畡冢好兀浚状,矣:M?>?適、???齡I概猶t?_、嫩飲??Adcbt*?^:^J-?Piayff??她經(jīng)濟(jì):跔買者正變?yōu)閯?chuàng)業(yè)者和公益人??4^J?1?球:?rn?f?4??^?rVf-l?;;-;'?*,;:.??Kr?.?_?土工輿tt魯^m6^4 ̄4F?C??;*3BiJhl??圖4-2新華社財(cái)經(jīng)頻道首頁(yè)爬蟲??通過(guò)Python的request包獲取的是網(wǎng)頁(yè)的源碼數(shù)據(jù),然后通過(guò)BeautifulSoup??庫(kù)從源碼標(biāo)簽中提取所需文本數(shù)據(jù),最后保存到數(shù)據(jù)庫(kù)中,共計(jì)109631條文本??數(shù)據(jù)。圖4-3為數(shù)據(jù)存儲(chǔ)在MySQL數(shù)據(jù)庫(kù),其中數(shù)據(jù)庫(kù)的表格設(shè)計(jì)如表4-1。??表4-1數(shù)據(jù)庫(kù)MySQL字段說(shuō)明??字段??說(shuō)明??Id?int(ll)?NOT?NULL?文檔?ID??Publishtime?varchar(50)?NULL?發(fā)布時(shí)間??Title?varchar(200)?NULL?文章標(biāo)題??Target?varchar(200)?NUL
【參考文獻(xiàn)】:
期刊論文
[1]基于情感詞典擴(kuò)展技術(shù)的網(wǎng)絡(luò)輿情傾向性分析[J]. 楊超,馮時(shí),王大玲,楊楠,于戈. 小型微型計(jì)算機(jī)系統(tǒng). 2010(04)
[2]基于凝聚式層次聚類算法的標(biāo)簽聚類研究[J]. 曹高輝,焦玉英,成全. 現(xiàn)代圖書情報(bào)技術(shù). 2008(04)
[3]文本挖掘研究進(jìn)展[J]. 諶志群,張國(guó)煊. 模式識(shí)別與人工智能. 2005(01)
[4]基于層疊隱馬模型的漢語(yǔ)詞法分析[J]. 劉群,張華平,俞鴻魁,程學(xué)旗. 計(jì)算機(jī)研究與發(fā)展. 2004(08)
[5]網(wǎng)頁(yè)多詞元快速聚類算法[J]. 李振星,徐澤平,唐衛(wèi)清,唐榮錫. 計(jì)算機(jī)工程. 2003(02)
[6]基于N-最短路徑方法的中文詞語(yǔ)粗分模型[J]. 張華平,劉群. 中文信息學(xué)報(bào). 2002(05)
[7]我國(guó)金融發(fā)展與經(jīng)濟(jì)增長(zhǎng)關(guān)系的格蘭杰檢驗(yàn)和特征分析[J]. 曹嘯,吳軍. 財(cái)貿(mào)經(jīng)濟(jì). 2002(05)
[8]基于市場(chǎng)效率的中國(guó)股市波動(dòng)和發(fā)展階段劃分[J]. 馬向前,任若恩. 經(jīng)濟(jì)科學(xué). 2002(01)
博士論文
[1]投資者情緒的統(tǒng)計(jì)測(cè)評(píng)及其應(yīng)用研究[D]. 崔亮.西南財(cái)經(jīng)大學(xué) 2013
碩士論文
[1]投資者情緒對(duì)股票市場(chǎng)的影響研究[D]. 申浩男.山西財(cái)經(jīng)大學(xué) 2018
[2]互聯(lián)網(wǎng)財(cái)經(jīng)新聞對(duì)股票影響的實(shí)證分析[D]. 楊娟.西南財(cái)經(jīng)大學(xué) 2012
本文編號(hào):3548890
【文章來(lái)源】:蘇州大學(xué)江蘇省 211工程院校
【文章頁(yè)數(shù)】:46 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3-1基于層次隱馬爾可夫模型的漢語(yǔ)詞法分析框架[16]??10??
cation,簡(jiǎn)記LDA)算法是一種典型的主??題模型(TopicModel)算法,其對(duì)海量的文本數(shù)據(jù)進(jìn)行探索,對(duì)詞組聚類,提取出??一系列文檔中隱含的主題,屬于非監(jiān)督學(xué)習(xí)方法。LDA泛化能力強(qiáng),其將文檔??集合中每篇文檔的主題以概率分布的形式給出,得到它們的主題分布后,便可以??根據(jù)主題分布進(jìn)行主題聚類或文本分類%1。根據(jù)LDA算法思想,一篇文檔的生??成是由以下流程生成:??P?)—*{??J?—I?K1???????Q???0?Z?y??N???M??圖3-2?LDA模型??#表示詞分布,0表示主題分布,《是主題分布0的先驗(yàn)分布的參數(shù),/?是詞分??布#的先驗(yàn)分布的參數(shù),N表示文檔的詞語(yǔ)總數(shù),M表示文檔的總數(shù),K表示主??題總數(shù)。Z表示文檔的主題集合,W表示文檔中的所有詞語(yǔ)集合。LDA生成文??檔步驟如下:??Stepl:第/篇文檔D,?的主題分布&是從參數(shù)為a的Dirichlet先驗(yàn)分布中采樣??得到的Multinomia丨分布,即0;先驗(yàn)分布服從D丨r(a),??=<P(Z1|D;)P(ZJD,)?>,?(3.7)??從主題分布仏抽取主題z。??Step2:第A個(gè)主題的詞分布外是從參數(shù)為/?的Dirichlet先驗(yàn)分布中采樣得??13??
第四章研究方法和結(jié)論?基于文本挖掘的量化投資策略影響因素分析??些鏈接中爬取文章數(shù)據(jù)。其中,若有些文章鏈接無(wú)法打開(kāi)或只含圖片,則保存文??章的摘要部分。圖4-2為新華網(wǎng)爬取首頁(yè)。??C?<0?不安金.??'?????????mil?Wfm?羊。.-V’?.?tif;??■巧Ji雜軹櫓踢w?±頭:??房地產(chǎn)六大熱詞,你讀懂多少??W.ff?.;5??牛?rS3?中設(shè)M:??|i?I'i-f-?*?/A^:-?上>5指教??薇?^?s:>a.->f?.?[s?^\?^?HH?4??匇????..?.城'..V?_?1。畡冢好兀浚状,矣:M?>?適、???齡I概猶t?_、嫩飲??Adcbt*?^:^J-?Piayff??她經(jīng)濟(jì):跔買者正變?yōu)閯?chuàng)業(yè)者和公益人??4^J?1?球:?rn?f?4??^?rVf-l?;;-;'?*,;:.??Kr?.?_?土工輿tt魯^m6^4 ̄4F?C??;*3BiJhl??圖4-2新華社財(cái)經(jīng)頻道首頁(yè)爬蟲??通過(guò)Python的request包獲取的是網(wǎng)頁(yè)的源碼數(shù)據(jù),然后通過(guò)BeautifulSoup??庫(kù)從源碼標(biāo)簽中提取所需文本數(shù)據(jù),最后保存到數(shù)據(jù)庫(kù)中,共計(jì)109631條文本??數(shù)據(jù)。圖4-3為數(shù)據(jù)存儲(chǔ)在MySQL數(shù)據(jù)庫(kù),其中數(shù)據(jù)庫(kù)的表格設(shè)計(jì)如表4-1。??表4-1數(shù)據(jù)庫(kù)MySQL字段說(shuō)明??字段??說(shuō)明??Id?int(ll)?NOT?NULL?文檔?ID??Publishtime?varchar(50)?NULL?發(fā)布時(shí)間??Title?varchar(200)?NULL?文章標(biāo)題??Target?varchar(200)?NUL
【參考文獻(xiàn)】:
期刊論文
[1]基于情感詞典擴(kuò)展技術(shù)的網(wǎng)絡(luò)輿情傾向性分析[J]. 楊超,馮時(shí),王大玲,楊楠,于戈. 小型微型計(jì)算機(jī)系統(tǒng). 2010(04)
[2]基于凝聚式層次聚類算法的標(biāo)簽聚類研究[J]. 曹高輝,焦玉英,成全. 現(xiàn)代圖書情報(bào)技術(shù). 2008(04)
[3]文本挖掘研究進(jìn)展[J]. 諶志群,張國(guó)煊. 模式識(shí)別與人工智能. 2005(01)
[4]基于層疊隱馬模型的漢語(yǔ)詞法分析[J]. 劉群,張華平,俞鴻魁,程學(xué)旗. 計(jì)算機(jī)研究與發(fā)展. 2004(08)
[5]網(wǎng)頁(yè)多詞元快速聚類算法[J]. 李振星,徐澤平,唐衛(wèi)清,唐榮錫. 計(jì)算機(jī)工程. 2003(02)
[6]基于N-最短路徑方法的中文詞語(yǔ)粗分模型[J]. 張華平,劉群. 中文信息學(xué)報(bào). 2002(05)
[7]我國(guó)金融發(fā)展與經(jīng)濟(jì)增長(zhǎng)關(guān)系的格蘭杰檢驗(yàn)和特征分析[J]. 曹嘯,吳軍. 財(cái)貿(mào)經(jīng)濟(jì). 2002(05)
[8]基于市場(chǎng)效率的中國(guó)股市波動(dòng)和發(fā)展階段劃分[J]. 馬向前,任若恩. 經(jīng)濟(jì)科學(xué). 2002(01)
博士論文
[1]投資者情緒的統(tǒng)計(jì)測(cè)評(píng)及其應(yīng)用研究[D]. 崔亮.西南財(cái)經(jīng)大學(xué) 2013
碩士論文
[1]投資者情緒對(duì)股票市場(chǎng)的影響研究[D]. 申浩男.山西財(cái)經(jīng)大學(xué) 2018
[2]互聯(lián)網(wǎng)財(cái)經(jīng)新聞對(duì)股票影響的實(shí)證分析[D]. 楊娟.西南財(cái)經(jīng)大學(xué) 2012
本文編號(hào):3548890
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3548890.html
最近更新
教材專著