天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 經(jīng)濟(jì)論文 > 股票論文 >

基于股吧文本的主題挖掘及其股票投資應(yīng)用

發(fā)布時間:2020-04-29 05:32
【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,投資者越來越傾向于在網(wǎng)絡(luò)上通過各種股吧論壇來表達(dá)自己對市場的觀點,同時獲取自己所關(guān)注的股市信息,而這些信息會潛移默化地影響著投資者的投資決策。因此,本文從大數(shù)據(jù)文本挖掘的角度出發(fā),從網(wǎng)絡(luò)爬取的股吧文本數(shù)據(jù)中挖掘股票市場的熱門主題,再應(yīng)用到股票投資上。對股吧文本進(jìn)行主題挖掘首先要選取合適的主題挖掘算法,目前股市上很少采取LDA模型進(jìn)行主題挖掘,但LDA模型的應(yīng)用廣泛,優(yōu)勢突出,本文選用LDA模型。為了對比LDA模型的效果,本文將其與傳統(tǒng)的文本聚類算法做對比,挖掘2018年2月份股吧財經(jīng)評論吧熱帖文本的主題,發(fā)現(xiàn)LDA的主題挖掘效果更好、模型拓展性能更強等。主題挖掘方法在股票投資領(lǐng)域中的應(yīng)用很少,所以本文在挖掘股吧文本熱點主題的基礎(chǔ)上,提出構(gòu)建主題投資策略。基于主題數(shù)據(jù),構(gòu)建主題熱度因子,綜合考慮主題行業(yè)熱度和主題概念熱度兩個方面,來描述主題和其個股的關(guān)系。構(gòu)造出主題熱度因子后,對其做單因子檢驗證明其有效性,將其作為主要因子和其他常用類因子構(gòu)建多因子庫,構(gòu)建多因子量化選股模型。相比于傳統(tǒng)的排序打分法,本文把選股模型看成二分類問題,選用邏輯回歸模型。邏輯回歸易求最優(yōu)解、直接對分類可能性進(jìn)行建模,預(yù)測結(jié)果是近似類別的概率,且概率結(jié)果可以作為配資權(quán)重。本文使用邏輯回歸模型構(gòu)建多因子選股策略,通過對2016年4月至2017年9月期間的滬深300成分股股池進(jìn)行回測,策略的年化收益率達(dá)到21.1%,凈值曲線后期表現(xiàn)遠(yuǎn)超基準(zhǔn)。再剔除主題因子,同樣構(gòu)建邏輯回歸多因子選股模型,對比添加主題因子前后的策略效果:隨機(jī)多次抽樣時段構(gòu)建策略,獲得兩組樣本數(shù)據(jù),對兩組樣本的夏普比率和年化收益率的提高進(jìn)行顯著性檢驗,夏普比率和年化收益率對應(yīng)的P值均接近0,說明年化收益率和夏普比率有顯著的提升效果,主題因子對策略有顯著的改善效果,充分驗證了主題挖掘方法的效果。本文的研究成果有利于完善我國關(guān)于股市熱點主題挖掘的理論研究,充實股市選股中基于主題投資選股的方法和技巧,而且可以為我國股市的投資者提供選股策略上的具體建議。
【圖文】:

流程圖,文本挖掘,流程圖,網(wǎng)絡(luò)爬蟲


圖 2-1 文本挖掘流程圖1 獲取文本的相關(guān)技術(shù)文本挖掘流程第一步,即獲取文本數(shù)據(jù),本文的文本數(shù)據(jù)來源于網(wǎng)絡(luò),要獲取文本數(shù)據(jù),直接爬取數(shù)據(jù)的方法獲得的信息更為全面,所以本文采用網(wǎng)絡(luò)爬蟲技過 Python 爬蟲來獲取網(wǎng)絡(luò)文本數(shù)據(jù)。網(wǎng)絡(luò)爬蟲[32],顧名思義,是一種網(wǎng)絡(luò)爬取數(shù)手段,也即數(shù)據(jù)采集程序。按照一定的規(guī)則,,網(wǎng)絡(luò)爬蟲程序或腳本可以自動地抓絡(luò)信息。1.1 網(wǎng)絡(luò)爬蟲簡介網(wǎng)絡(luò)爬蟲(Web crawler)可以爬取網(wǎng)頁中展示出來的信息,包括文字信息和超信息等,它可以進(jìn)入超鏈接信息鏈接到的其他網(wǎng)頁進(jìn)行新一輪的爬蟲,這就像一絡(luò)蜘蛛在網(wǎng)絡(luò)中漫游,所以它也譯為網(wǎng)絡(luò)蜘蛛,它可以自動采集它所能訪問到的網(wǎng)頁,自動抓取網(wǎng)頁信息。網(wǎng)絡(luò)爬蟲廣泛應(yīng)用于谷歌、百度等互聯(lián)網(wǎng)搜索引擎系

主題,挖掘算法,潛在語義,文本聚類


圖 2-2 主題挖掘一般流程圖掘的算法主題挖掘算法主題挖掘算法最早追溯到文本聚類算法:非結(jié)構(gòu)化的文r Space Model)向量空間模型映射到向量空間中的一個點,緊接k均值聚類算法等實現(xiàn)文本聚類,最終聚為同一類的文本就認(rèn)為聚類算法很成熟且簡單易實現(xiàn)。只能劃分類別,且 1個文本只能歸屬于 1個主題(類別);不能釋性,人們不易理解。性代數(shù)的主題挖掘算法在語義分析是一種基于線性代數(shù)基礎(chǔ)的主題挖掘新方法,由 De潛在語義分析意在挖掘文檔的潛在語義結(jié)構(gòu),通過 SVD(Si
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:F832.51

【參考文獻(xiàn)】

相關(guān)期刊論文 前5條

1 李保華;;選對主題 成就風(fēng)格[J];大眾理財顧問;2012年02期

2 王蕊;;撥開主題投資的迷霧[J];大眾理財顧問;2011年09期

3 王明旭;劉俊;王曉李;;主題制勝 成就價值——主題投資策略方法論及應(yīng)用[J];資本市場;2010年10期

4 李雪;孔凡航;尹奇;;主題投資策略中羊群行為的實證研究[J];北京工商大學(xué)學(xué)報(社會科學(xué)版);2008年01期

5 袁軍鵬;朱東華;李毅;李連宏;黃進(jìn);;文本挖掘技術(shù)研究進(jìn)展[J];計算機(jī)應(yīng)用研究;2006年02期

相關(guān)重要報紙文章 前1條

1 雷澤;;主題投資:投資新概念[N];證券時報;2004年

相關(guān)碩士學(xué)位論文 前7條

1 王凱;基于集成學(xué)習(xí)的量化選股策略研究[D];華南理工大學(xué);2017年

2 李保國;基于聚類與LDA的新聞評論主題挖掘研究[D];武漢紡織大學(xué);2016年

3 王晶;基于社交媒體的熱點主題挖掘及主題演化分析[D];西南大學(xué);2016年

4 王亮;基于主題模型的文本挖掘的研究[D];大連理工大學(xué);2015年

5 張建新;基于主題投資的股票市場選股策略研究[D];云南大學(xué);2015年

6 史辰燁;社交網(wǎng)絡(luò)博客主題挖掘與應(yīng)用[D];上海交通大學(xué);2014年

7 劉晨;A股市場弱式有效性下的主題投資研究[D];天津財經(jīng)大學(xué);2013年



本文編號:2644271

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/jinrongzhengquanlunwen/2644271.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶865b7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com