基于股吧文本的主題挖掘及其股票投資應(yīng)用
【圖文】:
圖 2-1 文本挖掘流程圖1 獲取文本的相關(guān)技術(shù)文本挖掘流程第一步,即獲取文本數(shù)據(jù),本文的文本數(shù)據(jù)來源于網(wǎng)絡(luò),要獲取文本數(shù)據(jù),直接爬取數(shù)據(jù)的方法獲得的信息更為全面,所以本文采用網(wǎng)絡(luò)爬蟲技過 Python 爬蟲來獲取網(wǎng)絡(luò)文本數(shù)據(jù)。網(wǎng)絡(luò)爬蟲[32],顧名思義,是一種網(wǎng)絡(luò)爬取數(shù)手段,也即數(shù)據(jù)采集程序。按照一定的規(guī)則,,網(wǎng)絡(luò)爬蟲程序或腳本可以自動地抓絡(luò)信息。1.1 網(wǎng)絡(luò)爬蟲簡介網(wǎng)絡(luò)爬蟲(Web crawler)可以爬取網(wǎng)頁中展示出來的信息,包括文字信息和超信息等,它可以進(jìn)入超鏈接信息鏈接到的其他網(wǎng)頁進(jìn)行新一輪的爬蟲,這就像一絡(luò)蜘蛛在網(wǎng)絡(luò)中漫游,所以它也譯為網(wǎng)絡(luò)蜘蛛,它可以自動采集它所能訪問到的網(wǎng)頁,自動抓取網(wǎng)頁信息。網(wǎng)絡(luò)爬蟲廣泛應(yīng)用于谷歌、百度等互聯(lián)網(wǎng)搜索引擎系
圖 2-2 主題挖掘一般流程圖掘的算法主題挖掘算法主題挖掘算法最早追溯到文本聚類算法:非結(jié)構(gòu)化的文r Space Model)向量空間模型映射到向量空間中的一個點,緊接k均值聚類算法等實現(xiàn)文本聚類,最終聚為同一類的文本就認(rèn)為聚類算法很成熟且簡單易實現(xiàn)。只能劃分類別,且 1個文本只能歸屬于 1個主題(類別);不能釋性,人們不易理解。性代數(shù)的主題挖掘算法在語義分析是一種基于線性代數(shù)基礎(chǔ)的主題挖掘新方法,由 De潛在語義分析意在挖掘文檔的潛在語義結(jié)構(gòu),通過 SVD(Si
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:F832.51
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 李保華;;選對主題 成就風(fēng)格[J];大眾理財顧問;2012年02期
2 王蕊;;撥開主題投資的迷霧[J];大眾理財顧問;2011年09期
3 王明旭;劉俊;王曉李;;主題制勝 成就價值——主題投資策略方法論及應(yīng)用[J];資本市場;2010年10期
4 李雪;孔凡航;尹奇;;主題投資策略中羊群行為的實證研究[J];北京工商大學(xué)學(xué)報(社會科學(xué)版);2008年01期
5 袁軍鵬;朱東華;李毅;李連宏;黃進(jìn);;文本挖掘技術(shù)研究進(jìn)展[J];計算機(jī)應(yīng)用研究;2006年02期
相關(guān)重要報紙文章 前1條
1 雷澤;;主題投資:投資新概念[N];證券時報;2004年
相關(guān)碩士學(xué)位論文 前7條
1 王凱;基于集成學(xué)習(xí)的量化選股策略研究[D];華南理工大學(xué);2017年
2 李保國;基于聚類與LDA的新聞評論主題挖掘研究[D];武漢紡織大學(xué);2016年
3 王晶;基于社交媒體的熱點主題挖掘及主題演化分析[D];西南大學(xué);2016年
4 王亮;基于主題模型的文本挖掘的研究[D];大連理工大學(xué);2015年
5 張建新;基于主題投資的股票市場選股策略研究[D];云南大學(xué);2015年
6 史辰燁;社交網(wǎng)絡(luò)博客主題挖掘與應(yīng)用[D];上海交通大學(xué);2014年
7 劉晨;A股市場弱式有效性下的主題投資研究[D];天津財經(jīng)大學(xué);2013年
本文編號:2644271
本文鏈接:http://sikaile.net/jingjilunwen/jinrongzhengquanlunwen/2644271.html