基于數(shù)據(jù)挖掘算法的金融數(shù)據(jù)采集與分析研究
本文選題:網(wǎng)絡(luò)爬蟲 + K-means算法 ; 參考:《天津大學(xué)》2016年碩士論文
【摘要】:股票市場作為金融市場中重要的一部分,在我國經(jīng)濟中起著非常重要的作用,成為經(jīng)濟的“晴雨表”,有效的預(yù)測股票走勢在金融投資領(lǐng)域占有非常重要的地位。然而要分析股票市場,就需要及時的獲取到股市的相關(guān)數(shù)據(jù),但隨著經(jīng)濟的不斷發(fā)展,股票數(shù)據(jù)的規(guī)模越來越大,已經(jīng)不是人力所能獲取的。盡管網(wǎng)上有著很多數(shù)據(jù)集的提供網(wǎng)站,但是多數(shù)都需要付出大量的金錢,同時所得到的數(shù)據(jù)多為不全數(shù)據(jù),無法及時得到最新的數(shù)據(jù)。近年來興起的數(shù)據(jù)挖掘技術(shù)很好的提供了獲取海量數(shù)據(jù)并從中分析出有價值、隱藏著的規(guī)律的技術(shù)。本文主要是運用網(wǎng)絡(luò)爬蟲技術(shù)對雅虎金融中的股票數(shù)據(jù)進行采集,利用貝葉斯推斷的基本原理及其推廣對數(shù)據(jù)進行分類和提取,從股票海量的數(shù)據(jù)中提取出有用的數(shù)據(jù)進行分析。同時建立一套數(shù)據(jù)提取系統(tǒng),基于對網(wǎng)絡(luò)爬蟲的深入理解,對爬蟲框架進行二次開發(fā),實現(xiàn)快速抓取數(shù)據(jù)。隨后初步探討了利用K-means算法和改進的K-medoids對我國A股市場的交易數(shù)據(jù)進行聚類分析。
[Abstract]:As an important part of the financial market, the stock market plays a very important role in the economy of our country and becomes the "barometer" of the economy. The effective prediction of the stock trend occupies a very important position in the field of financial investment. However, in order to analyze the stock market, we need to get the relevant data of stock market in time, but with the development of economy, the scale of stock data is getting larger and larger, which can not be obtained by manpower. Although there are many web sites providing data sets on the Internet, most of them need to pay a lot of money. At the same time, most of the data they get are incomplete, so they can't get the latest data in time. In recent years, data mining technology has provided a good way to obtain massive data and analyze the valuable and hidden rules. This paper mainly uses the technology of web crawler to collect the stock data in Yahoo Finance, and classifies and extracts the data by using the basic principle of Bayesian inference and its generalization. Extract useful data from massive stock data for analysis. At the same time, a data extraction system is established. Based on the deep understanding of the web crawler, the crawler framework is redeveloped to realize fast data capture. Then it discusses the clustering analysis of the trading data of A-share market using K-means algorithm and improved K-medoids.
【學(xué)位授予單位】:天津大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13;TP274.2
【相似文獻】
相關(guān)期刊論文 前10條
1 尹江;尹治本;黃洪;;網(wǎng)絡(luò)爬蟲效率瓶頸的分析與解決方案[J];計算機應(yīng)用;2008年05期
2 戚欣;;基于本體的主題網(wǎng)絡(luò)爬蟲設(shè)計[J];武漢理工大學(xué)學(xué)報;2009年03期
3 彭軻;廖聞劍;;基于瀏覽器服務(wù)的網(wǎng)絡(luò)爬蟲[J];硅谷;2009年04期
4 王江紅;朱麗君;李彩虹;;一種新型網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];微計算機信息;2010年03期
5 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期
6 楊靖韜;陳會果;;對網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];科技創(chuàng)業(yè)月刊;2010年10期
7 于成龍;于洪波;;網(wǎng)絡(luò)爬蟲技術(shù)研究[J];東莞理工學(xué)院學(xué)報;2011年03期
8 李志義;;網(wǎng)絡(luò)爬蟲的優(yōu)化策略探略[J];現(xiàn)代情報;2011年10期
9 焦賽美;;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];瓊州學(xué)院學(xué)報;2011年05期
10 宋海洋;劉曉然;錢?;;一種新的主題網(wǎng)絡(luò)爬蟲爬行策略[J];計算機應(yīng)用與軟件;2011年11期
相關(guān)會議論文 前10條
1 夏詔杰;郭力;李曉霞;;化學(xué)主題網(wǎng)絡(luò)爬蟲的研究[A];第十屆全國計算(機)化學(xué)學(xué)術(shù)會議論文摘要集[C];2009年
2 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[A];2010年全國通信安全學(xué)術(shù)會議論文集[C];2010年
3 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評論信息的挖掘[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
4 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國第21屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2010年
5 賀煒;邢春曉;潘泉;;因果不完備條件下的數(shù)據(jù)挖掘算法[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年
6 劉玲;張興會;;基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法研究[A];全國第二屆信號處理與應(yīng)用學(xué)術(shù)會議?痆C];2008年
7 陳曦;曾凡鋒;;數(shù)據(jù)挖掘算法在風(fēng)險評估中的應(yīng)用[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會議論文集(上冊)[C];2007年
8 郭新宇;梁循;;大型數(shù)據(jù)庫中數(shù)據(jù)挖掘算法SLIQ的研究及仿真[A];2004年中國管理科學(xué)學(xué)術(shù)會議論文集[C];2004年
9 張沫;欒媛媛;秦培玉;羅丹;;基于聚類算法的多維客戶行為細分模型研究與實現(xiàn)[A];2011年通信與信息技術(shù)新進展——第八屆中國通信學(xué)會學(xué)術(shù)年會論文集[C];2011年
10 潘國林;楊帆;;數(shù)據(jù)挖掘算法在保險客戶分析中的應(yīng)用[A];全國第20屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集(上冊)[C];2009年
相關(guān)重要報紙文章 前3條
1 王志強;銀行應(yīng)用系統(tǒng)間的數(shù)據(jù)交換[N];計算機世界;2005年
2 ;選擇合適的數(shù)據(jù)挖掘算法[N];計算機世界;2007年
3 陳代壽;網(wǎng)管不言愁[N];中國計算機報;2000年
相關(guān)博士學(xué)位論文 前4條
1 殷君茹;分布式并行環(huán)境下林地落界數(shù)據(jù)快速統(tǒng)計技術(shù)研究[D];中國林業(yè)科學(xué)研究院;2015年
2 韓晶;大數(shù)據(jù)服務(wù)若干關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2013年
3 陳云開;基于粗糙集和聚類的數(shù)據(jù)挖掘算法及其在反洗錢中的應(yīng)用研究[D];華中科技大學(xué);2007年
4 張靜;基于粗糙集理論的數(shù)據(jù)挖掘算法研究[D];西北工業(yè)大學(xué);2006年
相關(guān)碩士學(xué)位論文 前10條
1 王悅;基于數(shù)據(jù)挖掘算法的金融數(shù)據(jù)采集與分析研究[D];天津大學(xué);2016年
2 陶俊文;基于Heritrix框架的專業(yè)鎮(zhèn)信息網(wǎng)絡(luò)爬蟲系統(tǒng)[D];華南理工大學(xué);2015年
3 馬漢超;基于主題網(wǎng)絡(luò)爬蟲的汽車行業(yè)多元信息web系統(tǒng)設(shè)計與實現(xiàn)[D];西南交通大學(xué);2015年
4 李威;基于交通流量圖的交通信息提取技術(shù)研究[D];長安大學(xué);2015年
5 朱嶸良;分布式并行環(huán)境下的網(wǎng)絡(luò)爬蟲研究[D];中央民族大學(xué);2015年
6 周思華;股票系統(tǒng)之熱門話題發(fā)現(xiàn)子系統(tǒng)的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
7 丁杰;基于網(wǎng)絡(luò)爬蟲的虛假網(wǎng)頁主動智能檢測[D];華北電力大學(xué);2015年
8 唐華棟;網(wǎng)頁防抓取系統(tǒng)的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
9 白劍飛;基于層次主題模型的網(wǎng)絡(luò)新聞匯聚[D];浙江大學(xué);2015年
10 袁野;企業(yè)內(nèi)網(wǎng)搜索引擎關(guān)鍵技術(shù)研究與實現(xiàn)[D];電子科技大學(xué);2014年
,本文編號:2094633
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2094633.html