數(shù)據(jù)挖掘技術(shù)在股票分析與預測中的應用
發(fā)布時間:2020-07-05 10:56
【摘要】: 近年來,數(shù)據(jù)挖掘技術(shù)在各個領(lǐng)域得到廣泛的應用。它在處理海量數(shù)據(jù),知識發(fā)現(xiàn)方面具有其他技術(shù)不可比擬的優(yōu)勢。股票交易數(shù)據(jù)量巨大,在這些數(shù)據(jù)中存在著一些隱含的規(guī)律。由于人腦處理數(shù)據(jù)的能力有限,所以很難發(fā)現(xiàn)它們。而數(shù)據(jù)挖掘技術(shù)恰好可以彌補這個不足。本文嘗試用數(shù)據(jù)挖掘技術(shù)來對股票進行分析和預測。 本文首先介紹了股票分析與預測的背景知識和方法,其次對數(shù)據(jù)挖掘理論做了深入細致的研究,然后著重從以下三個方面展開討論。 首先,重點對股票的財務(wù)數(shù)據(jù)指標進行研究,選取有代表性的財務(wù)指標,把決策樹分類ID3算法應用到股票財務(wù)數(shù)據(jù)的分析上。投資者利用測試結(jié)果可以對上市公司的經(jīng)營情況和獲利能力進行分析。 其次,利用關(guān)聯(lián)規(guī)則挖掘股票間的連動規(guī)則。關(guān)聯(lián)分析方法可以挖掘事務(wù)數(shù)據(jù)庫中“項”與“項”之間的規(guī)則。股票數(shù)據(jù)是連續(xù)的數(shù)值型數(shù)據(jù),而不是邏輯型的。本文應用事務(wù)間數(shù)值型關(guān)聯(lián)規(guī)則挖掘算法E-QA來找出股票間的連動規(guī)則。 最后,利用時間序列相似性搜索方法,查找出與選定股票走勢相似的歷史股票數(shù)據(jù),以此預測股票未來一段時間的走勢。股票價格走勢往往有很多規(guī)則,而這些規(guī)則經(jīng)常反復的出現(xiàn)。如果能夠找到和選定股票走勢相似的歷史數(shù)據(jù),就可以以此作為投資的依據(jù)。
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2007
【分類號】:F830.91;TP311.13
【圖文】:
圖 2-1 關(guān)于“每股收益”的決策樹模型根據(jù)以上決策樹模型,可以提取出如下 12 條規(guī)則:規(guī)則 1: If 凈資產(chǎn)收益率 <0%Then 每股收益 <0.00 元規(guī)則 2: If 每股凈資產(chǎn) <0.00 元Then 每股收益 <0.00 元規(guī)則 3: If 每股凈資產(chǎn) >6.00 元Then 每股收益 >0.30 元規(guī)則 4: If 每股凈資產(chǎn) =[3.00 元,6.00 元]And 主營收入增長率 >60%Then 每股收益 >0.30 元規(guī)則 5: If 凈資產(chǎn)收益率 =[30%,60%]Then 每股收益 >0.30 元規(guī)則 6: If 每股凈資產(chǎn) =[3.00 元,6.00 元]And 每股現(xiàn)金含量 >0.3 元- 24 -
圖 4-1 Apriori 算法示例4.1.4 Apriori算法存在的問題及改進算法雖然 Apriori 算法能夠很好的挖掘出隱藏在數(shù)據(jù)庫中關(guān)聯(lián)規(guī)則,但是用Apriori 算法進行關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)之前,需要進行最小支持度閾值和最小置信度閾值的確定,而它們是靠人們根據(jù)經(jīng)驗給出的,而且在進行關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘的過程中,是采用唯一的支持度閾值和置信度閾值,這樣對我們的挖掘來說就存在以下問題[31]:(1)在支持度方面:(a)如果挖掘的最小支持度定的過高,那么覆蓋較少數(shù)據(jù)但卻有意義的關(guān)聯(lián)規(guī)則將不能被發(fā)現(xiàn)。(b)如果最小支持度定的過低,那么大量的無實際意義的關(guān)聯(lián)規(guī)則將充斥在數(shù)據(jù)挖掘過程中,大大降低數(shù)據(jù)挖掘的效率和挖掘結(jié)果的有效性。(2)在置信度方面:如果采用唯一的置信度,它的前提條件就是各個規(guī)則用于推理的強度非常相似,但在現(xiàn)實生活中這個條件很難成立。
本文編號:2742508
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2007
【分類號】:F830.91;TP311.13
【圖文】:
圖 2-1 關(guān)于“每股收益”的決策樹模型根據(jù)以上決策樹模型,可以提取出如下 12 條規(guī)則:規(guī)則 1: If 凈資產(chǎn)收益率 <0%Then 每股收益 <0.00 元規(guī)則 2: If 每股凈資產(chǎn) <0.00 元Then 每股收益 <0.00 元規(guī)則 3: If 每股凈資產(chǎn) >6.00 元Then 每股收益 >0.30 元規(guī)則 4: If 每股凈資產(chǎn) =[3.00 元,6.00 元]And 主營收入增長率 >60%Then 每股收益 >0.30 元規(guī)則 5: If 凈資產(chǎn)收益率 =[30%,60%]Then 每股收益 >0.30 元規(guī)則 6: If 每股凈資產(chǎn) =[3.00 元,6.00 元]And 每股現(xiàn)金含量 >0.3 元- 24 -
圖 4-1 Apriori 算法示例4.1.4 Apriori算法存在的問題及改進算法雖然 Apriori 算法能夠很好的挖掘出隱藏在數(shù)據(jù)庫中關(guān)聯(lián)規(guī)則,但是用Apriori 算法進行關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)之前,需要進行最小支持度閾值和最小置信度閾值的確定,而它們是靠人們根據(jù)經(jīng)驗給出的,而且在進行關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘的過程中,是采用唯一的支持度閾值和置信度閾值,這樣對我們的挖掘來說就存在以下問題[31]:(1)在支持度方面:(a)如果挖掘的最小支持度定的過高,那么覆蓋較少數(shù)據(jù)但卻有意義的關(guān)聯(lián)規(guī)則將不能被發(fā)現(xiàn)。(b)如果最小支持度定的過低,那么大量的無實際意義的關(guān)聯(lián)規(guī)則將充斥在數(shù)據(jù)挖掘過程中,大大降低數(shù)據(jù)挖掘的效率和挖掘結(jié)果的有效性。(2)在置信度方面:如果采用唯一的置信度,它的前提條件就是各個規(guī)則用于推理的強度非常相似,但在現(xiàn)實生活中這個條件很難成立。
【引證文獻】
相關(guān)碩士學位論文 前3條
1 馬曉輝;關(guān)聯(lián)規(guī)則在股票時間序列中的應用[D];廣東工業(yè)大學;2011年
2 唐文慧;基于數(shù)據(jù)挖掘技術(shù)的股價預測實證分析[D];西南財經(jīng)大學;2009年
3 周超良;基于關(guān)聯(lián)規(guī)則的股市板塊指數(shù)建模分析與算法研究[D];首都師范大學;2013年
本文編號:2742508
本文鏈接:http://sikaile.net/guanlilunwen/zhqtouz/2742508.html
最近更新
教材專著