基于改進(jìn)K均值聚類理論的證券時間序列奇異點研究
發(fā)布時間:2014-08-10 14:43
第一章緒論
1.1課題背景
證券時間序列數(shù)據(jù)由不同時間的重復(fù)測量得到的值或時問的序列組成。這些值通常是在相等時叫間隔(例如每小時,每天,每周)測量。時問序列的數(shù)據(jù)量通常以每天(如股票的交易),甚至每分鐘(如NASA空間計劃)數(shù)字節(jié)的量級增長。怎樣才能發(fā)現(xiàn)時間序列數(shù)據(jù)的相關(guān)性呢?怎樣通過快速甚至聯(lián)機(jī)的實時響應(yīng)去分析如此巨大數(shù)量的時間序列數(shù)據(jù),從而找到相似或者有規(guī)律的模式、趨勢、突變(例如突然的明顯變化)以及離群點呢?隨著社會科學(xué)、經(jīng)濟(jì)和生活水平的高速發(fā)展,信息科技時代逐漸來臨,大量的數(shù)據(jù)隨著信息時代的發(fā)展也呈現(xiàn)爆炸式的增長。這種按照時間先后順序出現(xiàn),并且以此排序的數(shù)列集合,我們稱之為時間序列[1]。時間序列是一類重要的復(fù)雜數(shù)據(jù)對象。通過對社會、經(jīng)濟(jì)、科學(xué)技術(shù)等領(lǐng)域中的時間序列做進(jìn)一步分析與處理,便有可能揭示事物運(yùn)動、變化和發(fā)展的內(nèi)在規(guī)律,這無疑對社會經(jīng)濟(jì)和技術(shù)的發(fā)展有著極為重要的意義[2,3]。證券市場作為國家經(jīng)濟(jì)運(yùn)行的核心,探求其變化規(guī)律、進(jìn)行有效的金融管理、提高金融投資效率是管理者與投資者孜孜以求的目標(biāo)之一[4]。證券時間序列是經(jīng)濟(jì)領(lǐng)域中最為重要的數(shù)據(jù)類型,對其進(jìn)行分析和預(yù)測對人們分析市場走勢有著至關(guān)重要的作用[5]。作為現(xiàn)代金融計量經(jīng)濟(jì)學(xué)理論中的重要內(nèi)容,證券時間序列分析已應(yīng)用到價格預(yù)測、投資決策、風(fēng)險管理、客戶分析等各金融機(jī)構(gòu)業(yè)務(wù)中[6]。
.......
1.2國內(nèi)外研究現(xiàn)狀
在時間序列分析一是頻譜分析,,任何沒有趨勢的時間序列都可以被分解成為一定數(shù)量的具有周期性的譜圖。我們關(guān)心的是這些周期的長度,并且時間序列能夠用這些周期來刻畫。盡管我們利用這些頻譜技術(shù)能夠獲得時間序列的一個可視化的印象,對描述時間序列也有一定的幫助,但對于預(yù)測樣本期外的值卻很不明確。第二類方法是經(jīng)濟(jì)學(xué)中最常用的,就是時域分析法,可以追溯到英國統(tǒng)計學(xué)家G.U.Yule于1927年提出的自回歸模型。在時域分析法中,我們主要利用時間序列的數(shù)據(jù)是按照時間順序依次被記錄這一事實。在這種方法中,自相關(guān)函數(shù)非常的重要。對這一類時間序列分析方法,美國統(tǒng)計學(xué)家George E.P.Box和英國統(tǒng)計學(xué)家GwilymMJenkins的工作尤為重要,他們提出了較為完善的時間序列分析和建模的理論[i4],于1970年出版《時間序列分析一預(yù)測與控制》一書。此后,時間序列分析這一研究領(lǐng)域得到了廣泛的擴(kuò)展,從經(jīng)濟(jì)預(yù)測、氣象預(yù)報到過程控制都得到應(yīng)用。George E.P.Box和Gwilym M.Jenkins提出的時序分析模型被稱作博克斯.詹金斯(Box-Jenkins)法。其基本模型有三種,自回歸模型(AR)、移動平均模型(MA)和差分自回歸移動平均模型(ARIMA) [15,16],這些方法對穩(wěn)定的時間序列預(yù)測有著較好的結(jié)果。但是這些模型在理論上和應(yīng)用上還存在著許多局限性,所以統(tǒng)計學(xué)家 始轉(zhuǎn)向?qū)Ψ蔷性時間序列模型的研究。
........
第二章K均值算法、時間序列及奇異點理論基礎(chǔ)
2.1 K均值聚類算法
國際數(shù)據(jù)挖掘大會在2006年12月,進(jìn)行了一次評選。評選的結(jié)果是K均值聚類算法位列應(yīng)用最廣泛的10大算法中的第二位。由此可見K均值聚類算法的應(yīng)用廣泛性。K均值算法是一個應(yīng)用廣泛又實周的算法,該算法主要是把我們的研究對象集合分成若干個聚類,至于聚類個數(shù)k,可以人為的來指定。該聚類算法已經(jīng)被很多的研究者發(fā)現(xiàn)并得以應(yīng)用。K均值算法作為一種簡單常用的聚類分析方法,己經(jīng)被廣泛的應(yīng)用在許多數(shù)據(jù)聚類的問題中。K均值聚類算法是一種間接的利用聚類之間的相似性進(jìn)行度量的方法。它的假設(shè)前提是:不相關(guān)樣本數(shù)據(jù)要高于相關(guān)樣本數(shù)據(jù)的相似度。該算法計算樣本數(shù)據(jù)間的相似度一般都采用歐氏距離。K均值算法在應(yīng)用的時候,并不需要研究者預(yù)先識別樣本數(shù)據(jù)。而且,我們并不需要了解我們所研究的樣本數(shù)據(jù),我們只需要利用這個算法對數(shù)據(jù)進(jìn)行聚類分析,然后分析實驗結(jié)朵從而得出結(jié)論。在聚類分析方法之中,K均值算法是一種既簡單又應(yīng)用廣泛的聚類方法,它是通過利用聚類間的相似性度量進(jìn)行算法實現(xiàn)的一種分析方法。K均值聚類算法是一類簡單的用于解決聚類問題的無監(jiān)督學(xué)習(xí)算法。
.........
2.2時間序列理論基礎(chǔ)
當(dāng)今,越來越多的數(shù)據(jù)被存儲在計算機(jī)上,如證券公司的系統(tǒng)里存儲了海量的股票數(shù)據(jù),軍隊的指揮系統(tǒng)里積累了大量作戰(zhàn)信息,工礦企業(yè)的控制系統(tǒng)中保存了許多參數(shù)的歷史數(shù)據(jù),學(xué)校的計算機(jī)系統(tǒng)里存儲了每位同學(xué)的信息數(shù)據(jù),這些系統(tǒng)里存在大量的數(shù)據(jù)都可以按照時間次序依次列出,這就是時間序列,例如股票價格數(shù)據(jù)、某種產(chǎn)品月銷售量、企業(yè)里各種參數(shù)的歷史數(shù)據(jù)。對時間序列進(jìn)行相應(yīng)分析,就可以揭示事物的運(yùn)動、變化及發(fā)展的內(nèi)在規(guī)律。不論是經(jīng)濟(jì)領(lǐng)域里每年的生產(chǎn)總值、國民收入、某一商品在某一市場上的銷售量、以及商品在市場上的價格變動等等;蛘呱鐣I(lǐng)域某一地區(qū)的人口數(shù)量、醫(yī)院患者人數(shù)、鐵路客流量等,還是在自然領(lǐng)域中的太陽黑子數(shù)、降水量、河流流量等等,都可以看做是時間序列。所有這些時間序列基本特點就是每個時間序列都囊括產(chǎn)生該時間序列的歷史行為的特征信息。關(guān)鍵就在于怎樣才能根據(jù)這些時間序列,較準(zhǔn)確找出相應(yīng)的內(nèi)在統(tǒng)計特性以及事物的發(fā)展規(guī)律,盡可能多的從時間序列里提取我們所需要的準(zhǔn)確信息。
.........
第3章改進(jìn)的K均值聚類及實證研究..........25
3.1改進(jìn)的K均值聚類..........25
3.2實驗相關(guān)參數(shù)的選擇標(biāo)準(zhǔn)..........29
3.3實例驗證..........34
第4章基于改進(jìn)K均值聚類對股票市場的奇異點檢測及研究.......... 37
4.1引言..........37
4.2對股票市場股票收盤價和股票成交量的奇異點檢測及研究.......... 39
4.3奇異點與信息因素的實證研究..........41
第5章總結(jié)與展望..........45
5.1本文總結(jié)..........45
5.2不足與展望..........50
第四章基于改進(jìn)K均值聚類對股票市場的奇異點檢測及研究
4.1引言
隨著我國經(jīng)濟(jì)高逮發(fā)展及金融體蓋的五益完善證券時間序列作為經(jīng)濟(jì)與金融中最重要的數(shù)據(jù)類型,對其進(jìn)行分析是現(xiàn)代金融學(xué)中重要的研究內(nèi)容證券市場是具有高風(fēng)險高收益的投資領(lǐng)域,眾多投資者在追求最大化收益的同時也希望風(fēng)險最小化,這就要求對其內(nèi)在規(guī)律進(jìn)行深入研究。投資股市,股民最關(guān)心的是獲利,賺錢.要做到這點就必須把握股市的漲跌,提前做出較為準(zhǔn)確的判斷.描述股市漲跌有眾多指標(biāo),其中最重要的是股票收盤價和股票成交量["]。下面我簡要介紹這2個指標(biāo)的概念及關(guān)系。股票收盤價是指某只股票在證券交易所一天交易活動結(jié)束前最后一筆交易的成交價格。如果當(dāng)天沒有進(jìn)行相應(yīng)的交易,那么我們就用上一次的成交價格來當(dāng)做這只股票的收盤價。由于股票收盤價是當(dāng)天證券市場行情的-個標(biāo)準(zhǔn),同時也是下個交該只股票 盤價的依據(jù),那么我們可以根據(jù)股票收盤價來對證券市場的未來行情做預(yù)測;因此當(dāng)投資者需要對證券市場的行情做分析時,他們大多都會采用股票收盤價來當(dāng)做分析的依據(jù)。但是目前滬深股市的股票收盤價并不完全是最后一筆交易的成交價格,而是一個加權(quán)平均價,也叫做已調(diào)整收盤價。上海證券交易所交易規(guī)則規(guī)定滬市收盤價為當(dāng)日該證券最后一筆交易前一分鐘所有交易的成交量加權(quán)平均價(含最后一筆交易)。
證券時間序列是經(jīng)濟(jì)中重要的數(shù)據(jù)類型,對其進(jìn)行分析和預(yù)測對人們分析市場走勢有著至關(guān)重要的作用。所以對證券時間序列分析和預(yù)測也就成為近年來國內(nèi)外學(xué)者研究的熱點問題;谧C券時間序列奇異點的研究,本文在基于聚類的奇異點檢測思想下,與K均值聚類算法相結(jié)合,提出了一種改進(jìn)的K均值聚類算法,然后利用該算法對華能國際和華夏銀行這2只股票的股票收盤價和股票成交量進(jìn)行實證分析,得出如下結(jié)論:1.通過對股票市場的股票收盤價和股票成交量的實證研究,驗證了該算法能夠有效的檢測證券時間序列的奇異點。2.成交量是因,收盤價是果,成交量在先,收盤價在后。股票成交量對股票收盤價的變動具有解釋作用,“價走量先行"。成交是交易的目的和實質(zhì),是市場存在的根本意義,股票成交量是股票市場的原動力,沒有股票成交量配合的股票收盤價形同無本之木。因此,股票成交量是投資者分析判斷市場行情并做出投資決策的重要依據(jù).也是各種技術(shù)分析指標(biāo)應(yīng)用時不可或缺的參照。股票成交量的變化最能反映股市的大趨勢。3.信息因素是產(chǎn)生奇異點的起因,股市投資者對股票價值有著自己的預(yù)期,最初股市處于均衡狀態(tài),當(dāng)新信息到達(dá)市場時就會對投資者的預(yù)期產(chǎn)生影響,從而導(dǎo)致股票成交量奇異點的出現(xiàn),又因為股票成交量與股票收盤價的關(guān)系,繼而出現(xiàn)了股票收盤價的奇異點。
........
參考文獻(xiàn)(略)
本文編號:8276
1.1課題背景
證券時間序列數(shù)據(jù)由不同時間的重復(fù)測量得到的值或時問的序列組成。這些值通常是在相等時叫間隔(例如每小時,每天,每周)測量。時問序列的數(shù)據(jù)量通常以每天(如股票的交易),甚至每分鐘(如NASA空間計劃)數(shù)字節(jié)的量級增長。怎樣才能發(fā)現(xiàn)時間序列數(shù)據(jù)的相關(guān)性呢?怎樣通過快速甚至聯(lián)機(jī)的實時響應(yīng)去分析如此巨大數(shù)量的時間序列數(shù)據(jù),從而找到相似或者有規(guī)律的模式、趨勢、突變(例如突然的明顯變化)以及離群點呢?隨著社會科學(xué)、經(jīng)濟(jì)和生活水平的高速發(fā)展,信息科技時代逐漸來臨,大量的數(shù)據(jù)隨著信息時代的發(fā)展也呈現(xiàn)爆炸式的增長。這種按照時間先后順序出現(xiàn),并且以此排序的數(shù)列集合,我們稱之為時間序列[1]。時間序列是一類重要的復(fù)雜數(shù)據(jù)對象。通過對社會、經(jīng)濟(jì)、科學(xué)技術(shù)等領(lǐng)域中的時間序列做進(jìn)一步分析與處理,便有可能揭示事物運(yùn)動、變化和發(fā)展的內(nèi)在規(guī)律,這無疑對社會經(jīng)濟(jì)和技術(shù)的發(fā)展有著極為重要的意義[2,3]。證券市場作為國家經(jīng)濟(jì)運(yùn)行的核心,探求其變化規(guī)律、進(jìn)行有效的金融管理、提高金融投資效率是管理者與投資者孜孜以求的目標(biāo)之一[4]。證券時間序列是經(jīng)濟(jì)領(lǐng)域中最為重要的數(shù)據(jù)類型,對其進(jìn)行分析和預(yù)測對人們分析市場走勢有著至關(guān)重要的作用[5]。作為現(xiàn)代金融計量經(jīng)濟(jì)學(xué)理論中的重要內(nèi)容,證券時間序列分析已應(yīng)用到價格預(yù)測、投資決策、風(fēng)險管理、客戶分析等各金融機(jī)構(gòu)業(yè)務(wù)中[6]。
.......
1.2國內(nèi)外研究現(xiàn)狀
在時間序列分析一是頻譜分析,,任何沒有趨勢的時間序列都可以被分解成為一定數(shù)量的具有周期性的譜圖。我們關(guān)心的是這些周期的長度,并且時間序列能夠用這些周期來刻畫。盡管我們利用這些頻譜技術(shù)能夠獲得時間序列的一個可視化的印象,對描述時間序列也有一定的幫助,但對于預(yù)測樣本期外的值卻很不明確。第二類方法是經(jīng)濟(jì)學(xué)中最常用的,就是時域分析法,可以追溯到英國統(tǒng)計學(xué)家G.U.Yule于1927年提出的自回歸模型。在時域分析法中,我們主要利用時間序列的數(shù)據(jù)是按照時間順序依次被記錄這一事實。在這種方法中,自相關(guān)函數(shù)非常的重要。對這一類時間序列分析方法,美國統(tǒng)計學(xué)家George E.P.Box和英國統(tǒng)計學(xué)家GwilymMJenkins的工作尤為重要,他們提出了較為完善的時間序列分析和建模的理論[i4],于1970年出版《時間序列分析一預(yù)測與控制》一書。此后,時間序列分析這一研究領(lǐng)域得到了廣泛的擴(kuò)展,從經(jīng)濟(jì)預(yù)測、氣象預(yù)報到過程控制都得到應(yīng)用。George E.P.Box和Gwilym M.Jenkins提出的時序分析模型被稱作博克斯.詹金斯(Box-Jenkins)法。其基本模型有三種,自回歸模型(AR)、移動平均模型(MA)和差分自回歸移動平均模型(ARIMA) [15,16],這些方法對穩(wěn)定的時間序列預(yù)測有著較好的結(jié)果。但是這些模型在理論上和應(yīng)用上還存在著許多局限性,所以統(tǒng)計學(xué)家 始轉(zhuǎn)向?qū)Ψ蔷性時間序列模型的研究。
........
第二章K均值算法、時間序列及奇異點理論基礎(chǔ)
2.1 K均值聚類算法
國際數(shù)據(jù)挖掘大會在2006年12月,進(jìn)行了一次評選。評選的結(jié)果是K均值聚類算法位列應(yīng)用最廣泛的10大算法中的第二位。由此可見K均值聚類算法的應(yīng)用廣泛性。K均值算法是一個應(yīng)用廣泛又實周的算法,該算法主要是把我們的研究對象集合分成若干個聚類,至于聚類個數(shù)k,可以人為的來指定。該聚類算法已經(jīng)被很多的研究者發(fā)現(xiàn)并得以應(yīng)用。K均值算法作為一種簡單常用的聚類分析方法,己經(jīng)被廣泛的應(yīng)用在許多數(shù)據(jù)聚類的問題中。K均值聚類算法是一種間接的利用聚類之間的相似性進(jìn)行度量的方法。它的假設(shè)前提是:不相關(guān)樣本數(shù)據(jù)要高于相關(guān)樣本數(shù)據(jù)的相似度。該算法計算樣本數(shù)據(jù)間的相似度一般都采用歐氏距離。K均值算法在應(yīng)用的時候,并不需要研究者預(yù)先識別樣本數(shù)據(jù)。而且,我們并不需要了解我們所研究的樣本數(shù)據(jù),我們只需要利用這個算法對數(shù)據(jù)進(jìn)行聚類分析,然后分析實驗結(jié)朵從而得出結(jié)論。在聚類分析方法之中,K均值算法是一種既簡單又應(yīng)用廣泛的聚類方法,它是通過利用聚類間的相似性度量進(jìn)行算法實現(xiàn)的一種分析方法。K均值聚類算法是一類簡單的用于解決聚類問題的無監(jiān)督學(xué)習(xí)算法。
.........
2.2時間序列理論基礎(chǔ)
當(dāng)今,越來越多的數(shù)據(jù)被存儲在計算機(jī)上,如證券公司的系統(tǒng)里存儲了海量的股票數(shù)據(jù),軍隊的指揮系統(tǒng)里積累了大量作戰(zhàn)信息,工礦企業(yè)的控制系統(tǒng)中保存了許多參數(shù)的歷史數(shù)據(jù),學(xué)校的計算機(jī)系統(tǒng)里存儲了每位同學(xué)的信息數(shù)據(jù),這些系統(tǒng)里存在大量的數(shù)據(jù)都可以按照時間次序依次列出,這就是時間序列,例如股票價格數(shù)據(jù)、某種產(chǎn)品月銷售量、企業(yè)里各種參數(shù)的歷史數(shù)據(jù)。對時間序列進(jìn)行相應(yīng)分析,就可以揭示事物的運(yùn)動、變化及發(fā)展的內(nèi)在規(guī)律。不論是經(jīng)濟(jì)領(lǐng)域里每年的生產(chǎn)總值、國民收入、某一商品在某一市場上的銷售量、以及商品在市場上的價格變動等等;蛘呱鐣I(lǐng)域某一地區(qū)的人口數(shù)量、醫(yī)院患者人數(shù)、鐵路客流量等,還是在自然領(lǐng)域中的太陽黑子數(shù)、降水量、河流流量等等,都可以看做是時間序列。所有這些時間序列基本特點就是每個時間序列都囊括產(chǎn)生該時間序列的歷史行為的特征信息。關(guān)鍵就在于怎樣才能根據(jù)這些時間序列,較準(zhǔn)確找出相應(yīng)的內(nèi)在統(tǒng)計特性以及事物的發(fā)展規(guī)律,盡可能多的從時間序列里提取我們所需要的準(zhǔn)確信息。
.........
第3章改進(jìn)的K均值聚類及實證研究..........25
3.1改進(jìn)的K均值聚類..........25
3.2實驗相關(guān)參數(shù)的選擇標(biāo)準(zhǔn)..........29
3.3實例驗證..........34
第4章基于改進(jìn)K均值聚類對股票市場的奇異點檢測及研究.......... 37
4.1引言..........37
4.2對股票市場股票收盤價和股票成交量的奇異點檢測及研究.......... 39
4.3奇異點與信息因素的實證研究..........41
第5章總結(jié)與展望..........45
5.1本文總結(jié)..........45
5.2不足與展望..........50
第四章基于改進(jìn)K均值聚類對股票市場的奇異點檢測及研究
4.1引言
隨著我國經(jīng)濟(jì)高逮發(fā)展及金融體蓋的五益完善證券時間序列作為經(jīng)濟(jì)與金融中最重要的數(shù)據(jù)類型,對其進(jìn)行分析是現(xiàn)代金融學(xué)中重要的研究內(nèi)容證券市場是具有高風(fēng)險高收益的投資領(lǐng)域,眾多投資者在追求最大化收益的同時也希望風(fēng)險最小化,這就要求對其內(nèi)在規(guī)律進(jìn)行深入研究。投資股市,股民最關(guān)心的是獲利,賺錢.要做到這點就必須把握股市的漲跌,提前做出較為準(zhǔn)確的判斷.描述股市漲跌有眾多指標(biāo),其中最重要的是股票收盤價和股票成交量["]。下面我簡要介紹這2個指標(biāo)的概念及關(guān)系。股票收盤價是指某只股票在證券交易所一天交易活動結(jié)束前最后一筆交易的成交價格。如果當(dāng)天沒有進(jìn)行相應(yīng)的交易,那么我們就用上一次的成交價格來當(dāng)做這只股票的收盤價。由于股票收盤價是當(dāng)天證券市場行情的-個標(biāo)準(zhǔn),同時也是下個交該只股票 盤價的依據(jù),那么我們可以根據(jù)股票收盤價來對證券市場的未來行情做預(yù)測;因此當(dāng)投資者需要對證券市場的行情做分析時,他們大多都會采用股票收盤價來當(dāng)做分析的依據(jù)。但是目前滬深股市的股票收盤價并不完全是最后一筆交易的成交價格,而是一個加權(quán)平均價,也叫做已調(diào)整收盤價。上海證券交易所交易規(guī)則規(guī)定滬市收盤價為當(dāng)日該證券最后一筆交易前一分鐘所有交易的成交量加權(quán)平均價(含最后一筆交易)。
........
第五章總結(jié)與展望
5.1本文總結(jié)
證券時間序列是經(jīng)濟(jì)中重要的數(shù)據(jù)類型,對其進(jìn)行分析和預(yù)測對人們分析市場走勢有著至關(guān)重要的作用。所以對證券時間序列分析和預(yù)測也就成為近年來國內(nèi)外學(xué)者研究的熱點問題;谧C券時間序列奇異點的研究,本文在基于聚類的奇異點檢測思想下,與K均值聚類算法相結(jié)合,提出了一種改進(jìn)的K均值聚類算法,然后利用該算法對華能國際和華夏銀行這2只股票的股票收盤價和股票成交量進(jìn)行實證分析,得出如下結(jié)論:1.通過對股票市場的股票收盤價和股票成交量的實證研究,驗證了該算法能夠有效的檢測證券時間序列的奇異點。2.成交量是因,收盤價是果,成交量在先,收盤價在后。股票成交量對股票收盤價的變動具有解釋作用,“價走量先行"。成交是交易的目的和實質(zhì),是市場存在的根本意義,股票成交量是股票市場的原動力,沒有股票成交量配合的股票收盤價形同無本之木。因此,股票成交量是投資者分析判斷市場行情并做出投資決策的重要依據(jù).也是各種技術(shù)分析指標(biāo)應(yīng)用時不可或缺的參照。股票成交量的變化最能反映股市的大趨勢。3.信息因素是產(chǎn)生奇異點的起因,股市投資者對股票價值有著自己的預(yù)期,最初股市處于均衡狀態(tài),當(dāng)新信息到達(dá)市場時就會對投資者的預(yù)期產(chǎn)生影響,從而導(dǎo)致股票成交量奇異點的出現(xiàn),又因為股票成交量與股票收盤價的關(guān)系,繼而出現(xiàn)了股票收盤價的奇異點。
........
參考文獻(xiàn)(略)
本文編號:8276
本文鏈接:http://sikaile.net/jingjilunwen/jinrongzhengquanlunwen/8276.html
最近更新
教材專著