時間序列流數(shù)據(jù)的建模預(yù)測和異常檢測方法研究
發(fā)布時間:2020-12-11 19:33
時間序列是按照時間順序采集到的某觀測變量的數(shù)據(jù)集合,廣泛地存在于金融、電力負(fù)荷和過程控制等領(lǐng)域中。時間序列在流數(shù)據(jù)環(huán)境下呈現(xiàn)出海量無限、單遍掃描、實(shí)時到達(dá)和伴有噪聲的特點(diǎn)。通過實(shí)時建模的方式挖掘出時間序列流數(shù)據(jù)的運(yùn)行規(guī)律,并在建模預(yù)測的基礎(chǔ)上分析出隱藏于數(shù)據(jù)中的異常模式,可以對實(shí)際的生產(chǎn)、生活產(chǎn)生更加積極的影響。針對現(xiàn)有大多數(shù)靜態(tài)、離線的時間序列建模預(yù)測算法不能在流數(shù)據(jù)環(huán)境下進(jìn)行實(shí)時分析的問題,本文就時間序列流數(shù)據(jù)的建模預(yù)測中如何選擇訓(xùn)練樣本,滿足實(shí)時性要求的同時提高模型的預(yù)測準(zhǔn)確性等問題,設(shè)計(jì)了一種基于GEP算法,并加入雙重滑動窗口、群體爬山算法和數(shù)據(jù)融合方法來實(shí)現(xiàn)對時間序列流數(shù)據(jù)進(jìn)行實(shí)時建模預(yù)測的算法。以4組加入不同程度高斯噪聲的數(shù)據(jù)集作為測試數(shù)據(jù)集,將本文算法和HTM算法在同等數(shù)據(jù)傳輸間隔的實(shí)時性要求下對測試數(shù)據(jù)集的預(yù)測結(jié)果進(jìn)行實(shí)驗(yàn)對比。用平均相對百分比誤差(MAPE)值作為評判算法預(yù)測準(zhǔn)確性的指標(biāo)。實(shí)驗(yàn)結(jié)果顯示本文算法在4組數(shù)據(jù)集上的整體MAPE值均低于HTM算法,表明了本文算法比HTM算法擁有更高的預(yù)測準(zhǔn)確性。鑒于現(xiàn)有的大多數(shù)時間序列異常檢測算法用于批量處理數(shù)據(jù),不能直接應(yīng)用...
【文章來源】:西安理工大學(xué)陜西省
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
某患者心電圖數(shù)據(jù)[16]
隨機(jī)生成,尾部是由終結(jié)集中的字符隨機(jī)生成,頭部長度由所求解的問題根據(jù)經(jīng)驗(yàn)而定,而尾部的長度則由式(2-1)決定,設(shè)頭部長度為,尾部長度為,則=(1)+1(2-1)其中代表符號集的符號所需的最大參數(shù)個數(shù),即=2。如果給定頭部長度=7,則此基因的尾部長度=7(21)+1=8,則此基因個體的總長度為15,有以下基因編碼:+2122212(2-2)其中S代表函數(shù)符號,此基因個體的有效部分長度為6,其前六位所對應(yīng)的表達(dá)式為=2sin(x)+x,其余部分為根據(jù)編碼規(guī)則隨機(jī)填充的冗余部分,這部分不體現(xiàn)在基因的表達(dá)中。此基因個體對應(yīng)的表達(dá)式樹如圖2-2:圖2-2此基因個體對應(yīng)的表達(dá)式樹Fig.2-2Theexpressiontreecorrespondingtothisgeneindividual
第3章時間序列流數(shù)據(jù)的建模預(yù)測和異常檢測方法21的數(shù)據(jù)能反映流數(shù)據(jù)當(dāng)前的最新規(guī)律。={1,2,3…}(3-1)式(3-1)中,為一個時間序列流,為時刻收集到的數(shù)據(jù)點(diǎn),是一個維向量,∈,當(dāng)=1,此為單變量時間序列流。設(shè)此滑動窗口的寬度為,則此滑動窗口在時間序列流上劃分樣本數(shù)據(jù)的方式如圖3-1所示。圖3-1滑動窗口示意圖Fig.3-1Schematicdiagramofslidingwindow圖3-1中,虛線框內(nèi)的數(shù)據(jù)為1時刻滑動窗口中的從到1的個數(shù)據(jù),實(shí)線框內(nèi)的數(shù)據(jù)為當(dāng)前時刻滑動窗口包含的從+1到的個數(shù)據(jù)。當(dāng)前在對時間序列流數(shù)據(jù)的分析中,通用的實(shí)時處理時間序列流數(shù)據(jù)的方法主要都是基于最新的時間窗口內(nèi)數(shù)據(jù)構(gòu)建一個模型,然后對這個模型進(jìn)行實(shí)時更新;瑒哟翱诘膶挾仁撬惴ㄖ惺潜容^重要的參數(shù),一般情況下,的值在算法運(yùn)行過程中為預(yù)先設(shè)置的值并保持固定不變。我們也可以通過一些先驗(yàn)知識估計(jì)值,但上述方法過于含糊,而且在很多場景中,我們并不可能預(yù)先知道流數(shù)據(jù)的分布變化規(guī)律,并以此為作為根據(jù)來設(shè)置最優(yōu)的值。流數(shù)據(jù)的分布動態(tài)變化的特性使得最優(yōu)值也變得不固定。因此在具體應(yīng)用中,我們應(yīng)設(shè)置的動態(tài)值。文獻(xiàn)[65,66]分別在滑動窗口的基礎(chǔ)上提出了不同的改進(jìn)辦法,并且提高了對流數(shù)據(jù)處理的效率,但是這些改進(jìn)方法都嚴(yán)重地占用了終端算法過多的時空資源,從而限制了算法的應(yīng)用和發(fā)展。文獻(xiàn)[67]設(shè)計(jì)了一種用兩個固定的滑動時間窗口分別對窗口中的數(shù)據(jù)進(jìn)行更新和處理的嵌套滑動窗口模型,由于這兩個窗口的相對位置和寬度不能隨著數(shù)據(jù)處理的需要發(fā)生改變,使得其喪失了靈活性。鑒于這種情況,文獻(xiàn)[68]基于歷史數(shù)據(jù)先選擇一個介于比較小的值和一個比較大的值之間的中間值值。再基于在線學(xué)習(xí)方式,對流數(shù)據(jù)的分布進(jìn)行在線學(xué)習(xí),以
本文編號:2911100
【文章來源】:西安理工大學(xué)陜西省
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
某患者心電圖數(shù)據(jù)[16]
隨機(jī)生成,尾部是由終結(jié)集中的字符隨機(jī)生成,頭部長度由所求解的問題根據(jù)經(jīng)驗(yàn)而定,而尾部的長度則由式(2-1)決定,設(shè)頭部長度為,尾部長度為,則=(1)+1(2-1)其中代表符號集的符號所需的最大參數(shù)個數(shù),即=2。如果給定頭部長度=7,則此基因的尾部長度=7(21)+1=8,則此基因個體的總長度為15,有以下基因編碼:+2122212(2-2)其中S代表函數(shù)符號,此基因個體的有效部分長度為6,其前六位所對應(yīng)的表達(dá)式為=2sin(x)+x,其余部分為根據(jù)編碼規(guī)則隨機(jī)填充的冗余部分,這部分不體現(xiàn)在基因的表達(dá)中。此基因個體對應(yīng)的表達(dá)式樹如圖2-2:圖2-2此基因個體對應(yīng)的表達(dá)式樹Fig.2-2Theexpressiontreecorrespondingtothisgeneindividual
第3章時間序列流數(shù)據(jù)的建模預(yù)測和異常檢測方法21的數(shù)據(jù)能反映流數(shù)據(jù)當(dāng)前的最新規(guī)律。={1,2,3…}(3-1)式(3-1)中,為一個時間序列流,為時刻收集到的數(shù)據(jù)點(diǎn),是一個維向量,∈,當(dāng)=1,此為單變量時間序列流。設(shè)此滑動窗口的寬度為,則此滑動窗口在時間序列流上劃分樣本數(shù)據(jù)的方式如圖3-1所示。圖3-1滑動窗口示意圖Fig.3-1Schematicdiagramofslidingwindow圖3-1中,虛線框內(nèi)的數(shù)據(jù)為1時刻滑動窗口中的從到1的個數(shù)據(jù),實(shí)線框內(nèi)的數(shù)據(jù)為當(dāng)前時刻滑動窗口包含的從+1到的個數(shù)據(jù)。當(dāng)前在對時間序列流數(shù)據(jù)的分析中,通用的實(shí)時處理時間序列流數(shù)據(jù)的方法主要都是基于最新的時間窗口內(nèi)數(shù)據(jù)構(gòu)建一個模型,然后對這個模型進(jìn)行實(shí)時更新;瑒哟翱诘膶挾仁撬惴ㄖ惺潜容^重要的參數(shù),一般情況下,的值在算法運(yùn)行過程中為預(yù)先設(shè)置的值并保持固定不變。我們也可以通過一些先驗(yàn)知識估計(jì)值,但上述方法過于含糊,而且在很多場景中,我們并不可能預(yù)先知道流數(shù)據(jù)的分布變化規(guī)律,并以此為作為根據(jù)來設(shè)置最優(yōu)的值。流數(shù)據(jù)的分布動態(tài)變化的特性使得最優(yōu)值也變得不固定。因此在具體應(yīng)用中,我們應(yīng)設(shè)置的動態(tài)值。文獻(xiàn)[65,66]分別在滑動窗口的基礎(chǔ)上提出了不同的改進(jìn)辦法,并且提高了對流數(shù)據(jù)處理的效率,但是這些改進(jìn)方法都嚴(yán)重地占用了終端算法過多的時空資源,從而限制了算法的應(yīng)用和發(fā)展。文獻(xiàn)[67]設(shè)計(jì)了一種用兩個固定的滑動時間窗口分別對窗口中的數(shù)據(jù)進(jìn)行更新和處理的嵌套滑動窗口模型,由于這兩個窗口的相對位置和寬度不能隨著數(shù)據(jù)處理的需要發(fā)生改變,使得其喪失了靈活性。鑒于這種情況,文獻(xiàn)[68]基于歷史數(shù)據(jù)先選擇一個介于比較小的值和一個比較大的值之間的中間值值。再基于在線學(xué)習(xí)方式,對流數(shù)據(jù)的分布進(jìn)行在線學(xué)習(xí),以
本文編號:2911100
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2911100.html
最近更新
教材專著