復(fù)雜環(huán)境下時(shí)間序列預(yù)測(cè)方法研究
發(fā)布時(shí)間:2020-07-13 23:24
【摘要】:時(shí)間序列數(shù)據(jù)是按時(shí)間順序進(jìn)行觀測(cè)的觀測(cè)值的集合,是序列數(shù)據(jù)中一類重要的數(shù)據(jù)對(duì)象,廣泛存在于我們的日常生活中和科學(xué)研究領(lǐng)域。時(shí)間序列數(shù)據(jù)的特點(diǎn)包括數(shù)據(jù)量大、維度高、不斷更新等。此外,時(shí)間序列數(shù)據(jù)具有數(shù)值性和連續(xù)性的特點(diǎn),通常我們認(rèn)為時(shí)間序列中的關(guān)鍵信息存在于整體變化中而非某個(gè)具體數(shù)值。時(shí)間序列數(shù)據(jù)日益廣泛的使用,引發(fā)了數(shù)據(jù)挖掘領(lǐng)域的大量研究和開發(fā)嘗試。分類和預(yù)測(cè)是數(shù)據(jù)挖掘領(lǐng)域的經(jīng)典問題,然而由于時(shí)間序列數(shù)據(jù)的復(fù)雜性,在過去幾十年間,時(shí)間序列數(shù)據(jù)分類預(yù)測(cè)已成為分類研究中的特殊挑戰(zhàn),諸多研究人員針對(duì)該問題進(jìn)行了廣泛而深入的研究。盡管在時(shí)間序列分類問題的研究上已經(jīng)取得了長(zhǎng)足的進(jìn)展,在一些復(fù)雜場(chǎng)景下的特定算法研究還很欠缺,存在著一些待解決的問題。首先,當(dāng)時(shí)間序列中具有辨別性的片段具有相位偏移時(shí),如何準(zhǔn)確高效的找出這些片段進(jìn)行精確分類;第二,當(dāng)一條時(shí)間序列存在多個(gè)類標(biāo)時(shí),如何利用多標(biāo)記間的依賴關(guān)系,并建立適用于時(shí)間序列的有效的多標(biāo)記分類算法;第三,當(dāng)一個(gè)時(shí)間序列實(shí)例同時(shí)具有多個(gè)變量時(shí),如何實(shí)現(xiàn)有效的多變量時(shí)間序列分類算法;最后,在推薦系統(tǒng)中,如何結(jié)合用戶評(píng)分序列中的時(shí)序信息,建立推薦預(yù)測(cè)算法。本文圍繞以上四種復(fù)雜環(huán)境深入研究了如何建立有效的時(shí)間序列預(yù)測(cè)算法,主要貢獻(xiàn)如下:(1)設(shè)計(jì)了一種正規(guī)化的時(shí)間序列shapelet隨機(jī)森林算法(Regularized Random Shapelet Forest,RRSF)。由于shapelet算法的固有特性,RRSF算法尋找辨別性子序列的過程與相位無關(guān)。此外,本文通過隨機(jī)選取的策略加速了 shapelet的發(fā)現(xiàn)過程,通過集成學(xué)習(xí)方法保障了算法的預(yù)測(cè)精度,而且通過懲罰相似shapelet的方式使得隨機(jī)森林中的冗余shapelet大大減少,進(jìn)一步提升了算法精度和可解釋性。(2)設(shè)計(jì)了一種多標(biāo)記時(shí)間序列分類算法(ReliefF based Stacking,RFS)。該算法通過將標(biāo)記屬性加入到原有屬性空間中并進(jìn)行屬性選擇的方式,不僅定性的利用了標(biāo)記間的依賴關(guān)系,而且對(duì)依賴關(guān)系進(jìn)行了定量計(jì)算。進(jìn)而采取時(shí)間序列符號(hào)化方法對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)化,生成適用于時(shí)間序列數(shù)據(jù)的多標(biāo)記分類模型。這既是對(duì)時(shí)間序列數(shù)據(jù)標(biāo)記間依賴關(guān)系利用方法的深入擴(kuò)展,也是多標(biāo)記屬性選擇方法的全新應(yīng)用。(3)設(shè)計(jì)了一種多變量時(shí)間序列分類算法。該算法將多變量時(shí)間序列轉(zhuǎn)換為單變量時(shí)間序列數(shù)據(jù),在保留統(tǒng)計(jì)特征的基礎(chǔ)上加入和不同變量間的變化趨勢(shì)特征,有效的利用了多變量間的相互關(guān)系,解決了多變量時(shí)間序列分類問題。并且,將MOOC中學(xué)生輟課預(yù)測(cè)問題視為實(shí)際應(yīng)用場(chǎng)景,在真實(shí)MOOC數(shù)據(jù)中驗(yàn)證了該算法的有效性,并進(jìn)行了早期預(yù)測(cè)的嘗試。(4)設(shè)計(jì)并實(shí)現(xiàn)了一種基于評(píng)分矩陣局部低秩假設(shè)的時(shí)序協(xié)同排名算法。該算法結(jié)合了評(píng)分序列中的時(shí)序信息和排名學(xué)習(xí)技術(shù)兩個(gè)領(lǐng)域的內(nèi)容,首先我們假設(shè)評(píng)分矩陣具有局部低秩性,進(jìn)而選擇使用成列排名函數(shù)來優(yōu)化其矩陣分解模型。上述研究成果在多種復(fù)雜環(huán)境實(shí)現(xiàn)了具有針對(duì)性的時(shí)間序列預(yù)測(cè)算法,展現(xiàn)了各個(gè)算法在預(yù)測(cè)過程的高效性,提升了時(shí)間序列預(yù)測(cè)方法的可解釋性,也嘗試解決了一些實(shí)際應(yīng)用問題,驗(yàn)證了本文算法的實(shí)用性。
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2019
【分類號(hào)】:O211.61;TP18
【圖文】:
之間的關(guān)系,如圖l.i給出的是某一年間熱能的消耗量變化數(shù)據(jù);在銷售領(lǐng)域,產(chǎn)逡逑品的銷售量、定價(jià)、成本等都會(huì)隨著時(shí)間或季節(jié)的變化而變化,對(duì)這些數(shù)據(jù)進(jìn)行逡逑分析,有利于幫助商家設(shè)計(jì)更優(yōu)的銷售模式,取得更高的利潤(rùn),如圖1.2展示的是逡逑某產(chǎn)品各個(gè)月份內(nèi)的銷量;在醫(yī)學(xué)領(lǐng)域,醫(yī)護(hù)人員常會(huì)采集病人的心電圖數(shù)據(jù),逡逑每分鐘心跳次數(shù),每日睡眠時(shí)長(zhǎng),血壓等等。通過分析這些數(shù)據(jù),可以發(fā)現(xiàn)用戶逡逑行為習(xí)慣,幫助用戶保持良好生活方式,對(duì)用戶進(jìn)行健康監(jiān)測(cè),協(xié)助進(jìn)行臨床診逡逑斷,如圖1.3給出了一*^心電圖(electrocardiogram,ECG)數(shù)據(jù)的例子。此外,時(shí)逡逑間序列數(shù)據(jù)還普遍存在于網(wǎng)絡(luò)異常檢測(cè)[2]、電壓穩(wěn)定評(píng)估[3]、經(jīng)濟(jì)形勢(shì)預(yù)測(cè)[4]、惡逡逑意軟件檢測(cè)[5]、基因表達(dá)分析[6]、天氣預(yù)測(cè)[7]等領(lǐng)域中。逡逑|邋丨逡逑§邋,邋n邐逡逑Nov邐Dec邐Jan邐Feb邐Mar邐Apr逡逑圖1.1某年間的熱能消耗逡逑Figure邋1.1邋An邋example邋of邋heat邋consumption邋in邋one邋year逡逑人類能夠本能地根據(jù)時(shí)間序列數(shù)據(jù)所表現(xiàn)出的實(shí)際形式來重塑這些數(shù)據(jù)所代逡逑表的原始的與自然的東西。我們能夠避免關(guān)注小的波動(dòng)以得到形狀的概念,也能逡逑夠幾乎立即分辨出各種時(shí)間尺度模式之間的相似性。當(dāng)然,人類是依靠大腦復(fù)雜逡逑的機(jī)制來實(shí)現(xiàn)這樣的任務(wù)
北京交通大學(xué)博士學(xué)位論文個(gè)未知序列指定一個(gè)類別。但相較于傳統(tǒng)分類任務(wù),時(shí)間序列分類個(gè)主要方面的挑戰(zhàn)。首先,時(shí)間序列數(shù)據(jù)通常是集有一定順序的關(guān)據(jù)集合,而傳統(tǒng)分類器通常沒有考慮屬性的先后順序關(guān)系,因此難列分類問題。其次,雖然可以通過特征提取來消除序列順序的影響,下算法提取的特征可解釋性較弱,難以完整表示原始時(shí)間序列。逡逑I逡逑
I逡逑認(rèn)九逡逑邐邐V逡逑圖1.2某商品的月銷售數(shù)據(jù)逡逑Figure邋1.2邋An邋example邋of邋monthly邋sales邋for邋a邋product逡逑圖1.3心電圖示例逡逑Figure邋1.3邋An邋example邋of邋ECG邋dataset逡逑基于不同的標(biāo)準(zhǔn)可以對(duì)時(shí)間序列分類算法進(jìn)行不同的劃分。在本文中我們基逡逑于分類策略將時(shí)間序列分類算法分為基于距離和基于特征兩類方法。基于距離的逡逑方法與傳統(tǒng)分類方法一樣,將序列看作向量,使用特定的距離公式度量向量之間逡逑的相似性。大多數(shù)的研宄工作都集中在尋找合適的彈性距離公式來度量時(shí)間序列逡逑間的相似性;谔卣鞯姆椒ㄊ菫槊恳粋(gè)序列形成一個(gè)序列表示,進(jìn)而使用傳統(tǒng)逡逑分類器進(jìn)行分類。這類方法的重點(diǎn)在于尋找一種合適的序列表示。接下來我們對(duì)逡逑這兩類方法進(jìn)行詳細(xì)介紹。逡逑1.2國(guó)內(nèi)外發(fā)展現(xiàn)狀逡逑迄今為止,國(guó)內(nèi)外研究人員己經(jīng)提出了許多算法用于解決時(shí)間序列分類問題。逡逑截止至2013年,至少有100篇論文中提出了時(shí)間序列分類(Time邋Series逡逑2逡逑
本文編號(hào):2754129
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2019
【分類號(hào)】:O211.61;TP18
【圖文】:
之間的關(guān)系,如圖l.i給出的是某一年間熱能的消耗量變化數(shù)據(jù);在銷售領(lǐng)域,產(chǎn)逡逑品的銷售量、定價(jià)、成本等都會(huì)隨著時(shí)間或季節(jié)的變化而變化,對(duì)這些數(shù)據(jù)進(jìn)行逡逑分析,有利于幫助商家設(shè)計(jì)更優(yōu)的銷售模式,取得更高的利潤(rùn),如圖1.2展示的是逡逑某產(chǎn)品各個(gè)月份內(nèi)的銷量;在醫(yī)學(xué)領(lǐng)域,醫(yī)護(hù)人員常會(huì)采集病人的心電圖數(shù)據(jù),逡逑每分鐘心跳次數(shù),每日睡眠時(shí)長(zhǎng),血壓等等。通過分析這些數(shù)據(jù),可以發(fā)現(xiàn)用戶逡逑行為習(xí)慣,幫助用戶保持良好生活方式,對(duì)用戶進(jìn)行健康監(jiān)測(cè),協(xié)助進(jìn)行臨床診逡逑斷,如圖1.3給出了一*^心電圖(electrocardiogram,ECG)數(shù)據(jù)的例子。此外,時(shí)逡逑間序列數(shù)據(jù)還普遍存在于網(wǎng)絡(luò)異常檢測(cè)[2]、電壓穩(wěn)定評(píng)估[3]、經(jīng)濟(jì)形勢(shì)預(yù)測(cè)[4]、惡逡逑意軟件檢測(cè)[5]、基因表達(dá)分析[6]、天氣預(yù)測(cè)[7]等領(lǐng)域中。逡逑|邋丨逡逑§邋,邋n邐逡逑Nov邐Dec邐Jan邐Feb邐Mar邐Apr逡逑圖1.1某年間的熱能消耗逡逑Figure邋1.1邋An邋example邋of邋heat邋consumption邋in邋one邋year逡逑人類能夠本能地根據(jù)時(shí)間序列數(shù)據(jù)所表現(xiàn)出的實(shí)際形式來重塑這些數(shù)據(jù)所代逡逑表的原始的與自然的東西。我們能夠避免關(guān)注小的波動(dòng)以得到形狀的概念,也能逡逑夠幾乎立即分辨出各種時(shí)間尺度模式之間的相似性。當(dāng)然,人類是依靠大腦復(fù)雜逡逑的機(jī)制來實(shí)現(xiàn)這樣的任務(wù)
北京交通大學(xué)博士學(xué)位論文個(gè)未知序列指定一個(gè)類別。但相較于傳統(tǒng)分類任務(wù),時(shí)間序列分類個(gè)主要方面的挑戰(zhàn)。首先,時(shí)間序列數(shù)據(jù)通常是集有一定順序的關(guān)據(jù)集合,而傳統(tǒng)分類器通常沒有考慮屬性的先后順序關(guān)系,因此難列分類問題。其次,雖然可以通過特征提取來消除序列順序的影響,下算法提取的特征可解釋性較弱,難以完整表示原始時(shí)間序列。逡逑I逡逑
I逡逑認(rèn)九逡逑邐邐V逡逑圖1.2某商品的月銷售數(shù)據(jù)逡逑Figure邋1.2邋An邋example邋of邋monthly邋sales邋for邋a邋product逡逑圖1.3心電圖示例逡逑Figure邋1.3邋An邋example邋of邋ECG邋dataset逡逑基于不同的標(biāo)準(zhǔn)可以對(duì)時(shí)間序列分類算法進(jìn)行不同的劃分。在本文中我們基逡逑于分類策略將時(shí)間序列分類算法分為基于距離和基于特征兩類方法。基于距離的逡逑方法與傳統(tǒng)分類方法一樣,將序列看作向量,使用特定的距離公式度量向量之間逡逑的相似性。大多數(shù)的研宄工作都集中在尋找合適的彈性距離公式來度量時(shí)間序列逡逑間的相似性;谔卣鞯姆椒ㄊ菫槊恳粋(gè)序列形成一個(gè)序列表示,進(jìn)而使用傳統(tǒng)逡逑分類器進(jìn)行分類。這類方法的重點(diǎn)在于尋找一種合適的序列表示。接下來我們對(duì)逡逑這兩類方法進(jìn)行詳細(xì)介紹。逡逑1.2國(guó)內(nèi)外發(fā)展現(xiàn)狀逡逑迄今為止,國(guó)內(nèi)外研究人員己經(jīng)提出了許多算法用于解決時(shí)間序列分類問題。逡逑截止至2013年,至少有100篇論文中提出了時(shí)間序列分類(Time邋Series逡逑2逡逑
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 原繼東;王志海;韓萌;;基于Shapelet剪枝和覆蓋的時(shí)間序列分類算法[J];軟件學(xué)報(bào);2015年09期
2 原繼東;王志海;;時(shí)間序列的表示與分類算法綜述[J];計(jì)算機(jī)科學(xué);2015年03期
3 李正欣;張鳳鳴;李克武;張曉豐;;一種支持DTW距離的多元時(shí)間序列索引結(jié)構(gòu)[J];軟件學(xué)報(bào);2014年03期
4 馮玉才;蔣濤;李國(guó)徽;朱虹;;高效時(shí)序相似搜索技術(shù)[J];計(jì)算機(jī)學(xué)報(bào);2009年11期
本文編號(hào):2754129
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2754129.html
最近更新
教材專著