基于主動(dòng)學(xué)習(xí)和變分自編碼器的時(shí)間序列異常檢測研究
發(fā)布時(shí)間:2021-06-09 21:08
異常檢測旨在發(fā)現(xiàn)與大多數(shù)數(shù)據(jù)模式不匹配的實(shí)例。對(duì)于傳統(tǒng)的時(shí)間序列異常檢測算法而言,由于數(shù)據(jù)具有高維特性,在降維的過程中經(jīng)常丟失一部分信息,造成檢測錯(cuò)誤。對(duì)于近年較為熱門的基于深度學(xué)習(xí)的異常檢測算法而言,該半監(jiān)督方法需要僅包含正常樣本的訓(xùn)練集,但是現(xiàn)實(shí)數(shù)據(jù)是正常和異常的混合,并且異常具有少而不同的特點(diǎn),所以在構(gòu)建訓(xùn)練集的過程中需要耗費(fèi)高代價(jià)進(jìn)行人工標(biāo)注,并且容易混入噪聲樣本,降低模型準(zhǔn)確率。針對(duì)上述問題,本文提出了基于變分自編碼器的主動(dòng)異常檢測框架(ALBLVE)。該框架基于池的批處理模式,在混合的樣本池中,通過趨勢表示的分段聚合采樣策略找到一批最小熵樣本,再基于重構(gòu)編碼的分類器找到異常時(shí)間序列和子序列。在采樣策略模塊,本文提出趨勢表示的分段聚合采樣策略(TPAA),針對(duì)降維信息損失和滑動(dòng)窗口敏感問題,使用二進(jìn)制字符串來記錄局部時(shí)間的相對(duì)趨勢和形狀特征,用均差值代替原有的PAA距離,并通過理論證明該相似度方法是分段聚合方法PAA的嚴(yán)格下界。為了適應(yīng)異常檢測場景,根據(jù)最小熵原理,本文選擇了一批正常置信度高的樣本,該批樣本具有較高的代表性可以有效減少訓(xùn)練樣本的數(shù)量。在基分類器模塊,本文在變分...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
主動(dòng)學(xué)習(xí)的五大模塊
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-6-圖1-1主動(dòng)學(xué)習(xí)的五大模塊主動(dòng)學(xué)習(xí)算法可以分為三種學(xué)習(xí)算法來構(gòu)建未標(biāo)記數(shù)據(jù)集U模塊:基于流的、基于池、基于模型生成樣本的方法,如圖1-2所示;谀P蜕蓸颖镜姆椒ㄊ菍W(xué)習(xí)者自己生成或者構(gòu)建樣本;基于流的方法從輸入的數(shù)據(jù)流中選擇單個(gè)樣本進(jìn)行標(biāo)注,有利于在線學(xué)習(xí);基于池的方法中,假設(shè)存在大量未標(biāo)記的實(shí)例,并且對(duì)整個(gè)池進(jìn)行徹底的搜索。圖1-2三種形式的主動(dòng)學(xué)習(xí)主動(dòng)學(xué)習(xí)中,選擇策略Q是用來選擇或者生成新查詢的信息量度量,可以分為基于不確定性、基于版本空間縮減、基于泛化誤差縮減三種采樣策略。對(duì)于不確定性采樣策略,它選擇當(dāng)前模型中最不確定的未標(biāo)記樣本。這可以通過最接近決策邊界的采樣[38]或基于熵[39]得到。2016年Yang和Loog[40]使用最小距離采樣來訓(xùn)練支持向量機(jī)(SVMs)。最小距離采樣也是應(yīng)用廣泛的不確定采樣策略,它假設(shè)分類器對(duì)分離超平面附近的樣本不確定。不確定-稠密抽樣方法[41,42]的目的是通過選擇不確定的并且位于數(shù)據(jù)分布的稠密區(qū)域的數(shù)據(jù),該稠密區(qū)域數(shù)據(jù)具有數(shù)據(jù)代表性,可以用來糾正與不確定抽樣有關(guān)的問題。對(duì)于基于版本空間縮減采樣策略,常見的有委員會(huì)投票算法,使用多個(gè)模型作為一個(gè)委
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-11-樣性,防止冗余。定義2-8不確定性準(zhǔn)則[48]。信息熵是衡量信息量的概念,也是衡量不確定性的概念。信息熵越大,就代表不確定性越大,包含的信息量也就越豐富。H()PIPlogPiiibiiiXxxxx(2-5)定義2-9多樣性準(zhǔn)則[48]。計(jì)算標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)之間的相似度。將與經(jīng)過標(biāo)記數(shù)據(jù)比較相似的樣本作為簡單樣本,每次主動(dòng)學(xué)習(xí)進(jìn)行樣本選擇時(shí),選擇難以區(qū)分的樣本,也就是挑出和已標(biāo)記數(shù)據(jù)不太像的樣本。定義2-10無監(jiān)督異常檢測算法。給定一個(gè)數(shù)據(jù)集,其中包含正常和異常實(shí)例,必須找到其中的異常實(shí)例。沒有測試集的概念,因?yàn)楫惓5膶?shí)例必須在數(shù)據(jù)集本身排序:fullX~p(x)(2-6)從定義2-10中可以得出結(jié)論,如果不事先考慮異常分布,無監(jiān)督異常檢測是一個(gè)無法判定的問題。一個(gè)更具體的例子可以在圖2-1中顯示。圖2-1聚類后無法判定的異常數(shù)據(jù)實(shí)例從無監(jiān)督的異常檢測算法的定義中可以得出結(jié)論,如果沒有事先知道異常的分布,無監(jiān)督異常檢測沒有辦法判定異常。圖2-1展示了一個(gè)合成的數(shù)據(jù)分布,圖中所有的點(diǎn)表示實(shí)例,該圖已經(jīng)過無監(jiān)督聚類,不同顏色表示不同的簇。在這張圖中紅色圓圈的點(diǎn)已經(jīng)距離兩個(gè)明顯的簇中心很遠(yuǎn)。在這種情況下,該無監(jiān)督方法無法確定是由低密度聚類組成的數(shù)據(jù)點(diǎn)為異常,還是未聚類的低密度點(diǎn)為異常,或者是兩者的組合。在實(shí)際環(huán)境中,網(wǎng)絡(luò)入侵攻擊(異常)通常是聚集的數(shù)據(jù)點(diǎn),而醫(yī)療保險(xiǎn)欺詐可以是聚集的或分散的(低密度)點(diǎn)。在臨床資料中,一些低密度的聚類可能提示疾病(異常),而另一些低密度的聚類可能是由數(shù)據(jù)中不受控制的因素引起的,如高水平運(yùn)動(dòng)員。我們希望能夠區(qū)分異常和無
【參考文獻(xiàn)】:
期刊論文
[1]基于序列重要點(diǎn)的時(shí)間序列分割[J]. 周大鐲,李敏強(qiáng). 計(jì)算機(jī)工程. 2008(23)
本文編號(hào):3221317
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
主動(dòng)學(xué)習(xí)的五大模塊
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-6-圖1-1主動(dòng)學(xué)習(xí)的五大模塊主動(dòng)學(xué)習(xí)算法可以分為三種學(xué)習(xí)算法來構(gòu)建未標(biāo)記數(shù)據(jù)集U模塊:基于流的、基于池、基于模型生成樣本的方法,如圖1-2所示;谀P蜕蓸颖镜姆椒ㄊ菍W(xué)習(xí)者自己生成或者構(gòu)建樣本;基于流的方法從輸入的數(shù)據(jù)流中選擇單個(gè)樣本進(jìn)行標(biāo)注,有利于在線學(xué)習(xí);基于池的方法中,假設(shè)存在大量未標(biāo)記的實(shí)例,并且對(duì)整個(gè)池進(jìn)行徹底的搜索。圖1-2三種形式的主動(dòng)學(xué)習(xí)主動(dòng)學(xué)習(xí)中,選擇策略Q是用來選擇或者生成新查詢的信息量度量,可以分為基于不確定性、基于版本空間縮減、基于泛化誤差縮減三種采樣策略。對(duì)于不確定性采樣策略,它選擇當(dāng)前模型中最不確定的未標(biāo)記樣本。這可以通過最接近決策邊界的采樣[38]或基于熵[39]得到。2016年Yang和Loog[40]使用最小距離采樣來訓(xùn)練支持向量機(jī)(SVMs)。最小距離采樣也是應(yīng)用廣泛的不確定采樣策略,它假設(shè)分類器對(duì)分離超平面附近的樣本不確定。不確定-稠密抽樣方法[41,42]的目的是通過選擇不確定的并且位于數(shù)據(jù)分布的稠密區(qū)域的數(shù)據(jù),該稠密區(qū)域數(shù)據(jù)具有數(shù)據(jù)代表性,可以用來糾正與不確定抽樣有關(guān)的問題。對(duì)于基于版本空間縮減采樣策略,常見的有委員會(huì)投票算法,使用多個(gè)模型作為一個(gè)委
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-11-樣性,防止冗余。定義2-8不確定性準(zhǔn)則[48]。信息熵是衡量信息量的概念,也是衡量不確定性的概念。信息熵越大,就代表不確定性越大,包含的信息量也就越豐富。H()PIPlogPiiibiiiXxxxx(2-5)定義2-9多樣性準(zhǔn)則[48]。計(jì)算標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)之間的相似度。將與經(jīng)過標(biāo)記數(shù)據(jù)比較相似的樣本作為簡單樣本,每次主動(dòng)學(xué)習(xí)進(jìn)行樣本選擇時(shí),選擇難以區(qū)分的樣本,也就是挑出和已標(biāo)記數(shù)據(jù)不太像的樣本。定義2-10無監(jiān)督異常檢測算法。給定一個(gè)數(shù)據(jù)集,其中包含正常和異常實(shí)例,必須找到其中的異常實(shí)例。沒有測試集的概念,因?yàn)楫惓5膶?shí)例必須在數(shù)據(jù)集本身排序:fullX~p(x)(2-6)從定義2-10中可以得出結(jié)論,如果不事先考慮異常分布,無監(jiān)督異常檢測是一個(gè)無法判定的問題。一個(gè)更具體的例子可以在圖2-1中顯示。圖2-1聚類后無法判定的異常數(shù)據(jù)實(shí)例從無監(jiān)督的異常檢測算法的定義中可以得出結(jié)論,如果沒有事先知道異常的分布,無監(jiān)督異常檢測沒有辦法判定異常。圖2-1展示了一個(gè)合成的數(shù)據(jù)分布,圖中所有的點(diǎn)表示實(shí)例,該圖已經(jīng)過無監(jiān)督聚類,不同顏色表示不同的簇。在這張圖中紅色圓圈的點(diǎn)已經(jīng)距離兩個(gè)明顯的簇中心很遠(yuǎn)。在這種情況下,該無監(jiān)督方法無法確定是由低密度聚類組成的數(shù)據(jù)點(diǎn)為異常,還是未聚類的低密度點(diǎn)為異常,或者是兩者的組合。在實(shí)際環(huán)境中,網(wǎng)絡(luò)入侵攻擊(異常)通常是聚集的數(shù)據(jù)點(diǎn),而醫(yī)療保險(xiǎn)欺詐可以是聚集的或分散的(低密度)點(diǎn)。在臨床資料中,一些低密度的聚類可能提示疾病(異常),而另一些低密度的聚類可能是由數(shù)據(jù)中不受控制的因素引起的,如高水平運(yùn)動(dòng)員。我們希望能夠區(qū)分異常和無
【參考文獻(xiàn)】:
期刊論文
[1]基于序列重要點(diǎn)的時(shí)間序列分割[J]. 周大鐲,李敏強(qiáng). 計(jì)算機(jī)工程. 2008(23)
本文編號(hào):3221317
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3221317.html
最近更新
教材專著