非平衡時(shí)序數(shù)據(jù)的動(dòng)態(tài)時(shí)間規(guī)整過(guò)采樣方法研究
發(fā)布時(shí)間:2021-07-11 06:07
時(shí)間序列分類(lèi)問(wèn)題廣泛存在于動(dòng)作識(shí)別、語(yǔ)音識(shí)別、異常檢測(cè)、醫(yī)學(xué)疾病檢測(cè)等領(lǐng)域中。在這類(lèi)分類(lèi)問(wèn)題中,常常出現(xiàn)數(shù)據(jù)非平衡問(wèn)題,大多數(shù)的數(shù)據(jù)挖掘算法對(duì)于數(shù)據(jù)類(lèi)別相對(duì)平衡的假設(shè)前提無(wú)法滿(mǎn)足,導(dǎo)致最終的學(xué)習(xí)效果不理想。并且,時(shí)序數(shù)據(jù)具有高維性、允許時(shí)間上的位置偏移和尺度縮放、存在時(shí)序上動(dòng)態(tài)關(guān)聯(lián)等有別于橫截面數(shù)據(jù)的特點(diǎn),已有的非平衡橫截面數(shù)據(jù)的處理方法還不能直接應(yīng)用于非平衡時(shí)間序列的處理過(guò)程中。本文考慮到時(shí)序數(shù)據(jù)的特點(diǎn),提出了一種針對(duì)非平衡時(shí)序數(shù)據(jù)的過(guò)采樣方法,在動(dòng)態(tài)時(shí)間規(guī)整(DTW)定義的度量空間下,進(jìn)行安全集與噪聲集劃分、權(quán)值修正、近鄰選擇、路徑插值,在安全集中每個(gè)少數(shù)類(lèi)樣本與其k近鄰中的少數(shù)類(lèi)樣本之間按修正權(quán)重生成新的時(shí)序樣本。選擇UCR時(shí)序數(shù)據(jù)庫(kù)中的12個(gè)非平衡數(shù)據(jù)集,使用高斯過(guò)程分類(lèi)模型,檢驗(yàn)過(guò)采樣方法效果。實(shí)證分析結(jié)果表明:(1)本文的方法(SDTW)生成的新樣本較ROS、SMOTE、BSMOTE等方法均勻,兩類(lèi)樣本的邊界清晰,盡量保持原樣本的分布,在近鄰選擇上僅選擇同類(lèi),克服了SMOTE近鄰選擇的盲目性,且位于噪聲集的少數(shù)類(lèi)周?chē)簧扇斯颖?有效防止了引入額外的噪聲。(2)對(duì)非平衡時(shí)...
【文章來(lái)源】:暨南大學(xué)廣東省 211工程院校
【文章頁(yè)數(shù)】:54 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
ROC曲線
圖 3-1 代價(jià)矩陣和最小代價(jià)路徑示意圖展示兩個(gè)序列的代價(jià)矩陣和規(guī)整代價(jià)最小的路經(jīng),DTW 需要計(jì)算值,然后搜索出規(guī)整代價(jià)最小的路徑。圖中規(guī)整路徑為 W={(1,1(4,5), (5,6), (6,7), (7,7), (7,8), (8,8)},路徑上存在垂直線和水平線,
圖 3-2 兩個(gè)序列的規(guī)整示意圖為兩個(gè)序列的規(guī)整示意圖,序列 A 和序列 B 存在位置偏移和尺出兩者距離極小,相似度較高。夠有效度量時(shí)序數(shù)據(jù)之間的相似性,時(shí)間和空間復(fù)雜度為 O(N2)
本文編號(hào):3277496
【文章來(lái)源】:暨南大學(xué)廣東省 211工程院校
【文章頁(yè)數(shù)】:54 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
ROC曲線
圖 3-1 代價(jià)矩陣和最小代價(jià)路徑示意圖展示兩個(gè)序列的代價(jià)矩陣和規(guī)整代價(jià)最小的路經(jīng),DTW 需要計(jì)算值,然后搜索出規(guī)整代價(jià)最小的路徑。圖中規(guī)整路徑為 W={(1,1(4,5), (5,6), (6,7), (7,7), (7,8), (8,8)},路徑上存在垂直線和水平線,
圖 3-2 兩個(gè)序列的規(guī)整示意圖為兩個(gè)序列的規(guī)整示意圖,序列 A 和序列 B 存在位置偏移和尺出兩者距離極小,相似度較高。夠有效度量時(shí)序數(shù)據(jù)之間的相似性,時(shí)間和空間復(fù)雜度為 O(N2)
本文編號(hào):3277496
本文鏈接:http://sikaile.net/jingjilunwen/jingjiguanlilunwen/3277496.html
最近更新
教材專(zhuān)著