時間序列流數(shù)據(jù)相似性搜索的研究
發(fā)布時間:2021-11-20 00:07
基于相似度的時間序列檢索是一項長期研究課題,是時間序列數(shù)據(jù)挖據(jù)中的一個基礎(chǔ)性問題也是核心問題之一。它廣泛應(yīng)用于金融數(shù)據(jù)分析、氣象數(shù)據(jù)預(yù)測、多媒體數(shù)據(jù)檢索、醫(yī)療數(shù)據(jù)異常檢測等領(lǐng)域。本文研究的主要問題對時間序列流數(shù)據(jù)進(jìn)行相似性檢索,即給定查詢序列,隨著時間序列流數(shù)據(jù)到達(dá),找出其上與查詢序列相似的時間序列片段。該問題大致可以分為兩個階段:時間序列表示和相似性搜索。時間序列表示階段是對原始時間序列進(jìn)行降維表示,以減少后續(xù)搜索工作的時間和空間代價,且過濾噪音干擾,提高搜索效率和準(zhǔn)確率。相似性搜索階段是指在表示的基礎(chǔ)上采用多種高效搜索技術(shù),結(jié)合相似度計算,找出相似結(jié)果集。本文在分析國內(nèi)外時間序列數(shù)據(jù)挖掘最新研究成果的基礎(chǔ)上,從時間序列相似性搜索出發(fā),研究了時間序列的分段線性表示和高效相似性搜索的關(guān)鍵技術(shù)等問題,主要完成了以下工作:1.本文研究并分析了分段線性近似表示和分段累積近似表示兩種特征表示法,將其中具有代表性的多分辨率的重要點檢索表示(MIP)法和分段累積近似表示(PAA)法中的分割部分相結(jié)合,提出了基于重要點的平均分割算法對時間序列進(jìn)行分段劃分。該算法相較MIP方法,時間復(fù)雜度低,計算效率...
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1:分段累積近似表示PAA??
..分段累積近似表示(PAA)法和分段線性近似表示(PLR)法是時間序列基于分??段的兩種經(jīng)典的特征表示方法,本節(jié)分別介紹并分析了這兩類方法中的代表性??方法之一,它們也是目前應(yīng)用較為廣泛的方法。我們重點關(guān)注其中的分割算法??部分。??1.分段累積近似表示(PAA)法??分段累積近似表示(PM)法是Eamonn?Keogh等人在^中提出的,其基本思??想為,將原始時間序列平均劃分為若干段,用每一段的均值來近似表示原始序??列。近似表示的精度取決于分段的大小,分段越小,近似表示越精確。設(shè)時間??序列S=<Sl,s2,...,Sl,...,sn>,用S'表示經(jīng)過PM后對時間序列S的近似表??示,則S'zCvi,?V2,...,vn>,其中m為輸入?yún)?shù)segCount,用于設(shè)定平均分割的??分段數(shù)。假設(shè)可以整除,則每段包含r=n/ra個點,其直觀表??示如圖3-1所示。??
時間序列中的每個點對時間序列的形狀具有不同程度的影響,該點重要性??的大小可以被認(rèn)為是其對時序形狀影響程度的大小。時間序列中一個點的重要??性的計算方式為:首先連接時間序列的起始點和終止點,得到一條可以近似表??示時間序列的線段,這是最低分辨率的近似表示,即用一條線段表示時間序列。??把時間序列中的數(shù)據(jù)點與該分段的豎直距離作為衡量該點重要性的依據(jù)。其中??距離最大的點即為該分段的重要點,記為時間序列的分割點之一。??下面用具體例子說明數(shù)據(jù)點的重要性計算方式。如圖3-2所示,設(shè)分段的??起始點為Pi?(&,yj?,終止點為p2(x2,?y2),時間序列中的數(shù)據(jù)點Pi?(Xi,?yj?,分段??上與Pi對應(yīng)的點為隊(心5〇,則Pl與分段的豎直距離計算公式為:??(尺,A)=|兄-只.|=只+(兄?_?少,)x?—乂?(3<1)??A?2??圖3-2中豎直距離最大的點為p3,?p3即為該分段的重要點,也是時間序列??的一個分割點。??
【參考文獻(xiàn)】:
期刊論文
[1]邊緣計算應(yīng)用:傳感數(shù)據(jù)異常實時檢測算法[J]. 張琪,胡宇鵬,嵇存,展鵬,李學(xué)慶. 計算機(jī)研究與發(fā)展. 2018(03)
博士論文
[1]時間序列數(shù)據(jù)挖掘中的特征表示與分類方法的研究[D]. 胡宇鵬.山東大學(xué) 2018
本文編號:3506163
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1:分段累積近似表示PAA??
..分段累積近似表示(PAA)法和分段線性近似表示(PLR)法是時間序列基于分??段的兩種經(jīng)典的特征表示方法,本節(jié)分別介紹并分析了這兩類方法中的代表性??方法之一,它們也是目前應(yīng)用較為廣泛的方法。我們重點關(guān)注其中的分割算法??部分。??1.分段累積近似表示(PAA)法??分段累積近似表示(PM)法是Eamonn?Keogh等人在^中提出的,其基本思??想為,將原始時間序列平均劃分為若干段,用每一段的均值來近似表示原始序??列。近似表示的精度取決于分段的大小,分段越小,近似表示越精確。設(shè)時間??序列S=<Sl,s2,...,Sl,...,sn>,用S'表示經(jīng)過PM后對時間序列S的近似表??示,則S'zCvi,?V2,...,vn>,其中m為輸入?yún)?shù)segCount,用于設(shè)定平均分割的??分段數(shù)。假設(shè)可以整除,則每段包含r=n/ra個點,其直觀表??示如圖3-1所示。??
時間序列中的每個點對時間序列的形狀具有不同程度的影響,該點重要性??的大小可以被認(rèn)為是其對時序形狀影響程度的大小。時間序列中一個點的重要??性的計算方式為:首先連接時間序列的起始點和終止點,得到一條可以近似表??示時間序列的線段,這是最低分辨率的近似表示,即用一條線段表示時間序列。??把時間序列中的數(shù)據(jù)點與該分段的豎直距離作為衡量該點重要性的依據(jù)。其中??距離最大的點即為該分段的重要點,記為時間序列的分割點之一。??下面用具體例子說明數(shù)據(jù)點的重要性計算方式。如圖3-2所示,設(shè)分段的??起始點為Pi?(&,yj?,終止點為p2(x2,?y2),時間序列中的數(shù)據(jù)點Pi?(Xi,?yj?,分段??上與Pi對應(yīng)的點為隊(心5〇,則Pl與分段的豎直距離計算公式為:??(尺,A)=|兄-只.|=只+(兄?_?少,)x?—乂?(3<1)??A?2??圖3-2中豎直距離最大的點為p3,?p3即為該分段的重要點,也是時間序列??的一個分割點。??
【參考文獻(xiàn)】:
期刊論文
[1]邊緣計算應(yīng)用:傳感數(shù)據(jù)異常實時檢測算法[J]. 張琪,胡宇鵬,嵇存,展鵬,李學(xué)慶. 計算機(jī)研究與發(fā)展. 2018(03)
博士論文
[1]時間序列數(shù)據(jù)挖掘中的特征表示與分類方法的研究[D]. 胡宇鵬.山東大學(xué) 2018
本文編號:3506163
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3506163.html
最近更新
教材專著