時(shí)間序列數(shù)據(jù)分類、檢索方法及應(yīng)用研究
本文關(guān)鍵詞:時(shí)間序列數(shù)據(jù)分類、檢索方法及應(yīng)用研究,由筆耕文化傳播整理發(fā)布。
中國料孽教求犬謄博士學(xué)位論文時(shí)間序列數(shù)據(jù)分類、檢索方法及應(yīng)用研究作者姓名:鄭毅學(xué)科專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)導(dǎo)師姓名:陳恩紅教授趙建良教授完成時(shí)間:二。一五年五月
ottSo"cienceandVlsreviechnoloqvnanihofCUniversit)ofTech:)logyna
Adissertationfordoctor’SdegreeSeriesClassification.RetrievalMethodsandApplicationsAUthorjYiZheng—Speciality:ComputerApplicationTechnologySupervisor:Prof.EnhongChenProf.J.LeonZhaoFinishedTime:May,2015Time
中國科學(xué)技術(shù)大學(xué)學(xué)位論文原創(chuàng)性聲明
本人聲明所呈交的學(xué)位論文,是本人在導(dǎo)師指導(dǎo)下進(jìn)行研究工作所取得的成果。除已特別加以標(biāo)注和致謝的地方外,論文中不包含任何他人已經(jīng)發(fā)表或撰寫過的研究成果。與我一同工作的同志對本研究所做的貢獻(xiàn)均已在論文中作了明確的說明。
作者簽名:簽字日期:印侈.17∥驢3
中國科學(xué)技術(shù)大學(xué)學(xué)位論文授權(quán)使用聲明
作為申請學(xué)位的條件之一,學(xué)位論文著作權(quán)擁有者授權(quán)中國科學(xué)技術(shù)大學(xué)擁有學(xué)位論文的部分使用權(quán),即:學(xué)校有權(quán)按有關(guān)規(guī)定向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱,可以將學(xué)位論文編入《中國學(xué)位論文全文數(shù)據(jù)庫》等有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。本人提交的電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相一致。
保密的學(xué)位論文在解密后也遵守此規(guī)定。
,
酎公開口保密年
作者簽名:絲藍(lán)選
簽字日期:導(dǎo)師簽名:2里竺:!笸=12簽字日期:砂\∑。06j寸7
摘要
摘要
時(shí)間序列數(shù)據(jù)是一類重要的具有時(shí)序特征的數(shù)據(jù)對象。時(shí)間序列數(shù)據(jù)可以通過科學(xué)應(yīng)用以及其他商業(yè)應(yīng)用(例如,金融領(lǐng)域)方便的獲取得到。一個(gè)時(shí)間序列是一組按照時(shí)間先后順序排列好的數(shù)據(jù)采樣觀察值。具體地,時(shí)間序列數(shù)據(jù)的性質(zhì)包括:數(shù)據(jù)規(guī)模大(大數(shù)據(jù)),高維度以及流數(shù)據(jù)特性(數(shù)據(jù)更新連續(xù))。此外,時(shí)間序列數(shù)據(jù)采樣點(diǎn)具有連續(xù)性和數(shù)值特性,整個(gè)時(shí)間序列可以被看成是一個(gè)整體的數(shù)據(jù)對象而非每個(gè)單獨(dú)具體的數(shù)值采樣點(diǎn)。由于時(shí)間序列可以方便的采集得到,大量的時(shí)間序列數(shù)據(jù)可以用于科學(xué)研究和深入的數(shù)據(jù)挖掘。在過去十年中,大量的科學(xué)工作者致力于時(shí)間序列數(shù)據(jù)挖掘工作,并取得了很多有效的成果。與此同時(shí),由于時(shí)間序列數(shù)據(jù)的復(fù)雜特性,實(shí)際應(yīng)用中時(shí)間序列數(shù)據(jù)挖掘面臨了很多挑戰(zhàn)。時(shí)間序列數(shù)據(jù)挖掘的目的之一是從時(shí)序數(shù)據(jù)形狀角度,嘗試抽取所有有意義的知識(shí)。整體上來看,時(shí)間序列數(shù)據(jù)挖掘同更一般的數(shù)據(jù)挖掘任務(wù)類似,同樣是為了更好的挖掘、抽取得到可以用于進(jìn)一步分析和應(yīng)用的知識(shí)表示。盡管人類可以很直觀的、很自然的通過時(shí)間序列數(shù)據(jù)“形狀”上的特性獲知每個(gè)時(shí)間序列的潛在知識(shí),諸如:類別,是否相似,是否是反轉(zhuǎn)點(diǎn)等。然而,對于任何一部計(jì)算機(jī),它都只能完成基本的機(jī)械式的計(jì)算任務(wù)。任何包括類似人的這種感知、理解、識(shí)別的能力,計(jì)算機(jī)都無法直接獲得。因此,包括數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)在內(nèi)的領(lǐng)域,其根本任務(wù)均為設(shè)計(jì)相應(yīng)的模型和算法,從某種程度上通過程序使得計(jì)算機(jī)獲得這種智能的感知、理解和識(shí)別等能力。
本文著重探索時(shí)間序列數(shù)據(jù)挖掘的若干問題。具體而言,本論文從時(shí)間序列數(shù)據(jù)分類、時(shí)間序列數(shù)據(jù)檢索以及時(shí)間序列表示和建模等方面入手,結(jié)合現(xiàn)實(shí)生活中的若干具體問題提出了相應(yīng)的模型和方法,并通過大量實(shí)驗(yàn)驗(yàn)證了這些方法的有效性和其在性能上的優(yōu)勢。本篇論文的主要目的之一是通過機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的方法,結(jié)合具體工業(yè)、科學(xué)領(lǐng)域的具體問題,設(shè)計(jì)并提出解決相應(yīng)問題的模型和方法,從而更好的解決現(xiàn)實(shí)世界中對應(yīng)的時(shí)間序列數(shù)據(jù)的問題。我們希望本篇論文能夠提供一種新的看待時(shí)間序列數(shù)據(jù)的視角給相關(guān)時(shí)間序列研究人員,從而使該工作獲得更廣泛的關(guān)注并被擴(kuò)展、引申出更多深入的研究工作。
本文盼研究內(nèi)容分為四個(gè)部分,分別探索時(shí)間序列表示方法,多元時(shí)間序列分類問題,時(shí)間序列快速檢索以及時(shí)間序列分段表示以及建模問題。針對以上四個(gè)具體的時(shí)間序列數(shù)據(jù)挖掘問題,結(jié)合現(xiàn)實(shí)世界中四個(gè)具體的問題,我們相應(yīng)的提出了四個(gè)具體的模型方法來解決這些問題。
在過去十幾年里,時(shí)間序列數(shù)據(jù)挖掘中的序列分類問題引起了學(xué)術(shù)界大量的關(guān)注。相應(yīng)地,以往學(xué)者提出了許多有關(guān)時(shí)間序列分類的方法,并且認(rèn)為基于最近鄰(k-NeartestNeighbor,特別是1-NN)的方法是目前效果最好的分類方T
摘要
法。對于給定的具體分類問題,由于基于最近鄰方法的分類效果主要依賴于距離度量的選擇,因此,如何對給定問題選擇一個(gè)合適的距離度量成為了時(shí)間序列數(shù)據(jù)挖掘中的一個(gè)熱門的研究問題。
目前,針對時(shí)間序列數(shù)據(jù),已經(jīng)存在許多基于不同角度設(shè)計(jì)的距離度量方法。其中,應(yīng)用最為廣泛的兩個(gè)距離度量方法是歐式距離(Euclidean
和動(dòng)態(tài)時(shí)間反轉(zhuǎn)(DynamicTimedistance)Warping)。歐氏距離是一種簡單有效的度量方法,在一些實(shí)際的時(shí)間序列數(shù)據(jù)分類中,它可以獲得比較好的分類效果。相對地,動(dòng)態(tài)時(shí)間反轉(zhuǎn)引入了兩個(gè)序列對齊的概念,從而允許兩個(gè)時(shí)間序列不同時(shí)間點(diǎn)的數(shù)據(jù)進(jìn)行對齊。這種序列對齊的方法使得動(dòng)態(tài)時(shí)間反轉(zhuǎn)在一些分類場景下獲得了比歐式距離好的效果。然而,動(dòng)態(tài)時(shí)間反轉(zhuǎn)主要的一個(gè)缺點(diǎn)是它需要更多的計(jì)算開銷,并且,盡管結(jié)合1-NN方法,在許多場景下,它可以獲得最好的分類效果,但是對于其他一些實(shí)際應(yīng)用問題,它的分類效果沒有明顯優(yōu)于其他度量方法。目前的研究結(jié)果表明,沒有一種時(shí)間度量方法能夠在所有時(shí)間序列數(shù)據(jù)上都可以獲得最好的分類效果。另一方面,一般來說距離度量的選擇需要人為的經(jīng)驗(yàn)選擇,,因此,這需要大量的人力成本和時(shí)間開銷。因此,對于時(shí)間序列數(shù)據(jù)如何自動(dòng)的選擇一個(gè)合適的距離度量是目前時(shí)間序列數(shù)據(jù)挖掘領(lǐng)域的一個(gè)挑戰(zhàn)。
借鑒特征學(xué)習(xí)的方法,我們探索距離度量學(xué)習(xí)方法在時(shí)間序列數(shù)據(jù)上的應(yīng)用。具體地,通過距離度量的學(xué)習(xí),針對不同的數(shù)據(jù),我們可以自動(dòng)的學(xué)習(xí)得到更好地距離度量方法,從而可以提升時(shí)間序列分類的準(zhǔn)確率。過去幾年,許多距離度量學(xué)習(xí)方法已經(jīng)被提出。其中,一種通過線性變換的模型名為近鄰成分分析(NeighborhoodComponentsAnalysis,NCA)的方法,通過學(xué)習(xí)得到的原始數(shù)據(jù)的低維表示方法,結(jié)合肛NN分類器,從而提升了分類的準(zhǔn)確率。然而,這種簡單的線性變換的局限在于它不能夠?qū)υ紨?shù)據(jù)高階的相關(guān)性進(jìn)行建模,從而影響了分類的效果。因此,基于NCA方法,另一種稱為非線性近鄰成分分析(NonlinearNCA)的距離度量學(xué)習(xí)方法被提出。這種方法能夠?qū)W習(xí)獲得原始數(shù)據(jù)更好的低維空間表示,從而可以獲得比線性近鄰成分分析方法更好的分類的準(zhǔn)確率。遺憾的是,對于時(shí)間序列數(shù)據(jù),以上兩種距離度量學(xué)習(xí)方法不能夠捕捉到時(shí)間序列的本質(zhì)特性,即時(shí)間軸上的偏移(timeshift)。
為了能夠捕捉時(shí)間軸上偏移的特性,我們結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),即時(shí)空不變形,針對時(shí)間序列數(shù)據(jù),提出了一種全新的距離度量學(xué)習(xí)方法。具體地,我們基于非線性近鄰成分分析方法(NNCA),設(shè)計(jì)了一種名為卷積非線性近鄰成分分析的距離度量學(xué)習(xí)方法(CNNCA)。該方法不僅能夠?qū)W習(xí)得到低維空間的非線性數(shù)據(jù)映射,并且可以捕捉到時(shí)間序列在時(shí)間軸上的偏移。通過學(xué)習(xí)得到數(shù)據(jù)的低維空間表示,結(jié)合1-NN分類器,我們通過大量實(shí)驗(yàn)證明了,對于許多數(shù)據(jù)集,這種基于卷積非線性近鄰分析方法學(xué)習(xí)得到的距離表示可以獲得比傳統(tǒng)歐式距離,動(dòng)態(tài)時(shí)間反轉(zhuǎn),基于窗口約束的DTW更好的分類效果。特別對TT
本文關(guān)鍵詞:時(shí)間序列數(shù)據(jù)分類、檢索方法及應(yīng)用研究,由筆耕文化傳播整理發(fā)布。
本文編號:66157
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/66157.html