基于趨勢符號化的多元時間序列時態(tài)關(guān)聯(lián)規(guī)則挖掘
發(fā)布時間:2022-01-17 08:41
復(fù)雜系統(tǒng)工藝連續(xù)、結(jié)構(gòu)關(guān)系龐雜,在層次結(jié)構(gòu)、時間過程和功能組成方面表現(xiàn)出非線性和不確定性,則難以建立能精確描述復(fù)雜系統(tǒng)的機理解析模型。此外,由于復(fù)雜系統(tǒng)的運行過程呈現(xiàn)出顯著的時間特性,其運行監(jiān)測參數(shù)是一類典型的多元時間序列數(shù)據(jù)。以基于數(shù)據(jù)驅(qū)動的控制思想為指導(dǎo),將復(fù)雜系統(tǒng)運行工況轉(zhuǎn)換為數(shù)據(jù)挖掘的問題,通過控制優(yōu)化算法對過程數(shù)據(jù)進(jìn)行分析,實現(xiàn)復(fù)雜系統(tǒng)的工況識別、故障檢測和健康診斷。本文以此為切入點,重點關(guān)注時間序列的數(shù)據(jù)挖掘及相關(guān)算法,旨在發(fā)現(xiàn)對象發(fā)展的變化過程、變化趨勢、變化規(guī)律等重要運行特征,充分考慮如何從多元時間序列數(shù)據(jù)中高效、準(zhǔn)確地挖掘出系統(tǒng)運行過程中參數(shù)間隱藏的時態(tài)關(guān)聯(lián)及趨勢關(guān)系,主要研究多元時間序列數(shù)據(jù)的趨勢特征提取和時態(tài)關(guān)聯(lián)規(guī)則挖掘,其工作包括以下幾個方面。為了挖掘多元時間序列中有用的時態(tài)關(guān)聯(lián)規(guī)則,首先需要將時序數(shù)據(jù)轉(zhuǎn)換為規(guī)則挖掘所需的符號序列。針對表征復(fù)雜系統(tǒng)運行工況的多元時間序列數(shù)據(jù)量大、維度高等特點,通過已有的符號化表示對數(shù)據(jù)進(jìn)行壓縮,并充分地考慮運行監(jiān)測數(shù)據(jù)的趨勢特征和時間序列數(shù)據(jù)的挖掘準(zhǔn)確性等問題,提出了一種能夠提取分段趨勢的符號化表示方法。通過提取序列分段中的趨勢...
【文章來源】:重慶大學(xué)重慶市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1.1時間序列數(shù)據(jù)挖掘的典型應(yīng)用領(lǐng)域Fig.1.1Typicalapplicationareaoftimeseriesdatamining
重慶大學(xué)碩士學(xué)位論文14數(shù)據(jù)的條件和標(biāo)準(zhǔn)也都沒有統(tǒng)一的定論!岸嘣毙詫(dǎo)致了多元時間序列數(shù)據(jù)挖掘的高難度。因此需要通過有效地“降元”來解決多元時間序列數(shù)據(jù)的參數(shù)變量復(fù)雜性問題。④噪聲干擾嚴(yán)重。在實際采集記錄過程中,時間序列數(shù)據(jù)很容易受到環(huán)境中其他意外因素的干擾,從而給實際數(shù)據(jù)帶來一定的噪聲和誤差。而且,時間序列數(shù)據(jù)的特征趨勢沒有明顯的變化,但是在短期內(nèi)又體現(xiàn)出頻繁的波動,大大增加了數(shù)據(jù)挖掘的難度。因此,大量研究學(xué)者通過提取多元時間序列中的主要特征來表示原始序列,并具有數(shù)據(jù)壓縮的效果,有助于提高時間序列數(shù)據(jù)挖掘的效率和準(zhǔn)確性。綜上分析可以看出,如果直接對具有維度高、海量化、有噪聲干擾的多元時間序列進(jìn)行數(shù)據(jù)挖掘,必然會產(chǎn)生較高的時間復(fù)雜度和空間復(fù)雜度,從而影響挖掘結(jié)果的準(zhǔn)確性和可靠性。針對這個問題,通過提取多元時間序列中的主要特征來表示原始序列,能提高數(shù)據(jù)挖掘工作的效率。然而,現(xiàn)有特征表示方法對序列的特征提取不同,近似表示可能會丟失序列中的其他重要信息。因此,一種能有效地降低數(shù)據(jù)維度且能保留原序列中的絕大部分信息的特征表示方法不可缺少。結(jié)合1.2.1節(jié)的內(nèi)容,對多元時間序列數(shù)據(jù)特征表示方法的綜述分析,目前較為流行的用于離散化處理的是符號化表示方法。時間序列符號化表示也有許多相關(guān)的改進(jìn)方法,如將統(tǒng)計特征(方差、平均值、極值點和關(guān)鍵點等)或者形態(tài)特征(斜率、角度和趨勢等)作為序列的重要特征進(jìn)行提齲T°T圖2.1基于趨勢的符號化表示方法Fig.2.1Symbolicrepresentationbasedontrend
重慶大學(xué)碩士學(xué)位論文24的符號“E”。即若序列段的平均值為-0.34,則對應(yīng)的區(qū)域在-0.84至-0.25之間,符號表示為“B”;诜柧酆辖票硎痉椒ㄈ鐖D3.3所示,設(shè)定字母表大小a=6,即將空間分為六個區(qū)域,每個區(qū)域表示一類符號。表3.1字母表大小從3到10分別對應(yīng)的區(qū)間臨界點Table3.1Theintervalcriticalpointofthealphabetfrom3to10respectivelyaib3456789101b-0.43-0.67-0.84-.97-1.07-1.15-1.22-1.282b0.430-0.25-0.43-0.57-0.67-0.76-0.843b-0.670.250-0.18-0.32-0.43-0.524b--0.840.430.180-0.14-0.255b---0.970.570.320.1406b----1.070.670.430.257b-----1.150.760.528b------1.220.849b-------1.28圖3.3符號聚合近似Fig.3.3Symbolicaggregationapproximation符號聚合近似的距離度量函數(shù)定義為計算兩條序列對應(yīng)兩個符號間的距離之和。計算方法為:
本文編號:3594421
【文章來源】:重慶大學(xué)重慶市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1.1時間序列數(shù)據(jù)挖掘的典型應(yīng)用領(lǐng)域Fig.1.1Typicalapplicationareaoftimeseriesdatamining
重慶大學(xué)碩士學(xué)位論文14數(shù)據(jù)的條件和標(biāo)準(zhǔn)也都沒有統(tǒng)一的定論!岸嘣毙詫(dǎo)致了多元時間序列數(shù)據(jù)挖掘的高難度。因此需要通過有效地“降元”來解決多元時間序列數(shù)據(jù)的參數(shù)變量復(fù)雜性問題。④噪聲干擾嚴(yán)重。在實際采集記錄過程中,時間序列數(shù)據(jù)很容易受到環(huán)境中其他意外因素的干擾,從而給實際數(shù)據(jù)帶來一定的噪聲和誤差。而且,時間序列數(shù)據(jù)的特征趨勢沒有明顯的變化,但是在短期內(nèi)又體現(xiàn)出頻繁的波動,大大增加了數(shù)據(jù)挖掘的難度。因此,大量研究學(xué)者通過提取多元時間序列中的主要特征來表示原始序列,并具有數(shù)據(jù)壓縮的效果,有助于提高時間序列數(shù)據(jù)挖掘的效率和準(zhǔn)確性。綜上分析可以看出,如果直接對具有維度高、海量化、有噪聲干擾的多元時間序列進(jìn)行數(shù)據(jù)挖掘,必然會產(chǎn)生較高的時間復(fù)雜度和空間復(fù)雜度,從而影響挖掘結(jié)果的準(zhǔn)確性和可靠性。針對這個問題,通過提取多元時間序列中的主要特征來表示原始序列,能提高數(shù)據(jù)挖掘工作的效率。然而,現(xiàn)有特征表示方法對序列的特征提取不同,近似表示可能會丟失序列中的其他重要信息。因此,一種能有效地降低數(shù)據(jù)維度且能保留原序列中的絕大部分信息的特征表示方法不可缺少。結(jié)合1.2.1節(jié)的內(nèi)容,對多元時間序列數(shù)據(jù)特征表示方法的綜述分析,目前較為流行的用于離散化處理的是符號化表示方法。時間序列符號化表示也有許多相關(guān)的改進(jìn)方法,如將統(tǒng)計特征(方差、平均值、極值點和關(guān)鍵點等)或者形態(tài)特征(斜率、角度和趨勢等)作為序列的重要特征進(jìn)行提齲T°T圖2.1基于趨勢的符號化表示方法Fig.2.1Symbolicrepresentationbasedontrend
重慶大學(xué)碩士學(xué)位論文24的符號“E”。即若序列段的平均值為-0.34,則對應(yīng)的區(qū)域在-0.84至-0.25之間,符號表示為“B”;诜柧酆辖票硎痉椒ㄈ鐖D3.3所示,設(shè)定字母表大小a=6,即將空間分為六個區(qū)域,每個區(qū)域表示一類符號。表3.1字母表大小從3到10分別對應(yīng)的區(qū)間臨界點Table3.1Theintervalcriticalpointofthealphabetfrom3to10respectivelyaib3456789101b-0.43-0.67-0.84-.97-1.07-1.15-1.22-1.282b0.430-0.25-0.43-0.57-0.67-0.76-0.843b-0.670.250-0.18-0.32-0.43-0.524b--0.840.430.180-0.14-0.255b---0.970.570.320.1406b----1.070.670.430.257b-----1.150.760.528b------1.220.849b-------1.28圖3.3符號聚合近似Fig.3.3Symbolicaggregationapproximation符號聚合近似的距離度量函數(shù)定義為計算兩條序列對應(yīng)兩個符號間的距離之和。計算方法為:
本文編號:3594421
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3594421.html
最近更新
教材專著