天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于時間序列的決策樹生成算法研究

發(fā)布時間:2018-07-05 01:38

  本文選題:時間序列分類 + 正例-未標(biāo)注學(xué)習(xí); 參考:《西北農(nóng)林科技大學(xué)》2017年碩士論文


【摘要】:時間序列數(shù)據(jù)是一類與我們的生活息息相關(guān)的高維數(shù)據(jù),具有時間跨度大、實值有序、數(shù)據(jù)間存在自相關(guān)性等特點,其廣泛存在于商業(yè)、醫(yī)學(xué)、氣象等領(lǐng)域。在眾多時間序列分類算法研究中,相比于其他分類算法,基于決策樹算法的時間序列分類算法有著很強(qiáng)的決策分析能力,且不基于正態(tài)統(tǒng)計分布假設(shè),有較高的分類精度和魯棒性。在以往基于決策樹的時間序列分類研究中,處理結(jié)點分裂時,將時間序列的每一個時刻作為一個屬性,按照時間軸一一對應(yīng),忽略了時間序列內(nèi)部的自相關(guān)性和時間序列間不對齊性對屬性選擇的影響,即在時間序列內(nèi)某個時刻的取值與其前后相鄰的若干個時刻的取值相關(guān),在時間序列間,同一時刻對應(yīng)的數(shù)據(jù)的意義不同。針對傳統(tǒng)決策樹算法沒有考慮到時間序列自相關(guān)性和不對齊性對算法影響的不足,本文在有監(jiān)督學(xué)習(xí)和正例-未標(biāo)注學(xué)習(xí)兩個方面,討論了新的基于序列對的時間序列決策樹分類研究,具體成果如下:(1)有監(jiān)督學(xué)習(xí)下的基于時間序列對的決策樹生成算法研究。該算法從時間序列與其他序列相比所具有的自相關(guān)性和序列不對齊性的特點出發(fā),提出序列熵的概念以代替?zhèn)鹘y(tǒng)決策樹中所使用的信息熵,作為屬性選擇標(biāo)準(zhǔn)。并在屬性值劃分上,將序列對作為決策樹分裂屬性,基于動態(tài)時間規(guī)整距離(DTW)對時間序列集合進(jìn)行劃分,提出了基于決策樹的時間序列分類算法(TSDT)。在此基礎(chǔ)上,利用動態(tài)分類器集成技術(shù),首先根據(jù)待測樣本,使用最近鄰算法在訓(xùn)練集合中構(gòu)造驗證集,通過隨機(jī)構(gòu)造的TSDT分類器在驗證集上的分類性能,動態(tài)選擇若干最優(yōu)分類器,構(gòu)造了時間序列動態(tài)集成分類模型(_En-TSDT)。在UCR時間序列公共數(shù)據(jù)集上的實驗表明,相比于目前最強(qiáng)的分類器——基于動態(tài)時間規(guī)整技術(shù)的最近鄰分類器,En-TSDT平均分類性能指標(biāo)F1值提高了 1.47%,錯誤率下降了 9.80%。實驗結(jié)果表明,基于序列熵和序列對信息增益的決策樹算法,可有效克服傳統(tǒng)決策樹算法忽略時間序列數(shù)據(jù)自相關(guān)性和不對齊性的不足,提高了決策樹算法在時間序列數(shù)據(jù)上的分類性能。(2)正例-未標(biāo)注學(xué)習(xí)下的基于時間序列對的決策樹生成算法研究。該算法在正例-未標(biāo)注決策樹算法(POSC4.5)基礎(chǔ)上,將分裂屬性擴(kuò)展為以序列整體作為特征屬性,由結(jié)點中正例集合和從未標(biāo)注集合中挖掘到的負(fù)例集合隨機(jī)組合成序列對,以分裂信息增益最大的序列對作為結(jié)點分裂屬性,根據(jù)結(jié)點集合中樣本與序列對的動態(tài)時間規(guī)整距離(DTW),對結(jié)點進(jìn)行分裂,構(gòu)造正例-未標(biāo)注場景下的時間序列決策樹(TSPOSC4.5)。其中負(fù)例集合是通過計算未標(biāo)注集合中序列與正例集合間的距離,將與正例集合距離最遠(yuǎn)的序列作為負(fù)例,并通過最近鄰方法在未標(biāo)注集合中將挖掘到的負(fù)例的最近鄰集合作為負(fù)例集合。在此算法的基礎(chǔ)上,通過對參數(shù)估計多次計算取均值,降低了參數(shù)估計誤差對分類性能的影響。并利用集成學(xué)習(xí)技術(shù)構(gòu)造了正例-未標(biāo)注時間序列集成決策樹模型(En-TSPOSC4.5)。在UCR數(shù)據(jù)集中符合正例-未標(biāo)注場景的16個數(shù)據(jù)集上,與目前最優(yōu)的基于Markvo性質(zhì)的正例-未標(biāo)注時間序列分類模型PU Markvo和廣泛應(yīng)用的基于動態(tài)時間規(guī)整的正例最近鄰算法相比,基于集成學(xué)習(xí)技術(shù)的En-TSPOSC4.5的分類性能指標(biāo)F1值在不同正例標(biāo)注比下分別平均提高了 4.95%和11.45%。結(jié)果表明,基于序列對的正例-未標(biāo)注時間序列集成決策樹算法有更強(qiáng)的分類性能。
[Abstract]:Time series data is a kind of high dimensional data which is closely related to our life. It has the characteristics of large time span, orderly real value, and autocorrelation among data. It widely exists in the fields of business, medicine, meteorology and so on. In the study of many time series classification algorithms, the time sequence based on the decision tree algorithm is compared to other classification algorithms. The column classification algorithm has a strong ability of decision analysis, and is not based on the hypothesis of normal statistical distribution. It has high classification accuracy and robustness. In the previous study of time series classification based on decision tree, each time sequence was taken as an attribute when dealing with node splitting, and the time sequence was ignored in accordance with the time sequence. The influence of the internal autocorrelation and the inhomogeneity between time series and time series on the selection of attributes, that is, the value of the value of the time series is related to the values of several adjacent moments in the time series. In the time series, the meaning of the data corresponding to the same time is different. In this paper, a new classification of time series decision tree classification based on sequence pairs is discussed in two aspects of supervised learning and untagged learning. The specific results are as follows: (1) research on the decision tree generation algorithm based on time series pairs under supervised learning. Compared with the characteristics of autocorrelation and sequence inhomogeneity, the sequence entropy concept is proposed to replace the information entropy used in the traditional decision tree as the attribute selection criterion. In the attribute value division, the sequence pair is used as the division attribute of the decision tree and the time sequence based on the dynamic time normalization distance (DTW). In line division, a time series classification algorithm based on decision tree (TSDT) is proposed. On this basis, the dynamic classifier ensemble technology is used. First, according to the samples to be measured, the nearest neighbor algorithm is used to construct the validation set in the training set, and a number of optimal classifiers are dynamically selected through the random construction of the TSDT classifier on the verification set. The time series dynamic integrated classification model (_En-TSDT) is constructed. The experiment on the public data set of the UCR time series shows that compared to the nearest neighbor classifier based on the dynamic time warping technology, the F1 value of the En-TSDT average classification performance index is increased by 1.47%, and the error rate is reduced by the 9.80%. experiment results. The decision tree algorithm for the information gain of sequence entropy and sequence can effectively overcome the shortcomings of the traditional decision tree algorithm ignoring the autocorrelation and inhomogeneity of the time series data, and improve the classification performance of the decision tree algorithm on the time series data. (2) a decision tree generation algorithm based on time series pairs under untagged learning. On the basis of the positive example untagged decision tree algorithm (POSC4.5), the split attribute is extended to the sequence whole as the feature attribute, and the negative example set excavated from the set in the node and the untagged set are randomly combined into sequence pairs, and the sequence pairs with the most splitting information gain are used as node splitting attributes and based on the set of nodes. The dynamic time normalization distance (DTW) of the medium sample and sequence pair, splitting the nodes and constructing the time series decision tree (TSPOSC4.5) under the untagged scene, which is a negative example by calculating the distance between the sequence of the untagged set and the set of the positive example, as a negative example, and through the nearest neighbor. Methods the nearest neighbor set of negative examples in untagged sets is used as a set of negative examples. On the basis of this algorithm, the influence of the parameter estimation error on the classification performance is reduced by calculating the mean value many times in the parameter estimation. And the integrated learning technique is used to construct an integrated decision tree model of the untagged time series (En-TSPOS C4.5). On the 16 datasets of the UCR data set that conforms to the untagged scene, the classification performance index of En-TSPOSC4.5 based on the integrated learning technology is compared to the current optimal Markvo based positive example of the untagged time series classification model PU Markvo and the widely applied dynamic time regularization based nearest neighbor algorithm, the F1 value of the classification performance index based on the integrated learning technique. The average increase of 4.95% and 11.45%. results on the different positive example annotation shows that the sequence pair unlabeled time series integrated decision tree algorithm based on sequence pairs has a stronger classification performance.
【學(xué)位授予單位】:西北農(nóng)林科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP311.13

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 李健;孫廣中;許胤龍;;基于時間序列的預(yù)測模型應(yīng)用與異常檢測[J];計算機(jī)輔助工程;2006年02期

2 左愛文;郭宏武;王保保;;氣象時間序列規(guī)則發(fā)現(xiàn)及其應(yīng)用[J];陜西氣象;2006年06期

3 劉猛洪;汪愛麗;;基于模糊時間序列的短期電力負(fù)荷預(yù)測[J];電子世界;2013年07期

4 K.D.C.Stoodley,盧潤德;非連續(xù)含有準(zhǔn)周期分量時間序列的實時監(jiān)測(英文)[J];控制理論與應(yīng)用;1986年01期

5 吳紅花;劉國華;;不確定時間序列的規(guī)約方法[J];計算機(jī)工程;2012年21期

6 W.Gersch;黃勁濤;;混合自回歸動平均時間序列的自回歸參數(shù)估計[J];水聲譯叢;1980年03期

7 王立柱;劉曉東;;Granger相關(guān)性與時間序列預(yù)測[J];控制與決策;2014年04期

8 周巧臨;傅彥;;科學(xué)數(shù)據(jù)時間序列的預(yù)測方法[J];電子科技大學(xué)學(xué)報;2007年06期

9 王閱;高學(xué)東;;基于重標(biāo)級差分析的時間序列分割方法[J];計算機(jī)工程與應(yīng)用;2008年29期

10 修春波;;時間序列一步預(yù)測方法[J];計算機(jī)應(yīng)用研究;2010年04期

相關(guān)會議論文 前10條

1 周家斌;張海福;楊桂英;;多維多步時間序列預(yù)報方法及其應(yīng)用[A];中國現(xiàn)場統(tǒng)計研究會第九屆學(xué)術(shù)年會論文集[C];1999年

2 馬培蓓;紀(jì)軍;;基于時間序列的航空備件消耗預(yù)測[A];中國系統(tǒng)工程學(xué)會決策科學(xué)專業(yè)委員會第六屆學(xué)術(shù)年會論文集[C];2005年

3 盧世坤;李夕海;牛超;陳蛟;;時間序列的非線性非平穩(wěn)特性研究綜述[A];國家安全地球物理叢書(八)——遙感地球物理與國家安全[C];2012年

4 李強(qiáng);;基于線性模型方法對時間序列中異常值的檢測及證券實證分析[A];加入WTO和中國科技與可持續(xù)發(fā)展——挑戰(zhàn)與機(jī)遇、責(zé)任和對策(上冊)[C];2002年

5 戴麗金;何振峰;;基于云模型的時間序列相似性度量方法[A];第八屆中國不確定系統(tǒng)年會論文集[C];2010年

6 謝美萍;趙希人;莊秀龍;;多維非線性時間序列的投影尋蹤學(xué)習(xí)逼近[A];'99系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)交流會論文集[C];1999年

7 張大斌;李紅燕;劉肖;張文生;;非線性時問序列的小波-模糊神經(jīng)網(wǎng)絡(luò)集成預(yù)測方法[A];第十五屆中國管理科學(xué)學(xué)術(shù)年會論文集(下)[C];2013年

8 黃云貴;;基于時間序列的電網(wǎng)固定資產(chǎn)投資規(guī)模研究[A];2012年云南電力技術(shù)論壇論文集(文摘部分)[C];2012年

9 李松臣;張世英;;時間序列高階矩持續(xù)和協(xié)同持續(xù)性研究[A];21世紀(jì)數(shù)量經(jīng)濟(jì)學(xué)(第8卷)[C];2007年

10 陳赫;羅聲求;;歷史橫斷面數(shù)據(jù)的時間序列化[A];科學(xué)決策與系統(tǒng)工程——中國系統(tǒng)工程學(xué)會第六次年會論文集[C];1990年

相關(guān)重要報紙文章 前6條

1 ;《時間序列與金融數(shù)據(jù)分析》[N];中國信息報;2004年

2 何德旭 王朝陽;時間序列計量經(jīng)濟(jì)學(xué):協(xié)整與有條件的異方差自回歸[N];中國社會科學(xué)院院報;2003年

3 劉俏;讓數(shù)據(jù)坦白真相[N];21世紀(jì)經(jīng)濟(jì)報道;2003年

4 西南證券高級研究員 董先安邋德圣基金研究中心 郭奔宇;預(yù)計6月CPI同比上漲7.2%[N];證券時報;2008年

5 東證期貨 王愛華 楊衛(wèi)東;兩年漲跌輪回 秋季普遍下跌[N];期貨日報;2009年

6 任勇邋鄭重;中國對世界鋼材價格的影響實證分析[N];現(xiàn)代物流報;2007年

相關(guān)博士學(xué)位論文 前10條

1 張墨謙;遙感時間序列數(shù)據(jù)的特征挖掘:在生態(tài)學(xué)中的應(yīng)用[D];復(fù)旦大學(xué);2014年

2 張德成;滑坡預(yù)測預(yù)報研究[D];昆明理工大學(xué);2015年

3 苗圣法;時間序列的模式檢測[D];蘭州大學(xué);2015年

4 翁同峰;時間序列與復(fù)雜網(wǎng)絡(luò)之間等價性問題及表征應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2015年

5 楊婷婷;用Argo浮標(biāo)結(jié)合衛(wèi)星觀測估算北太平洋經(jīng)向熱輸運[D];中國科學(xué)院研究生院(海洋研究所);2015年

6 史文彬;時間序列的相關(guān)性及信息熵分析[D];北京交通大學(xué);2016年

7 原繼東;時間序列分類算法研究[D];北京交通大學(xué);2016年

8 盧偉;基于粒計算的時間序列分析與建模方法研究[D];大連理工大學(xué);2015年

9 胡建明;基于正則化核學(xué)習(xí)模型的時間序列多步預(yù)測的研究與應(yīng)用[D];蘭州大學(xué);2016年

10 黃標(biāo)兵;回聲狀態(tài)網(wǎng)絡(luò)時間序列預(yù)測方法及應(yīng)用研究[D];吉林大學(xué);2017年

相關(guān)碩士學(xué)位論文 前10條

1 陳健;基于多變量相空間重構(gòu)的投資組合策略研究[D];華南理工大學(xué);2015年

2 蘭鑫;時間序列的復(fù)雜網(wǎng)絡(luò)轉(zhuǎn)換策略研究[D];西南大學(xué);2015年

3 米曉將;區(qū)域尺度下月均氣溫的時空演化格局研究[D];昆明理工大學(xué);2015年

4 張鳴敏;基于支持向量回歸的PM_(2.5)濃度預(yù)測研究[D];南京信息工程大學(xué);2015年

5 林健;基于改進(jìn)小世界回聲狀態(tài)網(wǎng)的時間序列預(yù)測[D];渤海大學(xué);2015年

6 曹智麗;日氣溫和干旱指數(shù)支持向量回歸預(yù)測方法[D];南京信息工程大學(xué);2015年

7 高雄飛;基于分形理論的土壤含水量時間序列特性分析[D];長安大學(xué);2015年

8 姚茜;城市安全生產(chǎn)發(fā)展目標(biāo)研究[D];中國地質(zhì)大學(xué)(北京);2015年

9 謝翠穎;蘇州社會消費品零售總額簡析[D];蘇州大學(xué);2015年

10 包仁義;基于時間序列的搜索引擎評估模型算法研究[D];東北師范大學(xué);2015年

,

本文編號:2098352

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2098352.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7adcb***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
av在线免费观看一区二区三区 | 青青操在线视频精品视频| 老司机精品线观看86| 在线观看视频日韩精品| 在线日韩欧美国产自拍| 国产精品香蕉一级免费| 午夜国产精品国自产拍av| 日韩一级一片内射视频4k| 日本婷婷色大香蕉视频在线观看| 欧美一区二区三区性视频| 亚洲中文字幕高清乱码毛片| 欧美精品二区中文乱码字幕高清| 中国少妇精品偷拍视频| 日本男人女人干逼视频| 九九热精品视频免费在线播放| 久久99精品国产麻豆婷婷洗澡| 白丝美女被插入视频在线观看| 日韩国产欧美中文字幕| 熟妇人妻av中文字幕老熟妇| 亚洲欧美日韩国产成人| 日本在线高清精品人妻| 亚洲a级一区二区不卡| 日韩欧美好看的剧情片免费| 国产精品福利一级久久| 好吊色欧美一区二区三区顽频| 亚洲欧美国产网爆精品| 日本三区不卡高清更新二区| 美国女大兵激情豪放视频播放| 91免费精品国自产拍偷拍| 在线日韩欧美国产自拍| 久久综合狠狠综合久久综合| 91熟女大屁股偷偷对白| 国产精品午夜一区二区三区 | 激情综合网俺也狠狠地| 大香伊蕉欧美一区二区三区| 日韩日韩日韩日韩在线| 欧美中文字幕一区在线| 免费一区二区三区少妇| 国产激情一区二区三区不卡| 国产一级内射麻豆91| 国产在线不卡中文字幕|