一種頻繁模式?jīng)Q策樹處理可變數(shù)據(jù)流
本文關(guān)鍵詞:一種頻繁模式?jīng)Q策樹處理可變數(shù)據(jù)流,由筆耕文化傳播整理發(fā)布。
【摘要】:數(shù)據(jù)流中可能包含大量的無用信息或者噪聲,頻繁模式挖掘可以去除這些無用信息,且頻繁模式比單個屬性包含了更多的信息.因此,挖掘頻繁的、有區(qū)分力的模式,可以用于有效的分類.該文提出一個兩步驟算法PatHT(Pattern-based Hoeffding Tree)生成決策樹用于可變數(shù)據(jù)流分類.第一步,設(shè)計增量更新算法CCFPM(Constraintsbased and Closed Frequent Pattern Mining),用于生成閉合約束頻繁模式集合CFPSet(Closed Frequent Pattern Set).CCFPM中采用滑動窗口模型和時間衰減模型處理實例,設(shè)計一種均值衰減因子設(shè)置方法得到高完整性和準(zhǔn)確性的模式集合.第二步,增量更新方法 HTreeGrow(Hoeffding Tree Growing)生成基于CFPSet的概念漂移決策樹.該方法使用概念漂移檢測器監(jiān)督概念改變,自動調(diào)整分類模型.針對高密度和低密度的數(shù)據(jù)流,設(shè)計了不同使用模式集合的方法.在真實和模擬數(shù)據(jù)流上的實驗分析表明,與其他同類算法相比,提出的方法對穩(wěn)態(tài)數(shù)據(jù)流處理時可以明顯提高正確率或可以明顯降低訓(xùn)練時間,在處理不同概念漂移特性的可變數(shù)據(jù)流時也具有很好的分類效果.
【作者單位】: 北方民族大學(xué)計算機科學(xué)與工程學(xué)院;北京交通大學(xué)計算機與信息工程學(xué)院;
【關(guān)鍵詞】: 分類 可變數(shù)據(jù)流 決策樹 頻繁模式挖掘 Hoeffding樹 數(shù)據(jù)挖掘
【基金】:國家自然科學(xué)基金(61563001) 國家民委科研基金(14BFZ008)資助
【分類號】:TP311.13
【正文快照】: 1引言隨著數(shù)據(jù)流挖掘應(yīng)用日趨廣泛,數(shù)據(jù)流分類問題已成為一項重要且充滿挑戰(zhàn)的工作.數(shù)據(jù)流與傳統(tǒng)的靜態(tài)數(shù)據(jù)或數(shù)據(jù)庫相比具有非常不同的特性,如動態(tài)、無限、高維、有序、非重復(fù)性、高速和隨時間變化[1].在真實的數(shù)據(jù)流環(huán)境中,大部分?jǐn)?shù)據(jù)流是可變的,即具有概念漂移[2]特征,稱為
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉君強,潘云鶴;一種直接生成跨層頻繁模式的算法[J];計算機應(yīng)用研究;2003年01期
2 劉君強,孫曉瑩,王勛,潘云鶴;挖掘最大頻繁模式的新方法[J];計算機學(xué)報;2004年10期
3 阮幼林,李慶華,劉干;最大頻繁模式的快速挖掘與更新算法[J];計算機工程與應(yīng)用;2005年24期
4 王運鵬;胡修林;阮幼林;;一種最大頻繁模式的快速挖掘算法[J];計算機應(yīng)用研究;2006年10期
5 張偉;楊炳儒;錢榕;;多關(guān)系頻繁模式發(fā)現(xiàn)研究[J];計算機科學(xué);2007年07期
6 龔才春;賀敏;陳海強;許洪波;程學(xué)旗;;大規(guī)模語料的頻繁模式快速發(fā)現(xiàn)算法[J];通信學(xué)報;2007年12期
7 楊傳耀;張成洪;胡運發(fā);;一種基于投影和樹的閉合頻繁模式算法[J];模式識別與人工智能;2008年01期
8 黃金;;基于頻繁模式的蛋白質(zhì)序列分類[J];東北農(nóng)業(yè)大學(xué)學(xué)報;2008年05期
9 胡健;張水平;;一種無背景知識的多關(guān)系頻繁模式發(fā)現(xiàn)算法研究[J];江西理工大學(xué)學(xué)報;2008年04期
10 徐欣;阮幼林;;最大頻繁模式的挖掘算法[J];艦船電子工程;2009年03期
中國重要會議論文全文數(shù)據(jù)庫 前8條
1 高晶;李建中;張兆功;;挖掘數(shù)值型數(shù)據(jù)流中的最大頻繁模式[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
2 龔才春;賀敏;張華平;許洪波;程學(xué)旗;;大規(guī)模語料的頻繁模式快速發(fā)現(xiàn)算法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年
3 喬少杰;沈志強;;PathExplorer:基于頻繁模式的不確定性軌跡預(yù)測系統(tǒng)[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)(NDBC2012)[C];2012年
4 孫曉;韋明;;一種基于IRST的頻繁模式的心電波形分類方法研究[A];中國空間科學(xué)學(xué)會第七次學(xué)術(shù)年會會議手冊及文集[C];2009年
5 王鵬;吳曉晨;王晨;汪衛(wèi);施伯樂;;CAPE——數(shù)據(jù)流上的基于頻繁模式的分類算法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
6 馮秀芳;賈嘉;;基于頻繁模式項的無線傳感器網(wǎng)絡(luò)數(shù)據(jù)融合研究[A];AECC專題學(xué)術(shù)研討會論文集[C];2007年
7 王晨;朱永泰;汪衛(wèi);施伯樂;;高效地挖掘頻繁圖模式[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
8 周敏子;周皓峰;王晨;汪衛(wèi);施伯樂;;使用頻繁結(jié)構(gòu)提煉網(wǎng)絡(luò)權(quán)威資源[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 萬里;時間序列中的知識發(fā)現(xiàn)[D];北京郵電大學(xué);2009年
2 王智慧;信息共享中隱私保護若干問題研究[D];復(fù)旦大學(xué);2007年
3 繆裕青;關(guān)聯(lián)規(guī)則挖掘及其在基因表達數(shù)據(jù)中的應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李桃陶;面向微博社區(qū)的圖數(shù)據(jù)挖掘技術(shù)研究與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2014年
2 楊莉;分布式最大頻繁模式挖掘算法的研究[D];西安科技大學(xué);2011年
3 侯俊杰;一種基于索引的頻繁模式算法研究[D];清華大學(xué);2005年
4 臧良俊;使用長度遞減支持度挖掘興趣頻繁模式和子空間[D];遼寧科技大學(xué);2007年
5 譚越;一種基于全局頻繁模式的數(shù)據(jù)挖掘算法及系統(tǒng)實現(xiàn)[D];華中科技大學(xué);2011年
6 楊銘馳;一種基于頻繁模式列表的關(guān)聯(lián)規(guī)則分類算法研究與實現(xiàn)[D];吉林大學(xué);2012年
7 俞潔;基于頻繁模式的入侵檢測算法的研究與改進[D];暨南大學(xué);2012年
8 賈嘉;基于頻繁模式的數(shù)據(jù)挖掘算法分析與改進[D];太原理工大學(xué);2007年
9 楊雅雙;關(guān)聯(lián)規(guī)則的并行挖掘算法研究[D];西安科技大學(xué);2010年
10 張鐵軍;關(guān)聯(lián)規(guī)則挖掘的相關(guān)問題研究[D];西安科技大學(xué);2009年
本文關(guān)鍵詞:一種頻繁模式?jīng)Q策樹處理可變數(shù)據(jù)流,,由筆耕文化傳播整理發(fā)布。
本文編號:506684
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/506684.html