基于閉合模式的數(shù)據(jù)挖掘技術(shù)研究
本文選題:數(shù)據(jù)流 切入點(diǎn):頻繁模式挖掘 出處:《北京交通大學(xué)》2016年博士論文 論文類型:學(xué)位論文
【摘要】:數(shù)據(jù)流是一個(gè)有時(shí)間順序的,連續(xù)的,無限的事務(wù)(或?qū)嵗?記錄)序列.數(shù)據(jù)流與傳統(tǒng)的靜態(tài)數(shù)據(jù)或數(shù)據(jù)庫相比具有非常不同的特性,如動(dòng)態(tài)、無限、有序、非重復(fù)性、高速和變化.在真實(shí)的數(shù)據(jù)流環(huán)境中,一些數(shù)據(jù)源分布是隨著時(shí)間改變的,即具有概念漂移特征,稱此類數(shù)據(jù)流為可變數(shù)據(jù)流或概念漂移數(shù)據(jù)流.因此處理數(shù)據(jù)流的方法需要自動(dòng)調(diào)整以適應(yīng)概念變化.為了得到無損壓縮的且滿足用戶不同需求的有趣模式結(jié)果集合,研究數(shù)據(jù)流中滿足約束的、閉合的頻繁模式挖掘算法;為了提高數(shù)據(jù)流分類效率,研究基于頻繁模式的分類算法;研究模式挖掘和分類過程中概念漂移問題的處理方法.主要的工作包括:(1)在數(shù)據(jù)流中挖掘頻繁模式面臨的主要挑戰(zhàn)是數(shù)據(jù)的無限性使得模式不斷的產(chǎn)生,因此數(shù)量巨大.尤其是支持度閾值低時(shí)可能導(dǎo)致輸出模式的數(shù)量爆炸.由于概念漂移特性,在一些數(shù)據(jù)流應(yīng)用中通常認(rèn)為最新的數(shù)據(jù)比歷史數(shù)據(jù)重要.為此,研究使用閉合算子方法提高閉合模式挖掘的效率.研究并設(shè)計(jì)了一種均值衰減因子提高模式結(jié)果集合的準(zhǔn)確性和完整性.研究并設(shè)計(jì)了一種基于滑動(dòng)窗口模型和時(shí)間衰減模型的閉合頻繁模式挖掘算法TDMCS.通過實(shí)驗(yàn)分析,與已有同類算法相比TDMCS算法可以得到穩(wěn)定的模式集合,且具有更加均衡的查全率和查準(zhǔn)率.(2)已有的衰減因子設(shè)置方式對歷史事務(wù)和最新事務(wù)權(quán)重采用相同的衰減強(qiáng)度,這樣不能更一步的區(qū)分新舊事務(wù)的重要性.為此,研究并設(shè)計(jì)了一種基于高斯函數(shù)的衰減方式.與已有的衰減方式相比,它對新近事務(wù)的衰減程度更低,而對歷史事務(wù)的衰減程度更高.研究采用多種衰減因子設(shè)置時(shí)間衰減模型的方式.在高斯衰減因子的基礎(chǔ)上,研究并設(shè)計(jì)了基于堆積衰減值的TDMCS+算法.對已有的常見衰減因子進(jìn)行分析總結(jié),并通過理論和實(shí)驗(yàn)對比分析使用高斯衰減因子的優(yōu)勢.(3)一些高維數(shù)據(jù)中包含大量的重復(fù)項(xiàng),已有的模式挖掘算法處理此類數(shù)據(jù)會產(chǎn)生大量的短的、非連續(xù)的無用模式.針對此類數(shù)據(jù)的特征,研究并設(shè)計(jì)了三種支持度,包括支持度、局部支持度和全局支持度.局部支持度和全局支持度可用于挖掘在一條數(shù)據(jù)中多次出現(xiàn)的模式.研究并設(shè)計(jì)了算法MCCPM挖掘基于三種支持度的、連續(xù)的、閉合的模式.因此,挖掘過程中需要記錄模式在每條數(shù)據(jù)中出現(xiàn)的位置和次數(shù).實(shí)驗(yàn)分析證明與已有方式相比,MCCPM算法可以減少內(nèi)存消耗,可以得到更加有趣的模式結(jié)果集合.通過對模式結(jié)果進(jìn)行分析表明,這些有趣模式可以用于序列的對比,或者用于對未知序列的分類.(4)無限的數(shù)據(jù)流中可能存在著大量無用的信息或者噪聲,而模式挖掘可以去除數(shù)據(jù)中的無用信息且不受噪聲的影響.因此,挖掘有趣的、頻繁的和有區(qū)分力的模式,可以用于有效的分類.研究并設(shè)計(jì)了一種兩層結(jié)構(gòu)的頻繁模式?jīng)Q策樹分類算法PatHT.第一層設(shè)計(jì)算法CCFPM挖掘具有約束的閉合頻繁模式集合,該算法使用可變滑動(dòng)窗口,當(dāng)檢測到概念漂移時(shí)進(jìn)行窗口的收縮,同時(shí)對歷史模式進(jìn)行刪除.接著對模式結(jié)果抽樣產(chǎn)生集合CFTSet;第二層設(shè)計(jì)算法HTreeGrow使用CFTSet生成分類模型.PatHT算法為不同特征的數(shù)據(jù)流,設(shè)計(jì)不同的模式使用策略.算法中采用概念漂移檢測器跟蹤概念變化,從而自適應(yīng)的調(diào)整分類模型.通過對真實(shí)和虛擬數(shù)據(jù)流的實(shí)驗(yàn)分析,與已有數(shù)據(jù)流分類算法相比PatHT算法可以提高分類正確率或明顯降低時(shí)空消耗。
[Abstract]:......
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【參考文獻(xiàn)】
相關(guān)期刊論文 前8條
1 羅謙;張永輝;程華;李川;;基于航空信息網(wǎng)絡(luò)的樞紐機(jī)場航班延誤預(yù)測模型[J];系統(tǒng)工程理論與實(shí)踐;2014年S1期
2 程華;李艷梅;羅謙;李川;;基于C4.5決策樹方法的到港航班延誤預(yù)測問題研究[J];系統(tǒng)工程理論與實(shí)踐;2014年S1期
3 李海峰;章寧;朱建明;曹懷虎;;時(shí)間敏感數(shù)據(jù)流上的頻繁項(xiàng)集挖掘算法[J];計(jì)算機(jī)學(xué)報(bào);2012年11期
4 ;A new algorithm for fast mining frequent itemsets using N-lists[J];Science China(Information Sciences);2012年09期
5 廖國瓊;吳凌琴;萬常選;;基于概率衰減窗口模型的不確定數(shù)據(jù)流頻繁模式挖掘[J];計(jì)算機(jī)研究與發(fā)展;2012年05期
6 敖富江;王濤;劉寶宏;黃柯棣;;CBC-DS:基于頻繁閉模式的數(shù)據(jù)流分類算法[J];計(jì)算機(jī)研究與發(fā)展;2009年05期
7 李國徽;陳輝;;挖掘數(shù)據(jù)流任意滑動(dòng)時(shí)間窗口內(nèi)頻繁模式[J];軟件學(xué)報(bào);2008年10期
8 王鵬,吳曉晨,王晨,汪衛(wèi),施伯樂;CAPE——數(shù)據(jù)流上的基于頻繁模式的分類算法[J];計(jì)算機(jī)研究與發(fā)展;2004年10期
,本文編號:1627639
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1627639.html