演化的數(shù)據(jù)流聚類算法研究
發(fā)布時間:2022-01-22 17:15
作為數(shù)據(jù)挖掘領(lǐng)域的一大分支,數(shù)據(jù)流挖掘一直是一大研究熱點,現(xiàn)有的一些成果也已經(jīng)在理論研究和實際應(yīng)用中做出了重要的貢獻。數(shù)據(jù)流挖掘的關(guān)鍵特征是通過一次掃描從海量,連續(xù),動態(tài)演化的數(shù)據(jù)流中實時提取有價值的知識。然而,絕大多數(shù)算法都建立在數(shù)據(jù)有完整標(biāo)簽的基礎(chǔ)上,且對數(shù)據(jù)流的演化形式(如,概念漂移,概念演化,特征演化等)有較強的假設(shè),這極大地限制了數(shù)據(jù)流挖掘在實際場景中應(yīng)用的廣度和深度。因此,建立可靠的自適應(yīng)聚類算法,使之能夠有效應(yīng)用于標(biāo)簽缺失的場景,并且對多種演化形式能快速適應(yīng)及學(xué)習(xí),是當(dāng)前數(shù)據(jù)流挖掘領(lǐng)域的一個重要任務(wù)。本文的主要工作包括對概念演化數(shù)據(jù)流進行自適應(yīng)的無監(jiān)督學(xué)習(xí)以及對復(fù)雜的數(shù)據(jù)流進行特征演化的學(xué)習(xí),本文的工作內(nèi)容和主要創(chuàng)新點主要為以下三個方面:第一,針對概念演化數(shù)據(jù)流中滑動窗口(或衰減速率)不合適導(dǎo)致聚類表現(xiàn)變差以及聚類結(jié)果不能正確反映當(dāng)前數(shù)據(jù)分布的問題,本文首次提出聚類生命周期的概念,并基于此提出聚類生命周期學(xué)習(xí)(CLL)算法,為每一個類在數(shù)據(jù)流中出現(xiàn)的時間和消亡的時間進行有效的預(yù)測。該算法通過為每一個帶權(quán)微簇自適應(yīng)地學(xué)習(xí)一個遺忘函數(shù)來調(diào)整微簇權(quán)重的衰減速率,加速組成過時概念...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:87 頁
【學(xué)位級別】:碩士
【部分圖文】:
概念漂移過程示例
第二章數(shù)據(jù)流聚類理論基礎(chǔ)圖2-1概念漂移過程示例。以二分類任務(wù)為例,實線(當(dāng)前的分類超平面)發(fā)生偏移表示當(dāng)前的數(shù)據(jù)的概念發(fā)生了漂移圖2-2概念演化過程示例。不同顏色的圈用來跟蹤同一個類(概念)的演化:黃色的類發(fā)生了合并,紫色的類發(fā)生了分裂,藍(lán)色的類發(fā)生了擴張,綠色的類先縮小后消失,粉色的類出現(xiàn)般來說,距離當(dāng)前時刻越近的數(shù)據(jù)越能反映當(dāng)前數(shù)據(jù)流數(shù)據(jù)分布及變化趨勢,而對于很久以前的數(shù)據(jù),要采用衰減機制來“遺忘”它們,避免離群點的影響。如果我們把過時數(shù)據(jù)和當(dāng)前數(shù)據(jù)看得一樣重要,這樣將無法有效挖掘出數(shù)據(jù)的演化特征。數(shù)據(jù)流挖掘中的衰減模型通常可以分為兩類:基于窗口的模型和基于衰減函數(shù)的模型;诖翱诘哪P停夯诖翱诘哪P妥畛醯母拍钍菍(shù)據(jù)流劃分成一個個大小11
電子科技大學(xué)碩士學(xué)位論文圖2-3滑動窗口模型[63]相同的數(shù)據(jù)塊,每次只針對數(shù)據(jù)塊中的數(shù)據(jù)進行學(xué)習(xí)與建模。然而這種不連貫的方式其實是將流式數(shù)據(jù)當(dāng)作靜態(tài)數(shù)據(jù)來處理,很大程度上破壞了數(shù)據(jù)流的連貫性,不僅對窗口大小的設(shè)置有很高的要求,而且對演化的檢測和跟蹤有很大的延遲,不能做出及時的應(yīng)對措施。人們很快提出了滑動窗口的模型,在該模型中,只有最近的信息完整地保存在數(shù)據(jù)結(jié)構(gòu)中以供挖掘。這種數(shù)據(jù)結(jié)構(gòu)是一種類似隊列的“先進先出”的結(jié)構(gòu),考慮的是從當(dāng)前時刻到過去某一個固定時間段內(nèi)的所有數(shù)據(jù),如圖2-3展現(xiàn)了滑動窗口的一個例子。很多數(shù)據(jù)流聚類算法都采用了滑動窗口的模型,然而這種模型雖然簡單,但是仍面臨很多問題。首先,傳統(tǒng)方法中滑動窗口的長度通常是固定的,對窗口內(nèi)的每個數(shù)據(jù)對象都是平等對待,每個對象的壽命都是相同的。這對一個窗口中相對重要的數(shù)據(jù)來說是不公平的。其次,滑動窗口大小的設(shè)置往往不是可靠的先驗知識,我們很難去對其進行有效的估計。以數(shù)據(jù)流聚類為例,如圖2-4所示,不同大小的滑動窗口會導(dǎo)致不同的聚類結(jié)果。通常,用戶在沒有解決方案的情況下會陷入一種權(quán)衡:選擇一個小的窗口以便準(zhǔn)確反映當(dāng)前的數(shù)據(jù)分布和選擇一個大的窗口以便處理更多的數(shù)據(jù),在穩(wěn)定的時期增加準(zhǔn)確性。為了改進滑動窗口的這一缺陷,文獻[38]中提出了一種自適應(yīng)調(diào)節(jié)窗口大小的算法(ADWIN)來處理演化數(shù)據(jù)流中分布變化和概念漂移。在該算法中,滑動窗口的大小根據(jù)從窗口本身的數(shù)據(jù)觀察到的變化速率重新計算,它的計算方法遵循以下的規(guī)則:當(dāng)數(shù)據(jù)穩(wěn)定時,為了獲得更高的準(zhǔn)確性,窗口將自動增長;當(dāng)檢測到發(fā)生演化時,窗口將自動收縮,從發(fā)生演化處截斷,然后丟棄過時的數(shù)據(jù)。后來,由于ADWIN算法的時間效率不高,有學(xué)者在ADWIN的基
本文編號:3602590
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:87 頁
【學(xué)位級別】:碩士
【部分圖文】:
概念漂移過程示例
第二章數(shù)據(jù)流聚類理論基礎(chǔ)圖2-1概念漂移過程示例。以二分類任務(wù)為例,實線(當(dāng)前的分類超平面)發(fā)生偏移表示當(dāng)前的數(shù)據(jù)的概念發(fā)生了漂移圖2-2概念演化過程示例。不同顏色的圈用來跟蹤同一個類(概念)的演化:黃色的類發(fā)生了合并,紫色的類發(fā)生了分裂,藍(lán)色的類發(fā)生了擴張,綠色的類先縮小后消失,粉色的類出現(xiàn)般來說,距離當(dāng)前時刻越近的數(shù)據(jù)越能反映當(dāng)前數(shù)據(jù)流數(shù)據(jù)分布及變化趨勢,而對于很久以前的數(shù)據(jù),要采用衰減機制來“遺忘”它們,避免離群點的影響。如果我們把過時數(shù)據(jù)和當(dāng)前數(shù)據(jù)看得一樣重要,這樣將無法有效挖掘出數(shù)據(jù)的演化特征。數(shù)據(jù)流挖掘中的衰減模型通常可以分為兩類:基于窗口的模型和基于衰減函數(shù)的模型;诖翱诘哪P停夯诖翱诘哪P妥畛醯母拍钍菍(shù)據(jù)流劃分成一個個大小11
電子科技大學(xué)碩士學(xué)位論文圖2-3滑動窗口模型[63]相同的數(shù)據(jù)塊,每次只針對數(shù)據(jù)塊中的數(shù)據(jù)進行學(xué)習(xí)與建模。然而這種不連貫的方式其實是將流式數(shù)據(jù)當(dāng)作靜態(tài)數(shù)據(jù)來處理,很大程度上破壞了數(shù)據(jù)流的連貫性,不僅對窗口大小的設(shè)置有很高的要求,而且對演化的檢測和跟蹤有很大的延遲,不能做出及時的應(yīng)對措施。人們很快提出了滑動窗口的模型,在該模型中,只有最近的信息完整地保存在數(shù)據(jù)結(jié)構(gòu)中以供挖掘。這種數(shù)據(jù)結(jié)構(gòu)是一種類似隊列的“先進先出”的結(jié)構(gòu),考慮的是從當(dāng)前時刻到過去某一個固定時間段內(nèi)的所有數(shù)據(jù),如圖2-3展現(xiàn)了滑動窗口的一個例子。很多數(shù)據(jù)流聚類算法都采用了滑動窗口的模型,然而這種模型雖然簡單,但是仍面臨很多問題。首先,傳統(tǒng)方法中滑動窗口的長度通常是固定的,對窗口內(nèi)的每個數(shù)據(jù)對象都是平等對待,每個對象的壽命都是相同的。這對一個窗口中相對重要的數(shù)據(jù)來說是不公平的。其次,滑動窗口大小的設(shè)置往往不是可靠的先驗知識,我們很難去對其進行有效的估計。以數(shù)據(jù)流聚類為例,如圖2-4所示,不同大小的滑動窗口會導(dǎo)致不同的聚類結(jié)果。通常,用戶在沒有解決方案的情況下會陷入一種權(quán)衡:選擇一個小的窗口以便準(zhǔn)確反映當(dāng)前的數(shù)據(jù)分布和選擇一個大的窗口以便處理更多的數(shù)據(jù),在穩(wěn)定的時期增加準(zhǔn)確性。為了改進滑動窗口的這一缺陷,文獻[38]中提出了一種自適應(yīng)調(diào)節(jié)窗口大小的算法(ADWIN)來處理演化數(shù)據(jù)流中分布變化和概念漂移。在該算法中,滑動窗口的大小根據(jù)從窗口本身的數(shù)據(jù)觀察到的變化速率重新計算,它的計算方法遵循以下的規(guī)則:當(dāng)數(shù)據(jù)穩(wěn)定時,為了獲得更高的準(zhǔn)確性,窗口將自動增長;當(dāng)檢測到發(fā)生演化時,窗口將自動收縮,從發(fā)生演化處截斷,然后丟棄過時的數(shù)據(jù)。后來,由于ADWIN算法的時間效率不高,有學(xué)者在ADWIN的基
本文編號:3602590
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3602590.html
最近更新
教材專著