核密度估計的聚類算法
發(fā)布時間:2020-01-18 07:27
【摘要】:相似性度量是聚類分析的重要基礎,如何有效衡量類屬型符號間的相似性是相似性度量的一個難點.文中根據(jù)離散符號的核概率密度衡量符號間的相似性,與傳統(tǒng)的簡單符號匹配及符號頻度估計方法不同,該相似性度量在核函數(shù)帶寬的作用下,不再依賴同一屬性上符號間獨立性假設.隨后建立類屬型數(shù)據(jù)的貝葉斯聚類模型,定義基于似然的類屬型對象-簇間相似性度量,給出基于模型的聚類算法.采用留一估計和最大似然估計,提出3種求解方法在聚類過程中動態(tài)確定最優(yōu)的核帶寬.實驗表明,相比使用特征加權或簡單匹配距離的聚類算法,文中算法可以獲得更高的聚類精度,估計的核函數(shù)帶寬在重要特征識別等應用中具有實際意義.
【圖文】:
?]為帶寬,Xd為對應簇ck屬性d的離散隨機變量.符號xd的概率密度可以使用如下核密度估計:^p(xd;bkd)=1nk∑y∈ckκ(xdyd;bkd)=bkdmd+(1-bkd)fk(xd),(3)其中fk(xd)=1nk∑y∈ckI(xd=yd),(4)為符號xd在ck第d個屬性上的頻度估計.由于核函數(shù)實質(zhì)上是一種相似性度量[12,,18],只要給定恰當?shù)膸,符?包括不同符號和相同符號)間的相似性可以通過KDE計算.使用KDE估計離散符號概率密度的實例如圖1所示,帶寬值體現(xiàn)各符號概率分布的平滑程度.圖1核密度估計的例子Fig.1Exampleforkerneldensityestimation由式(2)可知,當帶寬bkd≠0,對于2個不同的符號s≠s',有κ(ss';bkd)>0,這個特點是傳統(tǒng)“非此即彼”型符號匹配方法[4,8-9]不具備的.在這個度量中,符號間的距離不再依賴于符號的簡單匹配,而是根據(jù)它們(視為離散隨機變量Xd的觀測值)概率密度的差異以衡量.式(2)還表明,這實際上是一種條件概率,由此定義的距離度量不受符號間獨立假設的限制,但取決于帶寬bkd的值.如何在數(shù)據(jù)驅(qū)動方式下估計最優(yōu)核函數(shù)帶寬是現(xiàn)階段研究和應用KDE的難點問題[14,16-17].如式(3)所示,核密度估計器需滿足漸進性質(zhì)[14,16],當nk→!時^p(xd;bkd)應為p(xdk)的一致估計(ConsistentEstimator).使用式(2)等核函數(shù)時,該性質(zhì)要求nk→!時bkd→0,^p(xd;bkd)退化為頻度估計,根據(jù)大數(shù)定理,該估計為p(xdk)的一致估計.2核密度估計的類屬型數(shù)據(jù)聚類2.1聚類模型及其優(yōu)化基于概率模型的聚類算法以最大化樣本(相對于其所在簇)的似然
閂嘀蠆話閂噌舳
本文編號:2570758
【圖文】:
?]為帶寬,Xd為對應簇ck屬性d的離散隨機變量.符號xd的概率密度可以使用如下核密度估計:^p(xd;bkd)=1nk∑y∈ckκ(xdyd;bkd)=bkdmd+(1-bkd)fk(xd),(3)其中fk(xd)=1nk∑y∈ckI(xd=yd),(4)為符號xd在ck第d個屬性上的頻度估計.由于核函數(shù)實質(zhì)上是一種相似性度量[12,,18],只要給定恰當?shù)膸,符?包括不同符號和相同符號)間的相似性可以通過KDE計算.使用KDE估計離散符號概率密度的實例如圖1所示,帶寬值體現(xiàn)各符號概率分布的平滑程度.圖1核密度估計的例子Fig.1Exampleforkerneldensityestimation由式(2)可知,當帶寬bkd≠0,對于2個不同的符號s≠s',有κ(ss';bkd)>0,這個特點是傳統(tǒng)“非此即彼”型符號匹配方法[4,8-9]不具備的.在這個度量中,符號間的距離不再依賴于符號的簡單匹配,而是根據(jù)它們(視為離散隨機變量Xd的觀測值)概率密度的差異以衡量.式(2)還表明,這實際上是一種條件概率,由此定義的距離度量不受符號間獨立假設的限制,但取決于帶寬bkd的值.如何在數(shù)據(jù)驅(qū)動方式下估計最優(yōu)核函數(shù)帶寬是現(xiàn)階段研究和應用KDE的難點問題[14,16-17].如式(3)所示,核密度估計器需滿足漸進性質(zhì)[14,16],當nk→!時^p(xd;bkd)應為p(xdk)的一致估計(ConsistentEstimator).使用式(2)等核函數(shù)時,該性質(zhì)要求nk→!時bkd→0,^p(xd;bkd)退化為頻度估計,根據(jù)大數(shù)定理,該估計為p(xdk)的一致估計.2核密度估計的類屬型數(shù)據(jù)聚類2.1聚類模型及其優(yōu)化基于概率模型的聚類算法以最大化樣本(相對于其所在簇)的似然
閂嘀蠆話閂噌舳
本文編號:2570758
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2570758.html
最近更新
教材專著