天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

符號數(shù)據(jù)聚類算法研究及應(yīng)用

發(fā)布時間:2024-03-19 05:32
  聚類分析作為數(shù)據(jù)挖掘的一個重要方法,被廣泛應(yīng)用在模式識別、Web搜索、圖像處理等領(lǐng)域。迄今為止,大多數(shù)聚類算法針對數(shù)值型數(shù)據(jù),然而現(xiàn)實世界中,存在著大量的符號數(shù)據(jù),包括結(jié)構(gòu)化的符號屬性(類屬型)數(shù)據(jù)和非結(jié)構(gòu)化的符號序列數(shù)據(jù)。由于符號數(shù)據(jù)離散取值的特點,無法直接將現(xiàn)有的數(shù)值型數(shù)據(jù)聚類算法應(yīng)用到符號數(shù)據(jù)。因此,符號數(shù)據(jù)的聚類算法研究成為一個非常重要的研究內(nèi)容,對完善數(shù)據(jù)挖掘理論以及拓展聚類的應(yīng)用都有著重要的意義。本文對符號數(shù)據(jù)聚類分析中的若干問題進行了研究,包括挖掘類屬型數(shù)據(jù)間非線性關(guān)系的核子空間聚類算法、符號序列數(shù)據(jù)的聚類算法以及針對符號序列中噪聲數(shù)據(jù)和類不平衡數(shù)據(jù)(非均勻數(shù)據(jù))的魯棒概率框架。本文的主要研究工作有:1.針對目前類屬型數(shù)據(jù)聚類算法大多基于特征間相互獨立的假設(shè),未考慮屬性間存在的線性或非線性相關(guān)性關(guān)系,提出了類屬型數(shù)據(jù)核子空間聚類算法。該算法引入原作用于連續(xù)型數(shù)據(jù)的核函數(shù)將類屬型數(shù)據(jù)投影到核空間,定義了核空間中特征加權(quán)的類屬型數(shù)據(jù)相似性度量;基于該度量推導(dǎo)了類屬型數(shù)據(jù)核子空間聚類目標(biāo)函數(shù),提出一種高效求解該目標(biāo)函數(shù)的優(yōu)化方法并定義了一種類屬型數(shù)據(jù)核子空間聚類算法,該算法不僅...

【文章頁數(shù)】:67 頁

【學(xué)位級別】:碩士

【部分圖文】:

圖1-1聚類過程??

圖1-1聚類過程??

數(shù)據(jù)集劃分成不同的??簇獲得數(shù)據(jù)中隱藏的有價值信息。數(shù)據(jù)集可符號化為徹ixm,你}其中iV為??樣本數(shù)目。1=<11,12,...而....,功>表示任意一個樣本,第/(7'=1,2,...,?'/)個樣本的第7維屬??性(/=1,2,...刀)為^。在硬聚類算法中,2)5通常被....


圖2-1不同0值下屬性權(quán)重的分析??2.4.2聚絲效性指標(biāo)??

圖2-1不同0值下屬性權(quán)重的分析??2.4.2聚絲效性指標(biāo)??

?第二章類屬型數(shù)據(jù)核子空間聚類算法???法是收斂的。??2.4.1關(guān)于參數(shù)設(shè)的討論??在KSCC聚類過程中,通過核函數(shù)直接度量數(shù)據(jù)間的相似性,在核空間中每個??屬性都被自動賦予一個衡量其重要程度的權(quán)值,通過特征選擇尋找到相應(yīng)的子空間。??根據(jù)公式(9),簇to中屬性^的權(quán)值計算為....


圖2-4原空間中樣本分布

圖2-4原空間中樣本分布

,由于DataSetl中只有兩個屬性相關(guān),所以除KKM[35]2外,??其余算法聚類質(zhì)量相差不大,KSCC相比KKM[35]由于進行特征選擇識別出重要的屬??性3與屬性4,聚類結(jié)果明顯較好;從DataSet2和DataSet3中可以看出,隨著屬性??相關(guān)的數(shù)目增多,KSCC的聚類....


圖2 ̄8不同算法在Breastcancer上獨立運行的F-Score指標(biāo)對比??所提算法以及對比算法分別在真實數(shù)據(jù)集上運行200次花費的平均時間如圖2-??

圖2 ̄8不同算法在Breastcancer上獨立運行的F-Score指標(biāo)對比??所提算法以及對比算法分別在真實數(shù)據(jù)集上運行200次花費的平均時間如圖2-??

?福建師范大學(xué)碩士學(xué)位論文???予它們較大的權(quán)重,進一步的說明了核子空間聚類的優(yōu)勢。??以Breastcancer為例,圖2-8給出了各類算法運行100次的聚類精度分布,橫坐??標(biāo)代表各算法運行的次數(shù),縱坐標(biāo)是以F-Score指標(biāo)衡量每次聚類獲得的聚類結(jié)果。??如圖2-8所示,K....



本文編號:3932401

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3932401.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶be4a0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com