面向混合數(shù)據(jù)集的聚類方法研究
發(fā)布時間:2021-01-19 05:31
同時包含數(shù)值型和分類型的混合型數(shù)據(jù)集在各個領(lǐng)域中普遍存在,包括醫(yī)學、生物學、金融業(yè)等。由于分類型和數(shù)值型數(shù)據(jù)具有不同的特性,在對未標記的數(shù)據(jù)進行聚類時,兩種類型的數(shù)據(jù)需要區(qū)別對待,設(shè)計適當?shù)南嗨菩曰蛳喈愋远攘糠椒ㄆ鹬匾淖饔谩榱耸箖煞N類型的數(shù)據(jù)可以統(tǒng)一處理,本文從兩個角度提出了處理混合型數(shù)據(jù)的聚類算法。1)基于單純形向量映射的聚類算法:首先,基于單純形理論,將分類型屬性數(shù)據(jù)映射到數(shù)值向量上,并通過理論證明同一屬性的任意值映射后的向量在歐氏距離下距離相同,這樣,分類型屬性數(shù)據(jù)轉(zhuǎn)換為了數(shù)值型屬性數(shù)據(jù)。然后,將轉(zhuǎn)換后的純數(shù)值型數(shù)據(jù)應用到K-Means算法框架。實驗結(jié)果表明:在UCI的4個分類型數(shù)據(jù)集上,基于單純形向量映射的聚類算法與Ng的K-modes算法、Cao的K-modes算法和傳統(tǒng)向量映射聚類算法相比,將聚類結(jié)果的準確度分別提高了1.72%,2.74%和1.86%;在4個混合型數(shù)據(jù)集上的平均聚類準確度上,基于單純形向量映射的聚類算法較傳統(tǒng)映射聚類算法和K-Prototype算法分別提高了2.68%和2.22%。2)基于熵加權(quán)的聚類算法:首先,通過離散化策略將數(shù)值型屬性數(shù)據(jù)離散化;...
【文章來源】:合肥工業(yè)大學安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【部分圖文】:
聚類分析過程處理Fig2.1Clusteranalysisprocess
第三章 基于單純形向量映射的聚類算法第三章 基于單純形向量映射的聚類算法了統(tǒng)一處理分類型屬性和數(shù)值型屬性的混合數(shù)據(jù)集,本章提出了一向量映射的聚類算法,首先根據(jù)單純形理論提出向量映射策略,將映射到數(shù)值向量上,這樣,混合數(shù)據(jù)集轉(zhuǎn)換為了純數(shù)值型數(shù)據(jù)集,用針對純數(shù)值型數(shù)據(jù)集的聚類算法來處理,為了考察本章提出的單在聚類分析中的作用,本章選用最經(jīng)典的 K-Means 算法來對轉(zhuǎn)換后聚類。算法流程圖如圖 3.1 所示。
第三章 基于單純形向量映射的聚類算法‖apl aql‖ ( ¤ ¥ ) 個解,為了簡化計算結(jié)果,要找出維度最小的向于一個具有¢個值的分類型屬性,為了保證任意的維數(shù)至少為¢ 。的¢個向量可以形成¢ 維的正則單純形,每個中,¢維空間中只存在一種正則單純形,記為¢維,62]。因此,在¢ 維正則單純形存在于¢ 維畢。.1,屬性 的各個分類值可以映射到 維空間維數(shù)為¢ 。 2 維正則單純形(左圖)和 3 維正則單純形(三角形,右圖是一個正四面體。
【參考文獻】:
期刊論文
[1]融合單純形映射與熵加權(quán)的聚類方法[J]. 安寧,江思源,唐晨,楊矯云. 計算機工程與應用. 2020(09)
[2]基于分層聚類算法的地區(qū)風電出力典型場景選取方法[J]. 林俐,費宏運,劉汝琛,潘險險. 電力系統(tǒng)保護與控制. 2018(07)
[3]一種適用于混合型分類數(shù)據(jù)的聚類算法[J]. 林強,唐加山. 計算機工程與應用. 2019(01)
[4]基于泛化能力的K-均值最佳聚類數(shù)確定方法[J]. 張雄,趙禮峰. 計算機技術(shù)與發(fā)展. 2017(09)
[5]優(yōu)化加權(quán)核K-means聚類初始中心點的SLIC算法[J]. 楊艷,許道云. 計算機科學與探索. 2018(03)
[6]屬性加權(quán)的類屬型數(shù)據(jù)非模聚類[J]. 陳黎飛,郭躬德. 軟件學報. 2013(11)
[7]數(shù)據(jù)挖掘中的數(shù)據(jù)預處理[J]. 劉明吉,王秀峰,黃亞樓. 計算機科學. 2000(04)
博士論文
[1]數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究[D]. 毛國君.北京工業(yè)大學 2003
碩士論文
[1]基于遺傳算法的并行化K-means聚類算法研究[D]. 馬通.浙江理工大學 2018
[2]K-均值聚類算法初始中心選取相關(guān)問題的研究[D]. 吳曉蓉.湖南大學 2008
[3]分類屬性數(shù)據(jù)聚類算法研究[D]. 王敏.江蘇大學 2008
本文編號:2986428
【文章來源】:合肥工業(yè)大學安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【部分圖文】:
聚類分析過程處理Fig2.1Clusteranalysisprocess
第三章 基于單純形向量映射的聚類算法第三章 基于單純形向量映射的聚類算法了統(tǒng)一處理分類型屬性和數(shù)值型屬性的混合數(shù)據(jù)集,本章提出了一向量映射的聚類算法,首先根據(jù)單純形理論提出向量映射策略,將映射到數(shù)值向量上,這樣,混合數(shù)據(jù)集轉(zhuǎn)換為了純數(shù)值型數(shù)據(jù)集,用針對純數(shù)值型數(shù)據(jù)集的聚類算法來處理,為了考察本章提出的單在聚類分析中的作用,本章選用最經(jīng)典的 K-Means 算法來對轉(zhuǎn)換后聚類。算法流程圖如圖 3.1 所示。
第三章 基于單純形向量映射的聚類算法‖apl aql‖ ( ¤ ¥ ) 個解,為了簡化計算結(jié)果,要找出維度最小的向于一個具有¢個值的分類型屬性,為了保證任意的維數(shù)至少為¢ 。的¢個向量可以形成¢ 維的正則單純形,每個中,¢維空間中只存在一種正則單純形,記為¢維,62]。因此,在¢ 維正則單純形存在于¢ 維畢。.1,屬性 的各個分類值可以映射到 維空間維數(shù)為¢ 。 2 維正則單純形(左圖)和 3 維正則單純形(三角形,右圖是一個正四面體。
【參考文獻】:
期刊論文
[1]融合單純形映射與熵加權(quán)的聚類方法[J]. 安寧,江思源,唐晨,楊矯云. 計算機工程與應用. 2020(09)
[2]基于分層聚類算法的地區(qū)風電出力典型場景選取方法[J]. 林俐,費宏運,劉汝琛,潘險險. 電力系統(tǒng)保護與控制. 2018(07)
[3]一種適用于混合型分類數(shù)據(jù)的聚類算法[J]. 林強,唐加山. 計算機工程與應用. 2019(01)
[4]基于泛化能力的K-均值最佳聚類數(shù)確定方法[J]. 張雄,趙禮峰. 計算機技術(shù)與發(fā)展. 2017(09)
[5]優(yōu)化加權(quán)核K-means聚類初始中心點的SLIC算法[J]. 楊艷,許道云. 計算機科學與探索. 2018(03)
[6]屬性加權(quán)的類屬型數(shù)據(jù)非模聚類[J]. 陳黎飛,郭躬德. 軟件學報. 2013(11)
[7]數(shù)據(jù)挖掘中的數(shù)據(jù)預處理[J]. 劉明吉,王秀峰,黃亞樓. 計算機科學. 2000(04)
博士論文
[1]數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究[D]. 毛國君.北京工業(yè)大學 2003
碩士論文
[1]基于遺傳算法的并行化K-means聚類算法研究[D]. 馬通.浙江理工大學 2018
[2]K-均值聚類算法初始中心選取相關(guān)問題的研究[D]. 吳曉蓉.湖南大學 2008
[3]分類屬性數(shù)據(jù)聚類算法研究[D]. 王敏.江蘇大學 2008
本文編號:2986428
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2986428.html
最近更新
教材專著