面向分類型數據的模糊聚類算法研究
發(fā)布時間:2020-11-18 10:21
隨著信息技術在工業(yè)界的迅猛發(fā)展,數據的規(guī)模與人們獲取的數據也與日俱增,對這些海量數據的處理已成為近來年備受關注的問題。數據挖掘作為一種通用的知識發(fā)現技術,是在海量數據中發(fā)現數據間內在關系的過程。聚類分析技術是數據挖掘中對數據處理的一種重要方法。由于數據不斷呈現出屬性類型的多樣性、規(guī)模的海量性、分布的不均勻性,不同的數據類型需要不同的聚類算法。目前,對數值型數據的聚類分析取得很多的成果,而在實際應用中存在大量的分類型數據。由于分類型數據不具有數值型數據固有的幾何特性,因而在聚類算法和模型上與數值型數據有較大不同,近年來針對分類型數據聚類算法的研究得到了廣泛的關注。模糊聚類通過將模糊集理論應用到聚類分析中,提高對數據的模糊處理能力,能較為清晰、客觀地反映現實事物,因而在許多領域被廣泛應用。模糊k-modes(FKM)算法是模糊聚類中備受關注的一種算法,具有局部尋優(yōu)能力強且收斂速度快的特點,成為分類型數據模糊聚類算法關注的熱點。但FKM算法對初始中心點的選取較為敏感,算法以不同的初始中心進行聚類會得到不同的結果,影響最終的聚類結果。此外FKM算法由于采用迭代的搜索技術,同時解空間內存在大量局部最優(yōu)點,因此易陷入局部最優(yōu),而無法得到全局最優(yōu)。針對以上問題,本文開展了以下工作:(1)提出結合離群點檢測的初始中心選擇算法。針對FKM算法對初始中心選取敏感這一問題,通過調整初始中心選擇過程中距離與密度之間的關系,加大初始中心選擇中距離所占的權重,使得尋找到的初始中心更具有分布性。同時,引入基于距離的離群點檢測技術,對改進初始中心選擇后得到的候選數據集進行篩選,將候選數據集中的離群度較大的點剔除。實驗結果表明,改進的初始中心選擇方法提高FKM算法的準確率與精度,降低FKM算法對初始中心選取的敏感程度。(2)提出基于改進遺傳算法的模糊聚類算法(IGAFKM)。將遺傳算法與模糊聚類算法相結合,利用遺傳算法的隨機搜索提高模糊k-modes算法的全局尋優(yōu)能力,加快算法的收斂速度。遺傳算法是一種全局優(yōu)化算法,通過模擬自然界生物的進化過程搜索問題的最優(yōu)解,具有算法簡單,搜索范圍廣泛的特點。根據種群中個體的多樣性,對遺傳算法的交叉與變異算子進行動態(tài)調整,以保證整個種群的多樣性,避免算法收斂到局部最優(yōu),加快算法向全局最優(yōu)點的收斂過程,從而提高FKM算法的全局尋優(yōu)能力。實驗結果表明,改進遺傳算法的模糊聚類算法(IGAFKM)與FKM算法,傳統(tǒng)遺傳模糊聚類算法(GAFKM)相比在收斂速度上有所提升,同時IGAFKM算法的準確率也優(yōu)于FKM算法與傳統(tǒng)遺傳模糊聚類算法(GAFKM)算法。
【學位單位】:西南大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP311.13
【部分圖文】:
圖 4-2 算法運行時間與數據量之間的關系從實驗結果可以看出 FKM 算法的目標函數平均值較大,過早的收斂到局部最優(yōu)值,GA-FKM 算法增強了全局搜索能力,較 FKM 算法相比提高了全局尋優(yōu)能力,IGAFKM 算法在計算速度和效率上與 FKM 算法,GA-FKM 算法相比更為突出,IGAFKM 算法較 GA-FKM 算法相比提高了全局尋優(yōu)能力,取到了目標函數的全局最小值。經過初始中心選取后,降低了算法對初始中心的依賴程度,提高了算法的準確率,同時由于對遺傳操作中交叉和變異算子的自適應調整,增強了種群的多樣性,使得算法收斂到全局最優(yōu)解的能力大大加強,加快了算法的收斂速度。FKM 算法與 IGAFKM 算法隨著種群數目的增大,所需的處理時間也隨之增加,在處理相同數據的情況下,IGAFKM 算法由于全局搜索能力的提高,又加入了初始中心的選擇過程,在處理相同數據量的數據時需要更多的時間。4.10 小結
【參考文獻】
本文編號:2888611
【學位單位】:西南大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP311.13
【部分圖文】:
圖 4-2 算法運行時間與數據量之間的關系從實驗結果可以看出 FKM 算法的目標函數平均值較大,過早的收斂到局部最優(yōu)值,GA-FKM 算法增強了全局搜索能力,較 FKM 算法相比提高了全局尋優(yōu)能力,IGAFKM 算法在計算速度和效率上與 FKM 算法,GA-FKM 算法相比更為突出,IGAFKM 算法較 GA-FKM 算法相比提高了全局尋優(yōu)能力,取到了目標函數的全局最小值。經過初始中心選取后,降低了算法對初始中心的依賴程度,提高了算法的準確率,同時由于對遺傳操作中交叉和變異算子的自適應調整,增強了種群的多樣性,使得算法收斂到全局最優(yōu)解的能力大大加強,加快了算法的收斂速度。FKM 算法與 IGAFKM 算法隨著種群數目的增大,所需的處理時間也隨之增加,在處理相同數據的情況下,IGAFKM 算法由于全局搜索能力的提高,又加入了初始中心的選擇過程,在處理相同數據量的數據時需要更多的時間。4.10 小結
【參考文獻】
相關期刊論文 前10條
1 張永庫;尹靈雪;孫勁光;;基于改進的遺傳算法的模糊聚類算法[J];智能系統(tǒng)學報;2015年04期
2 王穎潔;;模糊聚類分析在數據挖掘中的應用研究[J];大連大學學報;2011年03期
3 王小姣;徐夫田;單國杰;;模糊C-均值聚類算法的改進[J];微型機與應用;2010年12期
4 朱永春;萬敏;;淺析數據挖掘技術[J];電腦知識與技術;2010年02期
5 宋嬌;葛臨東;;一種遺傳模糊聚類算法及其應用[J];計算機應用;2008年05期
6 趙鋒;薛惠鋒;王偉;;基于復合形遺傳算法的K-means優(yōu)化聚類方法[J];航空計算技術;2006年05期
7 何大闊;王福利;毛志忠;;遺傳算法在離散變量優(yōu)化問題中的應用研究[J];系統(tǒng)仿真學報;2006年05期
8 張偉;周霆;陳蕓;鄒漢斌;;動態(tài)的模糊K-Modes初始化算法[J];計算機工程與設計;2006年04期
9 王家耀;張雪萍;周海燕;;一個用于空間聚類分析的遺傳K-均值算法[J];計算機工程;2006年03期
10 任子武;傘冶;;自適應遺傳算法的改進及在系統(tǒng)辨識中應用研究[J];系統(tǒng)仿真學報;2006年01期
本文編號:2888611
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2888611.html