非獨立同分布下的K中心點算法研究
發(fā)布時間:2021-10-21 22:48
隨著科技的不斷發(fā)展,數據挖掘成為當下幫助用戶從大量的數據中提取出有效信息的重要手段,與此同時,作為數據挖掘中重要分支的聚類分析也越來越受到各方面的關注。K-中心點算法是聚類分析中具有代表性的算法之一,克服了K-均值算法對于孤立點較為敏感的缺點,具有較強的魯棒性,但是K-中心點算法仍在某些方面存在缺陷,例如,算法中的相似性度量大多采用距離的度量方式,這種方式均假設數據對象及屬性之間是獨立同分布的,但實際情況中,數據對象及屬性之間是非獨立同分布的,因此,K-中心點算法的相似性度量方式有待改進;除此之外,K-中心點算法本身時間復雜度較大,初始中心點的選取對算法而言尤為重要。為提高算法的聚類效果與運行效率,本文對此進行了如下改進:針對K-中心點算法的度量方式為假設數據對象及屬性之間是獨立同分布的缺點,本文引入了無監(jiān)督學習中的名義耦合相似性計算方法,用非獨立同分布計算公式對傳統(tǒng)歐氏距離計算相似度方法進行了替換,同時,由于此公式主要計算依據為屬性值的頻率,但數值型數據對于頻率并不敏感,因此,針對數值型數據,本文在引入公式之前,將數值型數據按屬性列根據歐氏距離進行聚類與替換,設計了NI-PAM算法,...
【文章來源】: 韓冰 齊魯工業(yè)大學
【文章頁數】:75 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景及意義
1.2 國內外研究現狀
1.3 論文研究工作
1.3.1 論文的內容組織
第2章 聚類分析技術與非獨立同分布概述
2.1 數據挖掘技術概述
2.1.1 數據挖掘系統(tǒng)的主要功能
2.1.2 數據挖掘的步驟
2.2 聚類分析技術概述
2.3 聚類的主要過程
2.4 主要聚類方法的分類
2.4.1 基于層次的聚類方法
2.4.2 基于劃分的聚類方法
2.4.3 基于密度的聚類方法
2.4.4 基于網格的聚類方法
2.4.5 基于模型的聚類方法
2.4.6 其它熱點聚類算法
2.5 現有聚類分析技術的挑戰(zhàn)
2.6 非獨立同分布學習
2.7 非獨立同分布思想的典型應用
2.8 非獨立同分布層次介紹
2.9 K-中心點算法中的耦合關系
2.10 本章小結
第3章 NI-PAM算法的設計與分析
3.1 PAM算法介紹
3.2 現有相似性度量計算方法
3.3 非獨立同分布下的耦合相似度
3.3.1 內部耦合相似度
3.3.2 外部耦合相似度
3.3.3 總體耦合相似度
3.3.4 數據對象間耦合相似度
3.4 非獨立同分布環(huán)境下的NI-PAM算法
3.5 NI-PAM算法步驟
3.6 實驗結果與分析
3.6.1 實驗數據集介紹
3.6.2 實驗結果對比
3.6.3 實驗結果分析
3.7 本章小結
第4章 NI-PAM算法的優(yōu)化
4.1 PAM算法缺陷
4.2 NI-PAM算法的初始中心點選擇方法改進
4.2.1 相似度矩陣的建立
4.2.2 鄰域半徑
4.3 改進后NI-PAM算法步驟
4.4 實驗結果與分析
4.4.1 實驗數據集介紹
4.4.2 實驗結果對比
4.4.3 實驗結果分析
4.5 本章小結
第5章 N-NI-PAM算法的設計與分析
5.1 非獨立同分布下的數值型耦合相似度
5.1.1 修改后的斯皮爾曼等級相關系數
5.1.2 屬性內耦合相似性
5.1.3 屬性外耦合相似性
5.1.4 數據對象之間的耦合相似性
5.2 N-NI-PAM算法步驟
5.3 實驗結果與分析
5.3.1 實驗數據集介紹
5.3.2 實驗結果對比
5.3.3 實驗結果分析
5.4 本章小結
第6章 總結與展望
6.1 本文總結
6.1.1 論文的創(chuàng)新點
6.2 未來展望
參考文獻
致謝
在學期間主要科研成果
一、發(fā)表學術論文
二、其他科研成果
三、獲獎
【參考文獻】:
期刊論文
[1]GPU加速的改進PAM聚類算法研究與應用[J]. 周恩波,毛善君,李梅,孫振明. 地球信息科學學報. 2017(06)
[2]基于距離不等式的K-medoids聚類算法[J]. 余冬華,郭茂祖,劉揚,任世軍,劉曉燕,劉國軍. 軟件學報. 2017 (12)
[3]一種MapReduce架構下基于遺傳算法的K-Medoids聚類[J]. 賴向陽,宮秀軍,韓來明. 計算機科學. 2017(03)
[4]非獨立同分布推薦系統(tǒng):推薦范式轉換的綜述和框架[J]. Longbing Cao. Engineering. 2016(02)
[5]不確定數據聚類的U-PAM算法和UM-PAM算法的研究[J]. 何云斌,張志超,萬靜,李松. 計算機科學. 2016(06)
[6]密度峰值優(yōu)化初始中心的K-medoids聚類算法[J]. 謝娟英,屈亞楠. 計算機科學與探索. 2016(02)
[7]基于稠密區(qū)域的K-medoids聚類算法[J]. 趙湘民,陳曦,潘楚. 計算機工程與應用. 2016(16)
[8]基于寬度優(yōu)先搜索的K-medoids聚類算法[J]. 顏宏文,周雅梅,潘楚. 計算機應用. 2015(05)
[9]基于遞減概率初始點選擇K中心點進化算法[J]. 路浩,倪世宏,查翔,張鵬. 計算機仿真. 2014(09)
[10]一種改進的基于粒子群的粗糙K-medoids算法[J]. 楊志,羅可. 計算機工程與應用. 2014(20)
博士論文
[1]非獨立同分布推薦系統(tǒng)研究[D]. 李方方.北京理工大學 2014
碩士論文
[1]聚類分析及聚類結果評估算法研究[D]. 陳衡岳.東北大學 2006
本文編號:3449866
【文章來源】: 韓冰 齊魯工業(yè)大學
【文章頁數】:75 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景及意義
1.2 國內外研究現狀
1.3 論文研究工作
1.3.1 論文的內容組織
第2章 聚類分析技術與非獨立同分布概述
2.1 數據挖掘技術概述
2.1.1 數據挖掘系統(tǒng)的主要功能
2.1.2 數據挖掘的步驟
2.2 聚類分析技術概述
2.3 聚類的主要過程
2.4 主要聚類方法的分類
2.4.1 基于層次的聚類方法
2.4.2 基于劃分的聚類方法
2.4.3 基于密度的聚類方法
2.4.4 基于網格的聚類方法
2.4.5 基于模型的聚類方法
2.4.6 其它熱點聚類算法
2.5 現有聚類分析技術的挑戰(zhàn)
2.6 非獨立同分布學習
2.7 非獨立同分布思想的典型應用
2.8 非獨立同分布層次介紹
2.9 K-中心點算法中的耦合關系
2.10 本章小結
第3章 NI-PAM算法的設計與分析
3.1 PAM算法介紹
3.2 現有相似性度量計算方法
3.3 非獨立同分布下的耦合相似度
3.3.1 內部耦合相似度
3.3.2 外部耦合相似度
3.3.3 總體耦合相似度
3.3.4 數據對象間耦合相似度
3.4 非獨立同分布環(huán)境下的NI-PAM算法
3.5 NI-PAM算法步驟
3.6 實驗結果與分析
3.6.1 實驗數據集介紹
3.6.2 實驗結果對比
3.6.3 實驗結果分析
3.7 本章小結
第4章 NI-PAM算法的優(yōu)化
4.1 PAM算法缺陷
4.2 NI-PAM算法的初始中心點選擇方法改進
4.2.1 相似度矩陣的建立
4.2.2 鄰域半徑
4.3 改進后NI-PAM算法步驟
4.4 實驗結果與分析
4.4.1 實驗數據集介紹
4.4.2 實驗結果對比
4.4.3 實驗結果分析
4.5 本章小結
第5章 N-NI-PAM算法的設計與分析
5.1 非獨立同分布下的數值型耦合相似度
5.1.1 修改后的斯皮爾曼等級相關系數
5.1.2 屬性內耦合相似性
5.1.3 屬性外耦合相似性
5.1.4 數據對象之間的耦合相似性
5.2 N-NI-PAM算法步驟
5.3 實驗結果與分析
5.3.1 實驗數據集介紹
5.3.2 實驗結果對比
5.3.3 實驗結果分析
5.4 本章小結
第6章 總結與展望
6.1 本文總結
6.1.1 論文的創(chuàng)新點
6.2 未來展望
參考文獻
致謝
在學期間主要科研成果
一、發(fā)表學術論文
二、其他科研成果
三、獲獎
【參考文獻】:
期刊論文
[1]GPU加速的改進PAM聚類算法研究與應用[J]. 周恩波,毛善君,李梅,孫振明. 地球信息科學學報. 2017(06)
[2]基于距離不等式的K-medoids聚類算法[J]. 余冬華,郭茂祖,劉揚,任世軍,劉曉燕,劉國軍. 軟件學報. 2017 (12)
[3]一種MapReduce架構下基于遺傳算法的K-Medoids聚類[J]. 賴向陽,宮秀軍,韓來明. 計算機科學. 2017(03)
[4]非獨立同分布推薦系統(tǒng):推薦范式轉換的綜述和框架[J]. Longbing Cao. Engineering. 2016(02)
[5]不確定數據聚類的U-PAM算法和UM-PAM算法的研究[J]. 何云斌,張志超,萬靜,李松. 計算機科學. 2016(06)
[6]密度峰值優(yōu)化初始中心的K-medoids聚類算法[J]. 謝娟英,屈亞楠. 計算機科學與探索. 2016(02)
[7]基于稠密區(qū)域的K-medoids聚類算法[J]. 趙湘民,陳曦,潘楚. 計算機工程與應用. 2016(16)
[8]基于寬度優(yōu)先搜索的K-medoids聚類算法[J]. 顏宏文,周雅梅,潘楚. 計算機應用. 2015(05)
[9]基于遞減概率初始點選擇K中心點進化算法[J]. 路浩,倪世宏,查翔,張鵬. 計算機仿真. 2014(09)
[10]一種改進的基于粒子群的粗糙K-medoids算法[J]. 楊志,羅可. 計算機工程與應用. 2014(20)
博士論文
[1]非獨立同分布推薦系統(tǒng)研究[D]. 李方方.北京理工大學 2014
碩士論文
[1]聚類分析及聚類結果評估算法研究[D]. 陳衡岳.東北大學 2006
本文編號:3449866
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3449866.html