基于仿射傳播聚類的數(shù)據(jù)挖掘算法研究
發(fā)布時(shí)間:2017-04-07 22:11
本文關(guān)鍵詞:基于仿射傳播聚類的數(shù)據(jù)挖掘算法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著科學(xué)技術(shù)的迅速發(fā)展和網(wǎng)絡(luò)技術(shù)的普及,人類社會(huì)已經(jīng)進(jìn)入到大數(shù)據(jù)時(shí)代。在很多領(lǐng)域中人們需要從海量數(shù)據(jù)中得到有用的知識(shí)和信息,因此產(chǎn)生了數(shù)據(jù)挖掘的概念,仿射傳播聚類算法作為一種重要的數(shù)據(jù)挖掘算法,以相似度矩陣作為輸入,構(gòu)造吸引度矩陣和歸屬度矩陣,數(shù)據(jù)點(diǎn)之間通過吸引度和歸屬度交換有真實(shí)價(jià)值的消息,直到一個(gè)最優(yōu)的類代表點(diǎn)集合和聚類逐漸形成。仿射傳播聚類算法具有不用指定初始聚類中心及聚類的個(gè)數(shù)不需要設(shè)定等優(yōu)點(diǎn),但對(duì)結(jié)構(gòu)復(fù)雜和維數(shù)較高的數(shù)據(jù)集存在聚類結(jié)果比較差、精度低、且聚類個(gè)數(shù)易受到偏向參數(shù)的影響。本文主要圍繞仿射傳播聚類算法的不足,從以下幾個(gè)方面展開分析與研究:1.針對(duì)仿射傳播聚類算法處理結(jié)構(gòu)復(fù)雜數(shù)據(jù)集時(shí)存在聚類效果差、精度低等問題,提出了一種基于核函數(shù)的半監(jiān)督仿射傳播聚類算法,該算法首先利用核函數(shù)將結(jié)構(gòu)復(fù)雜的輸入數(shù)據(jù)集映射到特征空間,改變相似性度量,且映射后的數(shù)據(jù)集呈現(xiàn)線性特征;然后計(jì)算映射到特征空間數(shù)據(jù)的相似度矩陣,通過半監(jiān)督學(xué)習(xí)進(jìn)行調(diào)整,使屬于同簇內(nèi)的數(shù)據(jù)更容易成為近鄰;最后將得到的相似度矩陣作為仿射傳播聚類算法的輸入,迭代更新得到全局最優(yōu)。仿真結(jié)果比對(duì),可以看出改進(jìn)后的算法處理結(jié)構(gòu)復(fù)雜數(shù)據(jù)集時(shí)聚類效果更好、精度更高。2.針對(duì)運(yùn)用半監(jiān)督仿射傳播聚類算法處理高維數(shù)據(jù)時(shí)存在聚類精度低和計(jì)算量大的問題,提出一種基于局部線性嵌入的半監(jiān)督仿射傳播聚類算法,該算法首先通過局部線性嵌入算法將輸入的高維數(shù)據(jù)集映射到低維空間得到低維數(shù)據(jù)集,且映射后的數(shù)據(jù)集呈現(xiàn)線性特征,計(jì)算低維數(shù)據(jù)集的相似度矩陣,再用半監(jiān)督算法調(diào)整相似度矩陣,最后用仿射傳播聚類算法對(duì)低維數(shù)據(jù)進(jìn)行聚類分析。仿真結(jié)果表明改進(jìn)后的算法在處理高維數(shù)據(jù)時(shí)聚類效果更好、精度更高、迭代次數(shù)更少。3.由于仿射傳播聚類算法中偏向參數(shù)對(duì)聚類精度和聚類個(gè)數(shù)有著直接的影響,但其偏向參數(shù)通常都是經(jīng)驗(yàn)取值,很可能導(dǎo)致得不到最優(yōu)的聚類結(jié)果,針對(duì)這一問題提出了基于差分進(jìn)化的仿射傳播聚類算法,該算法首先進(jìn)行仿射傳播聚類分析,其偏向參數(shù)取經(jīng)驗(yàn)值;然后根據(jù)得到的聚類結(jié)果判斷偏向參數(shù)是否最優(yōu),如果不是則把偏向參數(shù)作為差分進(jìn)化算法的輸入群體;最后使用差分算法的變異、雜交和選擇操作對(duì)參數(shù)進(jìn)行智能調(diào)整,選擇適應(yīng)值最高的個(gè)體作為偏向參數(shù),返回再次聚類。采用經(jīng)典數(shù)據(jù)集驗(yàn)證,實(shí)驗(yàn)結(jié)果從類數(shù)、正確率和FMI三方面表明改進(jìn)后的算法能夠效地解決偏向參數(shù)對(duì)聚類結(jié)果的影響,提高了聚類精度。
【關(guān)鍵詞】:數(shù)據(jù)挖掘 仿射傳播聚類 核函數(shù) 局部線性嵌入算法 差分進(jìn)化算法
【學(xué)位授予單位】:蘭州理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.13
【目錄】:
- 摘要7-8
- Abstract8-12
- 第一章 緒論12-21
- 1.1 數(shù)據(jù)挖掘的研究背景和意義12-13
- 1.2 數(shù)據(jù)挖掘過程13
- 1.3 數(shù)據(jù)挖掘研究現(xiàn)狀13-19
- 1.3.1 數(shù)據(jù)挖掘功能14-15
- 1.3.2 數(shù)據(jù)挖掘分類15
- 1.3.3 聚類算法分類15-17
- 1.3.4 傳統(tǒng)聚類算法17-18
- 1.3.5 數(shù)據(jù)挖掘中聚類新算法18-19
- 1.4 本文研究主要內(nèi)容19-20
- 1.5 本文組織機(jī)構(gòu)20-21
- 第二章 仿射傳播聚類算法21-28
- 2.1 仿射傳播聚類算法21-24
- 2.1.1 仿射傳播聚類算法概述21-23
- 2.1.2 改進(jìn)的仿射傳播聚類算法23-24
- 2.2 半監(jiān)督學(xué)習(xí)24-26
- 2.2.1 半監(jiān)督聚類算法24
- 2.2.2 半監(jiān)督仿射傳播聚類算法24-26
- 2.3 算法的評(píng)價(jià)指標(biāo)26-27
- 2.3.1 Fowlkes-Mallows指標(biāo)26
- 2.3.2 Silhouette指標(biāo)26-27
- 2.4 本章小結(jié)27-28
- 第三章 基于核函數(shù)的半監(jiān)督仿射傳播聚類算法28-33
- 3.1 核函數(shù)28-29
- 3.2 K-SAP算法29-30
- 3.2.1 核函數(shù)的選擇29-30
- 3.2.2 K-SAP算法的步驟30
- 3.3 實(shí)驗(yàn)結(jié)果與分析30-32
- 3.3.1 數(shù)據(jù)信息30-31
- 3.3.2 仿真結(jié)果31-32
- 3.4 本章小結(jié)32-33
- 第四章 基于局部線性嵌入的半監(jiān)督仿射傳播聚類算法33-41
- 4.1 引言33
- 4.2 流形學(xué)習(xí)33-35
- 4.3 基于局部線性嵌入的半監(jiān)督仿射傳播聚類算法 (LLE-SAP)35-36
- 4.3.1 重構(gòu)誤差成本函數(shù)35
- 4.3.2 嵌入代價(jià)函數(shù)35
- 4.3.3 LLE-SAP算法步驟35-36
- 4.4 仿真實(shí)驗(yàn)36-40
- 4.4.1 數(shù)據(jù)信息36-37
- 4.4.2 仿真實(shí)驗(yàn)37-40
- 4.5 本章小結(jié)40-41
- 第五章 基于差分進(jìn)化的仿射傳播聚類算法41-47
- 5.1 引言41
- 5.2 差分進(jìn)化算法41-42
- 5.2.1 初始化種群41-42
- 5.2.2 變異操作42
- 5.2.3 交叉操作42
- 5.2.4 選擇操作42
- 5.3 DE-AP算法42-43
- 5.4 仿真實(shí)驗(yàn)43-45
- 5.4.1 數(shù)據(jù)信息43-44
- 5.4.2 實(shí)驗(yàn)結(jié)果44-45
- 5.5 本章小結(jié)45-47
- 第六章 結(jié)論與展望47-49
- 6.1 結(jié)論47
- 6.2 展望47-49
- 參考文獻(xiàn)49-53
- 致謝53-54
- 附錄 攻讀碩士學(xué)位期間所發(fā)表的學(xué)術(shù)論文54
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 徐結(jié)綠,徐漢良,呂述望;仿射全向置換的構(gòu)造和計(jì)數(shù)[J];通信技術(shù);2003年05期
2 龔石鈺;;兩平面場(chǎng)仿射及其在工程上的應(yīng)用[J];成都科技大學(xué)學(xué)報(bào);1989年06期
3 李天寶,陳文波,石世宏;仿射圖形的計(jì)算機(jī)作圖方法的研究[J];南華大學(xué)學(xué)報(bào)(理工版);2003年01期
4 劉黎,董培蓓;平行線束法的仿射研究[J];工程圖學(xué)學(xué)報(bào);2004年04期
5 張青,李永慈,唐守正;基于仿射重構(gòu)的樹高測(cè)量[J];計(jì)算機(jī)工程與應(yīng)用;2005年31期
6 張桂梅;任偉;儲(chǔ)s,
本文編號(hào):291428
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/291428.html
最近更新
教材專著