演化聚類(lèi)算法研究及其應(yīng)用
本文選題:聚類(lèi) + 演化數(shù)據(jù)。 參考:《揚(yáng)州大學(xué)》2017年碩士論文
【摘要】:聚類(lèi)作為數(shù)據(jù)挖掘領(lǐng)域中一種非常有效的數(shù)據(jù)分析方法,得到了很多學(xué)者的研究,在模式識(shí)別、圖像處理、數(shù)據(jù)壓縮等領(lǐng)域得到了廣泛的應(yīng)用。所謂聚類(lèi)就是將數(shù)據(jù)對(duì)象分組成為多個(gè)類(lèi)或簇(Cluster),其劃分原則是將具有較高的相似度的數(shù)據(jù)對(duì)象間劃分到同一個(gè)簇中,而相似度誤差較大的數(shù)據(jù)對(duì)象應(yīng)劃分到不同的簇中。傳統(tǒng)的聚類(lèi)算法只能針對(duì)一些靜態(tài)數(shù)據(jù)有很好的處理效果,而對(duì)于近年來(lái)引起機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域重點(diǎn)關(guān)注的演化數(shù)據(jù),更有待學(xué)者們的研究。由于演化數(shù)據(jù)是隨時(shí)間的推移數(shù)據(jù)分布會(huì)發(fā)生變化、有新數(shù)據(jù)的出現(xiàn)或舊數(shù)據(jù)的消亡,那么怎樣做到使每一時(shí)刻上的數(shù)據(jù)聚類(lèi)性能盡可能的好,能夠基本正確地反映每一時(shí)刻的數(shù)據(jù)分布;通過(guò)聚類(lèi)發(fā)掘數(shù)據(jù)的演化機(jī)制,例如聚類(lèi)的出現(xiàn)、變化、分裂、消失等;還要使得聚類(lèi)結(jié)果在時(shí)間上要盡可能平滑,使得當(dāng)前時(shí)刻的聚類(lèi)結(jié)果與前一時(shí)刻的聚類(lèi)結(jié)果盡可能的相類(lèi)似,已有小部分學(xué)者進(jìn)行了研究。本文著重研究演化數(shù)據(jù)的聚類(lèi)問(wèn)題,研究了兩種無(wú)監(jiān)督的演化聚類(lèi)算法和半監(jiān)督(帶約束)的演化聚類(lèi)算法,并進(jìn)行了簡(jiǎn)單的應(yīng)用。具體研究工作和成果如下:(1)本文提出了基于時(shí)間平滑性的演化聚類(lèi)框架,其框架是在Chakrabarti等人提出的在線式框架基礎(chǔ)上進(jìn)行修改完善得到的。除此之外,本文還對(duì)數(shù)據(jù)間的相似度矩陣作出了公式定義,相似度計(jì)算包括兩個(gè)部分之和:當(dāng)前時(shí)刻數(shù)據(jù)間的相似度與時(shí)間序列上的相似度。最后,并將框架具體應(yīng)用到標(biāo)準(zhǔn)譜聚類(lèi)當(dāng)中,得到兩種新的演化譜聚類(lèi)算法并進(jìn)行實(shí)驗(yàn)驗(yàn)證。(2)本文提出了演化的雙層隨機(jī)游走半監(jiān)督聚類(lèi)算法,其算法是針對(duì)處理帶有約束信息的演化聚類(lèi)的。原始的靜態(tài)雙層隨機(jī)游走半監(jiān)督聚類(lèi)算法在處理不斷變化增加的數(shù)據(jù)時(shí),會(huì)花費(fèi)大量的時(shí)間與內(nèi)存,并且不能得到很好的效果。本文在雙層隨機(jī)游走半監(jiān)督聚類(lèi)算法的基礎(chǔ)上很好的利用之前時(shí)刻的信息,通過(guò)在高層隨機(jī)游走時(shí)求解組件間的兩兩相似度直接加入前一時(shí)刻舊數(shù)據(jù)信息,大大減少了計(jì)算的時(shí)間,更好的處理演化半監(jiān)督數(shù)據(jù),能夠得到較好的聚類(lèi)結(jié)果。(3)本文設(shè)計(jì)了一種演化的人臉聚類(lèi)系統(tǒng),此系統(tǒng)中的人臉聚類(lèi)匹配是通過(guò)應(yīng)用本文提出的演化聚類(lèi)算法來(lái)處理的。本系統(tǒng)主要功能包括三個(gè)部分:人臉處理(演化聚類(lèi))、識(shí)別結(jié)果顯示、文件的管理。
[Abstract]:Clustering, as a very effective data analysis method in the field of data mining, has been studied by many scholars, and has been widely used in the fields of pattern recognition, image processing, data compression and so on. Clustering is the grouping of data objects into multiple classes or clusters. The principle of clustering is to divide data objects with high similarity into the same cluster, while data objects with large similarity errors should be divided into different clusters. The traditional clustering algorithm can only deal with some static data very well, but for the evolutionary data which has attracted the attention of the field of machine learning and data mining in recent years, it needs to be studied by scholars. Because evolutionary data change over time, new data emerge or old data die out, how to make the data clustering performance at every moment as good as possible, Can basically accurately reflect the data distribution at every moment; discover the evolution mechanism of data through clustering, such as the appearance, change, splitting, disappearing of clustering; and make the clustering results as smooth as possible in time. So that the clustering results at the present time are as similar as possible to those at the previous time, a small number of scholars have studied them. In this paper, we focus on the clustering of evolutionary data, and study two unsupervised evolutionary clustering algorithms and semi-supervised (constrained) evolutionary clustering algorithms, and make a simple application. In this paper, an evolutionary clustering framework based on time smoothness is proposed, which is modified and perfected on the basis of the on-line framework proposed by Chakrabarti et al. In addition, the similarity matrix of data is defined in this paper. The similarity calculation includes the sum of two parts: the similarity between data at current time and the similarity in time series. Finally, the framework is applied to the standard spectral clustering, and two new evolutionary spectral clustering algorithms are obtained and verified by experiments. (2) in this paper, an evolutionary double-layer random walk semi-supervised clustering algorithm is proposed. The algorithm is designed to deal with evolutionary clustering with constraint information. The original static double-layer random walk semi-supervised clustering algorithm spends a lot of time and memory on processing the ever-changing and increasing data, and it can not get a good effect. On the basis of two-layer random walk semi-supervised clustering algorithm, this paper makes good use of the information of the previous time, and directly adds the old data information of the previous moment by solving the similarity between components in the high-level random walk. This paper designs an evolutionary face clustering system, which greatly reduces the computing time and processes the evolution semi-supervised data better, and can get a better clustering result. The face clustering matching in this system is processed by applying the evolutionary clustering algorithm proposed in this paper. The main functions of the system include three parts: face processing (evolutionary clustering, recognition result display, file management).
【學(xué)位授予單位】:揚(yáng)州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 孫旭東;;淺談算法學(xué)習(xí)[J];程序員;2008年02期
2 王本顏,王新國(guó);平衡穿線排序樹(shù)刪除S算法[J];計(jì)算機(jī)工程與科學(xué);1990年04期
3 陸萍;;一堂算法課上的小插曲[J];數(shù)學(xué)學(xué)習(xí)與研究;2010年23期
4 徐詩(shī)恒;聶幼三;柳波;;一種新的群組發(fā)現(xiàn)算法[J];計(jì)算機(jī)應(yīng)用與軟件;2009年11期
5 張文彬,朱曉;一種帶加權(quán)調(diào)整的公平排隊(duì)算法[J];計(jì)算機(jī)工程與應(yīng)用;2004年04期
6 陳長(zhǎng)清,程懇;一種計(jì)算部分?jǐn)?shù)據(jù)立方的算法[J];計(jì)算機(jī)工程與應(yīng)用;2005年01期
7 姜秋霞;王中杰;;混合蟻群算法的研究及其應(yīng)用[J];裝備制造技術(shù);2008年02期
8 李慧,王備戰(zhàn),李濤,楊占華;一種改進(jìn)的移動(dòng)Agent主動(dòng)通信算法[J];計(jì)算機(jī)應(yīng)用研究;2005年11期
9 潘文斌;;邁進(jìn)算法世界的大門(mén)[J];程序員;2006年04期
10 劉旭;吳灝;常艷;;基于窮舉策略的縮水算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年02期
相關(guān)會(huì)議論文 前9條
1 潘瑾;嚴(yán)勇;王晨;方晨;汪衛(wèi);施伯樂(lè);;Chopper:一個(gè)高效的有序標(biāo)號(hào)樹(shù)頻繁結(jié)構(gòu)的挖掘算法[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2003年
2 吳鐵峰;彭宏;張東娜;;一種網(wǎng)絡(luò)告警的增量挖掘算法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
3 王玲芳;;大長(zhǎng)度數(shù)的準(zhǔn)確表示及其運(yùn)算算法研究[A];中國(guó)聲學(xué)學(xué)會(huì)2003年青年學(xué)術(shù)會(huì)議[CYCA'03]論文集[C];2003年
4 趙元;張新長(zhǎng);康停軍;;基于多叉樹(shù)蟻群算法在區(qū)位選址中的應(yīng)用[A];廣東省測(cè)繪學(xué)會(huì)第九次會(huì)員代表大會(huì)暨學(xué)術(shù)交流會(huì)論文集[C];2010年
5 趙元;張新長(zhǎng);康停軍;;基于多叉樹(shù)蟻群算法在區(qū)位選址中的應(yīng)用[A];全國(guó)測(cè)繪科技信息網(wǎng)中南分網(wǎng)第二十四次學(xué)術(shù)信息交流會(huì)論文集[C];2010年
6 李杏;李中年;;M~2E~2算法的研究[A];04'中國(guó)企業(yè)自動(dòng)化和信息化建設(shè)論壇暨中南六省區(qū)自動(dòng)化學(xué)會(huì)學(xué)術(shù)年會(huì)專(zhuān)輯[C];2004年
7 張曉艷;唐吳;韓江洪;周雷;;多Agent系統(tǒng)連續(xù)時(shí)間Option算法[A];第二十九屆中國(guó)控制會(huì)議論文集[C];2010年
8 郭云峰;張集祥;;一種基于位向量的關(guān)聯(lián)規(guī)則挖掘算法[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
9 劉彤;孫永香;張振洪;;一種有效的基于密度和層次的聚類(lèi)算法[A];2007'儀表,,自動(dòng)化及先進(jìn)集成技術(shù)大會(huì)論文集(一)[C];2007年
相關(guān)重要報(bào)紙文章 前1條
1 新野縣第一高級(jí)中學(xué)校 羅勤;算法思想在生活及數(shù)學(xué)學(xué)習(xí)中的滲透[N];學(xué)知報(bào);2011年
相關(guān)博士學(xué)位論文 前2條
1 張池軍;基于語(yǔ)義Web的LBS服務(wù)架構(gòu)及其服務(wù)發(fā)現(xiàn)算法研究[D];吉林大學(xué);2012年
2 陳文豪;X射線局部顯微CT偽全局算法及其應(yīng)用研究[D];中國(guó)科學(xué)院研究生院(上海應(yīng)用物理研究所);2014年
相關(guān)碩士學(xué)位論文 前10條
1 張小軍;高中數(shù)學(xué)算法思想及其滲透[D];四川師范大學(xué);2015年
2 周將運(yùn);Massive MIMO系統(tǒng)的檢測(cè)算法研究[D];電子科技大學(xué);2015年
3 朱霽悅;基于光束追蹤的高頻漸近算法及其應(yīng)用[D];東南大學(xué);2015年
4 李帥;面向服務(wù)質(zhì)量的副本放置及更新算法[D];天津工業(yè)大學(xué);2016年
5 王潤(rùn);影響力節(jié)點(diǎn)選擇算法研究及其在傳染病控制領(lǐng)域中的應(yīng)用[D];東南大學(xué);2015年
6 徐萍;機(jī)場(chǎng)圍界入侵目標(biāo)移動(dòng)視覺(jué)檢測(cè)算法研究[D];中國(guó)民航大學(xué);2012年
7 王天華;基于改進(jìn)的GBDT算法的乘客出行預(yù)測(cè)研究[D];大連理工大學(xué);2016年
8 郗洋;基于云計(jì)算的并行聚類(lèi)算法研究[D];南京郵電大學(xué);2011年
9 王瑛岐;基于情感強(qiáng)度定律的社會(huì)情感優(yōu)化算法及應(yīng)用研究[D];太原科技大學(xué);2012年
10 鄭向瑜;改進(jìn)的蟻群算法在移動(dòng)Agent路徑選擇中的應(yīng)用研究[D];江南大學(xué);2009年
本文編號(hào):1900132
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1900132.html