面向大數(shù)據(jù)集的遞增聚類方法研究
發(fā)布時(shí)間:2017-03-30 21:03
本文關(guān)鍵詞:面向大數(shù)據(jù)集的遞增聚類方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著信息技術(shù)的不斷發(fā)展,數(shù)據(jù)挖掘、搜索引擎、大數(shù)據(jù)等領(lǐng)域受到了人們越來越多的關(guān)注。聚類技術(shù),尤其是大數(shù)據(jù)背景下的聚類技術(shù),在數(shù)據(jù)分析領(lǐng)域得到了廣泛的應(yīng)用,也成為了近年來專家學(xué)者們的研究熱點(diǎn),F(xiàn)有的聚類技術(shù)的研究主要側(cè)重于靜態(tài)的單一聚類算法,即在進(jìn)行聚類之前,對整體數(shù)據(jù)集進(jìn)行一次掃描。但是,在大數(shù)據(jù)背景下的很多應(yīng)用場景,數(shù)據(jù)流本身是動(dòng)態(tài)生成和讀取的,也受限于空間和時(shí)間的限制,靜態(tài)聚類算法有其一定的限制。另外,數(shù)據(jù)集本身的分布、聚類算法的參數(shù)選擇等因素對聚類結(jié)果有著很大的影響,只使用單一的一種聚類算法對數(shù)據(jù)集進(jìn)行分析存在較大的風(fēng)險(xiǎn)。在這樣的背景下,本文主要進(jìn)行了下述兩個(gè)方面的工作:(1)本文提出了一種新的遞增聚類算法——基于高斯混合模型樹的遞增聚類算法。隨著數(shù)據(jù)流的讀入,數(shù)據(jù)不斷地被插入到高斯混合模型樹,高斯混合模型樹也隨之自底向上的被構(gòu)建。構(gòu)建樹的過程即遞增聚類的過程。樹的葉子節(jié)點(diǎn)對應(yīng)著稠密的單高斯數(shù)據(jù)分布,樹的非葉子節(jié)點(diǎn)對應(yīng)著高斯混合模型分布。遞增聚類樹構(gòu)建完畢之后,樹的節(jié)點(diǎn)對應(yīng)著聚類的結(jié)果。(2)本文提出了一種新的融合聚類算法——基于高斯混合模型和證據(jù)理論的融合聚類算法。在多組候選聚類結(jié)果的基礎(chǔ)上,引入證據(jù)理論計(jì)算每個(gè)數(shù)據(jù)點(diǎn)在不同候選聚類結(jié)果下的置信度,通過新計(jì)算出的融合后的置信度確定該數(shù)據(jù)點(diǎn)的聚類歸屬。本文對提出的算法進(jìn)行了詳細(xì)的實(shí)驗(yàn),分別在人工生成數(shù)據(jù)集、二維點(diǎn)數(shù)據(jù)集、真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),對聚類算法的準(zhǔn)確性、時(shí)間復(fù)雜度、空間復(fù)雜度、穩(wěn)定性、可擴(kuò)展性、參數(shù)敏感性等重要指標(biāo)進(jìn)行了測試,并與現(xiàn)有的靜態(tài)聚類算法、遞增聚類算法和融合聚類算法進(jìn)行比較。實(shí)驗(yàn)證明,本文提出的遞增聚類算法和融合聚類算法取得了很好的效果,具有較強(qiáng)的實(shí)際應(yīng)用意義。
【關(guān)鍵詞】:遞增聚類 融合聚類 高斯混合模型 證據(jù)理論 大數(shù)據(jù)
【學(xué)位授予單位】:北京理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.13;TP202
【目錄】:
- 摘要5-6
- Abstract6-9
- 第1章 緒論9-16
- 1.1 引言9-10
- 1.2 研究現(xiàn)狀10-13
- 1.2.1 靜態(tài)聚類方法研究現(xiàn)狀10-11
- 1.2.2 遞增聚類方法研究現(xiàn)狀11-13
- 1.2.3 融合聚類方法研究現(xiàn)狀13
- 1.3 研究目標(biāo)和內(nèi)容13-15
- 1.3.1 研究目標(biāo)13-14
- 1.3.2 研究內(nèi)容14
- 1.3.3 主要問題和難點(diǎn)14-15
- 1.4 論文結(jié)構(gòu)15-16
- 第2章 背景知識(shí)16-22
- 2.1 引言16
- 2.2 高斯混合模型16-17
- 2.3 高斯混合模型相似性度量公式17
- 2.4 證據(jù)理論17-18
- 2.5 實(shí)驗(yàn)數(shù)據(jù)庫及評價(jià)準(zhǔn)則18-20
- 2.5.1 實(shí)驗(yàn)數(shù)據(jù)庫18-19
- 2.5.2 評價(jià)標(biāo)準(zhǔn)19-20
- 2.6 本章小結(jié)20-22
- 第3章 基于高斯混合模型樹的遞增聚類算法22-49
- 3.1 引言22
- 3.2 本文方法22-32
- 3.2.1 高斯混合模型樹23-24
- 3.2.2 數(shù)據(jù)插入24-25
- 3.2.3 數(shù)據(jù)刪除25-28
- 3.2.4 聚類樹的更新28-30
- 3.2.5 聚類結(jié)果的確定30-32
- 3.3 實(shí)驗(yàn)32-47
- 3.3.1 實(shí)驗(yàn)設(shè)置32-33
- 3.3.2 實(shí)驗(yàn)結(jié)果與分析33-47
- 3.4 本章小結(jié)47-49
- 第4章 基于高斯混合模型和證據(jù)理論的融合聚類算法49-57
- 4.1 引言49-50
- 4.2 本文方法50-53
- 4.2.1 基于高斯混合模型的數(shù)據(jù)擬合方法50-51
- 4.2.2 基于證據(jù)理論的融合聚類算法51-53
- 4.3 實(shí)驗(yàn)53-56
- 4.3.1 實(shí)驗(yàn)設(shè)置53-54
- 4.3.2 實(shí)驗(yàn)結(jié)果與分析54-56
- 4.4 本章小結(jié)56-57
- 第5章 總結(jié)與展望57-59
- 5.1 本文工作總結(jié)57-58
- 5.2 下一步工作展望58-59
- 參考文獻(xiàn)59-65
- 攻讀學(xué)位期間發(fā)表論文與研究成果清單65-66
- 致謝66
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 于達(dá)仁,胡清華,鮑文;融合粗糙集和模糊聚類的連續(xù)數(shù)據(jù)知識(shí)發(fā)現(xiàn)[J];中國電機(jī)工程學(xué)報(bào);2004年06期
本文關(guān)鍵詞:面向大數(shù)據(jù)集的遞增聚類方法研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):278059
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/278059.html
最近更新
教材專著