基于鄰近搜索技術(shù)的快速密度聚類算法研究
發(fā)布時(shí)間:2021-05-20 19:20
隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)通信技術(shù)的高速發(fā)展,各種信息化和數(shù)字化技術(shù)與社會(huì)生活的方方面面聯(lián)系的越來越緊密,無論是對(duì)我們的生產(chǎn)、生活還是工作和思維等都引發(fā)了巨大的影響,我們已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代。面對(duì)海量數(shù)據(jù),當(dāng)前一個(gè)十分重要的課題就是如何能夠?qū)⑦@些海量數(shù)據(jù)轉(zhuǎn)化為由價(jià)值的信息。機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘技術(shù)在解決這類問題中發(fā)揮了日益重要的作用。聚類分析是機(jī)器學(xué)習(xí)研究的一個(gè)重要內(nèi)容,目前已經(jīng)被廣泛應(yīng)用于圖像處理、推薦系統(tǒng)、醫(yī)療診斷等多個(gè)領(lǐng)域。聚類是一個(gè)無監(jiān)督的過程,聚類算法的目的是將輸入的數(shù)據(jù)集基于某種相似性度量準(zhǔn)則劃分為若干個(gè)語義一致的簇。DBSCAN是最為重要的一種基于密度的聚類算法,它不需要預(yù)先指定聚類個(gè)數(shù),可以在含有噪聲的數(shù)據(jù)中識(shí)別出復(fù)雜分布的聚類。雖然DBSCAN算法有很多的優(yōu)勢(shì),但是其時(shí)間復(fù)雜度為O(n2),無法高效的處理大規(guī)模高維數(shù)據(jù)。其根本原因在于DBSCAN在判斷每個(gè)點(diǎn)是否為核心點(diǎn)時(shí),需要對(duì)每個(gè)數(shù)據(jù)點(diǎn)做近鄰搜索,而其中存在大量冗余計(jì)算。本文對(duì)造成DBSCAN冗余計(jì)算的根源進(jìn)行了深度分析,并在總結(jié)前人工作的基礎(chǔ)上,提出了基于鄰近搜索技術(shù)的快速密度聚類算法(NQ-DBS...
【文章來源】:華僑大學(xué)福建省
【文章頁數(shù)】:69 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 引言
1.1 研究背景和意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文的主要內(nèi)容
1.4 本文組織結(jié)構(gòu)
第2章 聚類分析相關(guān)理論
2.1 聚類分析
2.1.1 數(shù)據(jù)處理
2.1.2 聚類質(zhì)量的評(píng)價(jià)
2.2 經(jīng)典聚類算法
2.2.1 劃分法
2.2.2 層次法
2.2.3 密度法
2.2.4 網(wǎng)格法
2.3 聚類算法的常見問題
2.3.1 簇個(gè)數(shù)的確定
2.3.2 算法的可拓展性
2.3.3 高維數(shù)據(jù)聚類
2.4 最近鄰查找問題
2.5 本章小結(jié)
第3章 基于鄰近搜索技術(shù)的快速密度聚類算法
3.1 DBSCAN算法
3.1.1 DBSCAN算法相關(guān)定義
3.1.2 DBSCAN算法流程
3.1.3 DBSCAN算法優(yōu)缺點(diǎn)分析
3.2 NQ-DBSCAN算法
3.2.1 NQ-DBSCAN算法思想
3.2.2 NQ-DBSCAN算法流程
3.2.3 NQ-DBSCAN算法分析
3.3 本章小結(jié)
第4章 實(shí)驗(yàn)分析
4.1 實(shí)驗(yàn)設(shè)置
4.2 實(shí)驗(yàn)數(shù)據(jù)集
4.2.1 人工生成數(shù)據(jù)集
4.2.2 真實(shí)數(shù)據(jù)集
4.3 實(shí)驗(yàn)結(jié)果
4.3.1 實(shí)驗(yàn)一聚類結(jié)果正確性
4.3.2 實(shí)驗(yàn)二噪聲和維度對(duì)性能的影響
4.3.3 實(shí)驗(yàn)三參數(shù)設(shè)置的影響
4.3.4 實(shí)驗(yàn)四數(shù)據(jù)規(guī)模的影響
4.3.5 實(shí)驗(yàn)五真實(shí)數(shù)據(jù)集實(shí)驗(yàn)
4.4 綜合分析
4.5 本章小結(jié)
第5章 總結(jié)和展望
5.1 工作總結(jié)
5.2 研究展望
參考文獻(xiàn)
致謝
附錄:作者在攻讀碩士學(xué)位期間研究成果
【參考文獻(xiàn)】:
期刊論文
[1]基于加權(quán)模糊c均值聚類的快速圖像自動(dòng)分割算法[J]. 楊潤(rùn)玲,高新波. 中國(guó)圖象圖形學(xué)報(bào). 2007(12)
本文編號(hào):3198299
【文章來源】:華僑大學(xué)福建省
【文章頁數(shù)】:69 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 引言
1.1 研究背景和意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文的主要內(nèi)容
1.4 本文組織結(jié)構(gòu)
第2章 聚類分析相關(guān)理論
2.1 聚類分析
2.1.1 數(shù)據(jù)處理
2.1.2 聚類質(zhì)量的評(píng)價(jià)
2.2 經(jīng)典聚類算法
2.2.1 劃分法
2.2.2 層次法
2.2.3 密度法
2.2.4 網(wǎng)格法
2.3 聚類算法的常見問題
2.3.1 簇個(gè)數(shù)的確定
2.3.2 算法的可拓展性
2.3.3 高維數(shù)據(jù)聚類
2.4 最近鄰查找問題
2.5 本章小結(jié)
第3章 基于鄰近搜索技術(shù)的快速密度聚類算法
3.1 DBSCAN算法
3.1.1 DBSCAN算法相關(guān)定義
3.1.2 DBSCAN算法流程
3.1.3 DBSCAN算法優(yōu)缺點(diǎn)分析
3.2 NQ-DBSCAN算法
3.2.1 NQ-DBSCAN算法思想
3.2.2 NQ-DBSCAN算法流程
3.2.3 NQ-DBSCAN算法分析
3.3 本章小結(jié)
第4章 實(shí)驗(yàn)分析
4.1 實(shí)驗(yàn)設(shè)置
4.2 實(shí)驗(yàn)數(shù)據(jù)集
4.2.1 人工生成數(shù)據(jù)集
4.2.2 真實(shí)數(shù)據(jù)集
4.3 實(shí)驗(yàn)結(jié)果
4.3.1 實(shí)驗(yàn)一聚類結(jié)果正確性
4.3.2 實(shí)驗(yàn)二噪聲和維度對(duì)性能的影響
4.3.3 實(shí)驗(yàn)三參數(shù)設(shè)置的影響
4.3.4 實(shí)驗(yàn)四數(shù)據(jù)規(guī)模的影響
4.3.5 實(shí)驗(yàn)五真實(shí)數(shù)據(jù)集實(shí)驗(yàn)
4.4 綜合分析
4.5 本章小結(jié)
第5章 總結(jié)和展望
5.1 工作總結(jié)
5.2 研究展望
參考文獻(xiàn)
致謝
附錄:作者在攻讀碩士學(xué)位期間研究成果
【參考文獻(xiàn)】:
期刊論文
[1]基于加權(quán)模糊c均值聚類的快速圖像自動(dòng)分割算法[J]. 楊潤(rùn)玲,高新波. 中國(guó)圖象圖形學(xué)報(bào). 2007(12)
本文編號(hào):3198299
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3198299.html
最近更新
教材專著