基于局部主成分分析和自步學習的譜聚類算法的改進研究
發(fā)布時間:2024-03-05 03:56
互聯(lián)網(wǎng)技術的飛速發(fā)展產(chǎn)生了海量的數(shù)據(jù),從這些數(shù)據(jù)中提取出對實際生活有用的信息成了研究的熱點問題。聚類作為一種經(jīng)典的無監(jiān)督機器學習方法因其可以獲取數(shù)據(jù)的內(nèi)在信息而被廣泛研究,F(xiàn)實數(shù)據(jù)集通常質(zhì)量參差不齊常會含有噪音樣本和離群點,并且數(shù)據(jù)集的實際分布通常較為復雜。此外,在收集和存儲數(shù)據(jù)的過程中還可能會出現(xiàn)數(shù)據(jù)部分信息缺失。而大多現(xiàn)有的譜聚類方法并未將這些問題考慮在內(nèi),導致模型的魯棒性不強。本文重點研究具有復雜分布且含噪數(shù)據(jù)的聚類問題,旨在提高傳統(tǒng)譜聚類的魯棒性,特別對缺失和含噪聲數(shù)據(jù)的處理能力以此來提升聚類效果。本文具體研究內(nèi)容如下:(1)提出一種基于局部主成分分析的改進譜聚類算法。具體地說,本文首先通過自動學習對數(shù)據(jù)集中的樣本進行挑選以削弱低質(zhì)量樣本對聚類模型的影響;然后應用局部主成分分析使得譜圖分解后的低維數(shù)據(jù)較好地保留原始數(shù)據(jù)的全局和局部信息;接著使用連通圖分解算法在不需要指定聚類個數(shù)的情況下輸出聚類結(jié)果,最后通過距離遠近對剩余樣本進行聚類劃分。(2)提出一種基于缺失值和自步學習的一步譜聚類算法。具體地說,使用一步譜聚類模型,將傳統(tǒng)譜聚類的多步驟進行了融合,消除了中間步驟可能帶來的累積...
【文章頁數(shù)】:46 頁
【學位級別】:碩士
【部分圖文】:
本文編號:3919641
【文章頁數(shù)】:46 頁
【學位級別】:碩士
【部分圖文】:
圖1.1全球數(shù)據(jù)圈的每年規(guī)模(圖片來源于網(wǎng)絡)
廣西師范大學碩士學位論文1第一章緒論1.1研究背景近年來移動智能設備的逐步普及帶來了移動互聯(lián)網(wǎng)的飛速發(fā)展使得數(shù)據(jù)的產(chǎn)生進入了高速爆發(fā)期,海量的數(shù)據(jù)每天不斷地在各行各業(yè)中產(chǎn)生。以社交為例,從前人們以書信和電話的形式來進行遠程社交,產(chǎn)生的數(shù)據(jù)量相對較少,而在社交網(wǎng)絡高度發(fā)達的今天,個....
圖3.1交叉點示意圖
廣西師范大學碩士學位論文12本盡量分開,即不同的類之間關系變得較為松散。其次,通過對挑選得到的樣本的鄰域所構(gòu)成的矩陣做協(xié)方差處理,使得局部樣本盡量聚攏,即同類樣本內(nèi)部的關系變得更加緊密。如此,雖然能使交叉點彼此達到一定程度上的分離,但是當不同簇的夾角較小的時候單獨使用協(xié)方差不一定....
本文編號:3919641
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3919641.html
最近更新
教材專著