最優(yōu)密度聚類與雙統(tǒng)計量有效性分析
發(fā)布時間:2021-03-10 22:44
聚類分析是機器學(xué)習(xí)中的重要研究方向之一,相對于監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí),聚類能夠根據(jù)數(shù)據(jù)集本身的結(jié)構(gòu)特性將樣本歸類,并能夠發(fā)掘數(shù)據(jù)集樣本間隱含的信息,在數(shù)字化和信息化的當(dāng)今具有重要的研究價值和廣闊的應(yīng)用范圍。聚類分析相關(guān)研究主要包括數(shù)據(jù)預(yù)處理、聚類算法和聚類有效性指標(biāo)等方面。聚類分析研究發(fā)展至今,已有許多學(xué)者針對各個研究方向和不同應(yīng)用場合提出了各種算法,不同算法具有各自的優(yōu)勢,同時也存在各自尚待解決的問題。在數(shù)據(jù)約減算法方面,目前常用的樣例約減算法無法較好地反映數(shù)據(jù)集的結(jié)構(gòu)特性,或者存在依賴使用者經(jīng)驗的參數(shù);聚類算法方面,現(xiàn)有的許多算法通常也存在需要人為確定的參數(shù),無法實現(xiàn)完全非監(jiān)督的聚類過程;聚類有效性指標(biāo)方面,目前被提出的指標(biāo)大都針對特定的聚類算法,對算法的普適性不強,并對應(yīng)用數(shù)據(jù)集對象有所限制。本文在對現(xiàn)有算法進(jìn)行研究分析的基礎(chǔ)上,對以上三個方面各提出了新的或改進(jìn)的算法,主要研究成果如下:首先,針對目前的數(shù)據(jù)約減算法不能較好地反映數(shù)據(jù)集本身結(jié)構(gòu)特性的問題,提出基于二分密度的約減算法,該算法能夠在沒有參數(shù)的條件下,實現(xiàn)對數(shù)據(jù)集的樣例約減,達(dá)到去除噪聲、減少樣本量的同時,保留數(shù)據(jù)集本身結(jié)...
【文章來源】:天津大學(xué)天津市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:101 頁
【學(xué)位級別】:碩士
【部分圖文】:
約減測試
第3章基于二分密度的數(shù)據(jù)約減算法31Dataset2由螺旋狀樣本點組成,每個類具有相同的樣本數(shù),但是各個類之間的密度差異較大,類內(nèi)部密度差異也較大,共1980個樣本點;Dataset3也是由三個中間密度高邊緣密度低的團(tuán)狀類組成,但是這三個團(tuán)狀類相互之間有所交疊,共300個樣本點。(a)Dataset1(b)Dataset2(c)Dataset3圖3-4約減測試人工數(shù)據(jù)集在不同的約減率下,基于二分密度的數(shù)據(jù)約減算法(BinaryBaseddensityReduc-tion,BBR)、RS算法和高斯密度約減算法(簡稱GR算法)對三個測試數(shù)據(jù)集的約減效果分別如表3-2、表3-3和表3-4所示,圖中藍(lán)色的樣本點表示被約減的樣本,紅色樣本點表示約減后保留的樣本。表3-2Dataset1數(shù)據(jù)集約減結(jié)果對比約減算法約減率RSGRBBR10%20%
第4章最佳半徑的密度峰值聚類算法53表4-612個UCI數(shù)據(jù)集(續(xù))數(shù)據(jù)集總樣本數(shù)維度類數(shù)每類樣本分布Cancer68392444/239Iris1504350/50/50Glass21497(6)76/70/29/17/13/9/0Haberman30632225/81Hayes1325351/51/30Heart270132150/120Ecoli33678143/77/52/35/20/5/2/2這三組數(shù)據(jù)集的特點分別為:第一組所包含的前四個數(shù)據(jù)集每個類具有相同的樣本數(shù),但是維度差異很大;第二組所包含的中間四個數(shù)據(jù)集是當(dāng)前關(guān)于新型聚類算法驗證時常常被用到的四個數(shù)據(jù)集;第三組所包含的后四個數(shù)據(jù)集的各個類之間存在較大的密度差異,這對DBSCAN算法是個困難的問題。因此,這12個測試數(shù)據(jù)集是有代表性的,它們的特性可能會在大多數(shù)實際實驗對象中被遇到。圖4-2展示了這12個數(shù)據(jù)集的密度分辨率曲線,根據(jù)密度分辨率得到每個數(shù)據(jù)集的最佳密度半徑值r*如表4-7所示:圖4-212個UCI數(shù)據(jù)集密度分辨率曲線
本文編號:3075406
【文章來源】:天津大學(xué)天津市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:101 頁
【學(xué)位級別】:碩士
【部分圖文】:
約減測試
第3章基于二分密度的數(shù)據(jù)約減算法31Dataset2由螺旋狀樣本點組成,每個類具有相同的樣本數(shù),但是各個類之間的密度差異較大,類內(nèi)部密度差異也較大,共1980個樣本點;Dataset3也是由三個中間密度高邊緣密度低的團(tuán)狀類組成,但是這三個團(tuán)狀類相互之間有所交疊,共300個樣本點。(a)Dataset1(b)Dataset2(c)Dataset3圖3-4約減測試人工數(shù)據(jù)集在不同的約減率下,基于二分密度的數(shù)據(jù)約減算法(BinaryBaseddensityReduc-tion,BBR)、RS算法和高斯密度約減算法(簡稱GR算法)對三個測試數(shù)據(jù)集的約減效果分別如表3-2、表3-3和表3-4所示,圖中藍(lán)色的樣本點表示被約減的樣本,紅色樣本點表示約減后保留的樣本。表3-2Dataset1數(shù)據(jù)集約減結(jié)果對比約減算法約減率RSGRBBR10%20%
第4章最佳半徑的密度峰值聚類算法53表4-612個UCI數(shù)據(jù)集(續(xù))數(shù)據(jù)集總樣本數(shù)維度類數(shù)每類樣本分布Cancer68392444/239Iris1504350/50/50Glass21497(6)76/70/29/17/13/9/0Haberman30632225/81Hayes1325351/51/30Heart270132150/120Ecoli33678143/77/52/35/20/5/2/2這三組數(shù)據(jù)集的特點分別為:第一組所包含的前四個數(shù)據(jù)集每個類具有相同的樣本數(shù),但是維度差異很大;第二組所包含的中間四個數(shù)據(jù)集是當(dāng)前關(guān)于新型聚類算法驗證時常常被用到的四個數(shù)據(jù)集;第三組所包含的后四個數(shù)據(jù)集的各個類之間存在較大的密度差異,這對DBSCAN算法是個困難的問題。因此,這12個測試數(shù)據(jù)集是有代表性的,它們的特性可能會在大多數(shù)實際實驗對象中被遇到。圖4-2展示了這12個數(shù)據(jù)集的密度分辨率曲線,根據(jù)密度分辨率得到每個數(shù)據(jù)集的最佳密度半徑值r*如表4-7所示:圖4-212個UCI數(shù)據(jù)集密度分辨率曲線
本文編號:3075406
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3075406.html
最近更新
教材專著