最優(yōu)密度聚類與雙統(tǒng)計量有效性分析

發(fā)布時間：2021-03-10 22:44

　　聚類分析是機器學(xué)習(xí)中的重要研究方向之一,相對于監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí),聚類能夠根據(jù)數(shù)據(jù)集本身的結(jié)構(gòu)特性將樣本歸類,并能夠發(fā)掘數(shù)據(jù)集樣本間隱含的信息,在數(shù)字化和信息化的當(dāng)今具有重要的研究價值和廣闊的應(yīng)用范圍。聚類分析相關(guān)研究主要包括數(shù)據(jù)預(yù)處理、聚類算法和聚類有效性指標(biāo)等方面。聚類分析研究發(fā)展至今,已有許多學(xué)者針對各個研究方向和不同應(yīng)用場合提出了各種算法,不同算法具有各自的優(yōu)勢,同時也存在各自尚待解決的問題。在數(shù)據(jù)約減算法方面,目前常用的樣例約減算法無法較好地反映數(shù)據(jù)集的結(jié)構(gòu)特性,或者存在依賴使用者經(jīng)驗的參數(shù);聚類算法方面,現(xiàn)有的許多算法通常也存在需要人為確定的參數(shù),無法實現(xiàn)完全非監(jiān)督的聚類過程;聚類有效性指標(biāo)方面,目前被提出的指標(biāo)大都針對特定的聚類算法,對算法的普適性不強,并對應(yīng)用數(shù)據(jù)集對象有所限制。本文在對現(xiàn)有算法進(jìn)行研究分析的基礎(chǔ)上,對以上三個方面各提出了新的或改進(jìn)的算法,主要研究成果如下:首先,針對目前的數(shù)據(jù)約減算法不能較好地反映數(shù)據(jù)集本身結(jié)構(gòu)特性的問題,提出基于二分密度的約減算法,該算法能夠在沒有參數(shù)的條件下,實現(xiàn)對數(shù)據(jù)集的樣例約減,達(dá)到去除噪聲、減少樣本量的同時,保留數(shù)據(jù)集本身結(jié)...

【文章來源】：天津大學(xué)天津市 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：101 頁

【學(xué)位級別】：碩士

【部分圖文】：

約減測試

人工數(shù)據(jù),樣本點

第3章基于二分密度的數(shù)據(jù)約減算法31Dataset2由螺旋狀樣本點組成，每個類具有相同的樣本數(shù)，但是各個類之間的密度差異較大，類內(nèi)部密度差異也較大，共1980個樣本點；Dataset3也是由三個中間密度高邊緣密度低的團(tuán)狀類組成，但是這三個團(tuán)狀類相互之間有所交疊，共300個樣本點。(a)Dataset1(b)Dataset2(c)Dataset3圖3-4約減測試人工數(shù)據(jù)集在不同的約減率下，基于二分密度的數(shù)據(jù)約減算法（BinaryBaseddensityReduc-tion,BBR）、RS算法和高斯密度約減算法（簡稱GR算法）對三個測試數(shù)據(jù)集的約減效果分別如表3-2、表3-3和表3-4所示，圖中藍(lán)色的樣本點表示被約減的樣本，紅色樣本點表示約減后保留的樣本。表3-2Dataset1數(shù)據(jù)集約減結(jié)果對比約減算法約減率RSGRBBR10%20%

曲線,數(shù)據(jù)集,曲線,樣本

第4章最佳半徑的密度峰值聚類算法53表4-612個UCI數(shù)據(jù)集（續(xù)）數(shù)據(jù)集總樣本數(shù)維度類數(shù)每類樣本分布Cancer68392444/239Iris1504350/50/50Glass21497(6)76/70/29/17/13/9/0Haberman30632225/81Hayes1325351/51/30Heart270132150/120Ecoli33678143/77/52/35/20/5/2/2這三組數(shù)據(jù)集的特點分別為：第一組所包含的前四個數(shù)據(jù)集每個類具有相同的樣本數(shù)，但是維度差異很大；第二組所包含的中間四個數(shù)據(jù)集是當(dāng)前關(guān)于新型聚類算法驗證時常常被用到的四個數(shù)據(jù)集；第三組所包含的后四個數(shù)據(jù)集的各個類之間存在較大的密度差異，這對DBSCAN算法是個困難的問題。因此，這12個測試數(shù)據(jù)集是有代表性的，它們的特性可能會在大多數(shù)實際實驗對象中被遇到。圖4-2展示了這12個數(shù)據(jù)集的密度分辨率曲線，根據(jù)密度分辨率得到每個數(shù)據(jù)集的最佳密度半徑值r*如表4-7所示：圖4-212個UCI數(shù)據(jù)集密度分辨率曲線

本文編號：3075406

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3075406.html

上一篇：船舶智能監(jiān)測與預(yù)警平臺關(guān)鍵技術(shù)研究及其實現(xiàn)
下一篇：基于MIC改進(jìn)的PCA和CFS特征降維算法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

最優(yōu)密度聚類與雙統(tǒng)計量有效性分析