最優(yōu)密度聚類與雙統(tǒng)計(jì)量有效性分析
發(fā)布時(shí)間:2021-03-10 22:44
聚類分析是機(jī)器學(xué)習(xí)中的重要研究方向之一,相對(duì)于監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí),聚類能夠根據(jù)數(shù)據(jù)集本身的結(jié)構(gòu)特性將樣本歸類,并能夠發(fā)掘數(shù)據(jù)集樣本間隱含的信息,在數(shù)字化和信息化的當(dāng)今具有重要的研究?jī)r(jià)值和廣闊的應(yīng)用范圍。聚類分析相關(guān)研究主要包括數(shù)據(jù)預(yù)處理、聚類算法和聚類有效性指標(biāo)等方面。聚類分析研究發(fā)展至今,已有許多學(xué)者針對(duì)各個(gè)研究方向和不同應(yīng)用場(chǎng)合提出了各種算法,不同算法具有各自的優(yōu)勢(shì),同時(shí)也存在各自尚待解決的問題。在數(shù)據(jù)約減算法方面,目前常用的樣例約減算法無法較好地反映數(shù)據(jù)集的結(jié)構(gòu)特性,或者存在依賴使用者經(jīng)驗(yàn)的參數(shù);聚類算法方面,現(xiàn)有的許多算法通常也存在需要人為確定的參數(shù),無法實(shí)現(xiàn)完全非監(jiān)督的聚類過程;聚類有效性指標(biāo)方面,目前被提出的指標(biāo)大都針對(duì)特定的聚類算法,對(duì)算法的普適性不強(qiáng),并對(duì)應(yīng)用數(shù)據(jù)集對(duì)象有所限制。本文在對(duì)現(xiàn)有算法進(jìn)行研究分析的基礎(chǔ)上,對(duì)以上三個(gè)方面各提出了新的或改進(jìn)的算法,主要研究成果如下:首先,針對(duì)目前的數(shù)據(jù)約減算法不能較好地反映數(shù)據(jù)集本身結(jié)構(gòu)特性的問題,提出基于二分密度的約減算法,該算法能夠在沒有參數(shù)的條件下,實(shí)現(xiàn)對(duì)數(shù)據(jù)集的樣例約減,達(dá)到去除噪聲、減少樣本量的同時(shí),保留數(shù)據(jù)集本身結(jié)...
【文章來源】:天津大學(xué)天津市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:101 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
約減測(cè)試
第3章基于二分密度的數(shù)據(jù)約減算法31Dataset2由螺旋狀樣本點(diǎn)組成,每個(gè)類具有相同的樣本數(shù),但是各個(gè)類之間的密度差異較大,類內(nèi)部密度差異也較大,共1980個(gè)樣本點(diǎn);Dataset3也是由三個(gè)中間密度高邊緣密度低的團(tuán)狀類組成,但是這三個(gè)團(tuán)狀類相互之間有所交疊,共300個(gè)樣本點(diǎn)。(a)Dataset1(b)Dataset2(c)Dataset3圖3-4約減測(cè)試人工數(shù)據(jù)集在不同的約減率下,基于二分密度的數(shù)據(jù)約減算法(BinaryBaseddensityReduc-tion,BBR)、RS算法和高斯密度約減算法(簡(jiǎn)稱GR算法)對(duì)三個(gè)測(cè)試數(shù)據(jù)集的約減效果分別如表3-2、表3-3和表3-4所示,圖中藍(lán)色的樣本點(diǎn)表示被約減的樣本,紅色樣本點(diǎn)表示約減后保留的樣本。表3-2Dataset1數(shù)據(jù)集約減結(jié)果對(duì)比約減算法約減率RSGRBBR10%20%
第4章最佳半徑的密度峰值聚類算法53表4-612個(gè)UCI數(shù)據(jù)集(續(xù))數(shù)據(jù)集總樣本數(shù)維度類數(shù)每類樣本分布Cancer68392444/239Iris1504350/50/50Glass21497(6)76/70/29/17/13/9/0Haberman30632225/81Hayes1325351/51/30Heart270132150/120Ecoli33678143/77/52/35/20/5/2/2這三組數(shù)據(jù)集的特點(diǎn)分別為:第一組所包含的前四個(gè)數(shù)據(jù)集每個(gè)類具有相同的樣本數(shù),但是維度差異很大;第二組所包含的中間四個(gè)數(shù)據(jù)集是當(dāng)前關(guān)于新型聚類算法驗(yàn)證時(shí)常常被用到的四個(gè)數(shù)據(jù)集;第三組所包含的后四個(gè)數(shù)據(jù)集的各個(gè)類之間存在較大的密度差異,這對(duì)DBSCAN算法是個(gè)困難的問題。因此,這12個(gè)測(cè)試數(shù)據(jù)集是有代表性的,它們的特性可能會(huì)在大多數(shù)實(shí)際實(shí)驗(yàn)對(duì)象中被遇到。圖4-2展示了這12個(gè)數(shù)據(jù)集的密度分辨率曲線,根據(jù)密度分辨率得到每個(gè)數(shù)據(jù)集的最佳密度半徑值r*如表4-7所示:圖4-212個(gè)UCI數(shù)據(jù)集密度分辨率曲線
本文編號(hào):3075406
【文章來源】:天津大學(xué)天津市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:101 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
約減測(cè)試
第3章基于二分密度的數(shù)據(jù)約減算法31Dataset2由螺旋狀樣本點(diǎn)組成,每個(gè)類具有相同的樣本數(shù),但是各個(gè)類之間的密度差異較大,類內(nèi)部密度差異也較大,共1980個(gè)樣本點(diǎn);Dataset3也是由三個(gè)中間密度高邊緣密度低的團(tuán)狀類組成,但是這三個(gè)團(tuán)狀類相互之間有所交疊,共300個(gè)樣本點(diǎn)。(a)Dataset1(b)Dataset2(c)Dataset3圖3-4約減測(cè)試人工數(shù)據(jù)集在不同的約減率下,基于二分密度的數(shù)據(jù)約減算法(BinaryBaseddensityReduc-tion,BBR)、RS算法和高斯密度約減算法(簡(jiǎn)稱GR算法)對(duì)三個(gè)測(cè)試數(shù)據(jù)集的約減效果分別如表3-2、表3-3和表3-4所示,圖中藍(lán)色的樣本點(diǎn)表示被約減的樣本,紅色樣本點(diǎn)表示約減后保留的樣本。表3-2Dataset1數(shù)據(jù)集約減結(jié)果對(duì)比約減算法約減率RSGRBBR10%20%
第4章最佳半徑的密度峰值聚類算法53表4-612個(gè)UCI數(shù)據(jù)集(續(xù))數(shù)據(jù)集總樣本數(shù)維度類數(shù)每類樣本分布Cancer68392444/239Iris1504350/50/50Glass21497(6)76/70/29/17/13/9/0Haberman30632225/81Hayes1325351/51/30Heart270132150/120Ecoli33678143/77/52/35/20/5/2/2這三組數(shù)據(jù)集的特點(diǎn)分別為:第一組所包含的前四個(gè)數(shù)據(jù)集每個(gè)類具有相同的樣本數(shù),但是維度差異很大;第二組所包含的中間四個(gè)數(shù)據(jù)集是當(dāng)前關(guān)于新型聚類算法驗(yàn)證時(shí)常常被用到的四個(gè)數(shù)據(jù)集;第三組所包含的后四個(gè)數(shù)據(jù)集的各個(gè)類之間存在較大的密度差異,這對(duì)DBSCAN算法是個(gè)困難的問題。因此,這12個(gè)測(cè)試數(shù)據(jù)集是有代表性的,它們的特性可能會(huì)在大多數(shù)實(shí)際實(shí)驗(yàn)對(duì)象中被遇到。圖4-2展示了這12個(gè)數(shù)據(jù)集的密度分辨率曲線,根據(jù)密度分辨率得到每個(gè)數(shù)據(jù)集的最佳密度半徑值r*如表4-7所示:圖4-212個(gè)UCI數(shù)據(jù)集密度分辨率曲線
本文編號(hào):3075406
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3075406.html
最近更新
教材專著