天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向聚類評價的有效內(nèi)部指標框架研究

發(fā)布時間:2021-01-27 01:13
  過去幾十年,研究者們提出了大量適用于硬聚類的聚類有效性指標。然而,現(xiàn)有的聚類評價方法會受到各種數(shù)據(jù)特征的影響。例如,帶有噪聲的數(shù)據(jù)、不同密度的數(shù)據(jù)、任意形狀的數(shù)據(jù)等等都可能影響內(nèi)部指標的性能。針對以上問題,本文在分析影響聚類算法性能的主要因素的基礎上研究了聚類有效性評價,提出了三種新的聚類有效性內(nèi)部指標。主要工作內(nèi)容如下:(1)為了克服現(xiàn)有的度量方法作為單連接聚類的簇內(nèi)緊密度的缺點,本文使用最小生成樹的最長邊作為簇內(nèi)緊密度,提出了一種針對單鏈接算法的綜合聚類有效性指標(synthetical clustering validity index,簡稱SCV)。該指標根據(jù)統(tǒng)計方法的不同又可以分為amSCV、gmSCV兩種。(2)SCV指標在評價單鏈接算法時表現(xiàn)良好,但是不適用其他層次聚類算法。為此,本文提出了一種廣義綜合聚類有效性指標(generalized synthetical clustering validity index,簡稱GSCV)。該指標采用自適應相似性度量策略對聚類結果進行評價,避免了聚類算法與內(nèi)部指標之間的相似性度量方法的不兼容性造成的內(nèi)部指標性能下降的情況。根據(jù)統(tǒng)計... 

【文章來源】:安徽大學安徽省 211工程院校

【文章頁數(shù)】:69 頁

【學位級別】:碩士

【部分圖文】:

面向聚類評價的有效內(nèi)部指標框架研究


聚類有效性評價內(nèi)部指標的使用步驟

示意圖,數(shù)據(jù)集,最小生成樹,鏈接


第三章層次聚類的有效性評價指標18但對于不平衡分布的數(shù)據(jù)集不能提供準確的簇數(shù)量。本文通過圖3.1所示的二維數(shù)據(jù)集的分布示意圖來說明這種情況。圖3.1兩種緊密度不同的數(shù)據(jù)集圖3.1中,圖(a)和圖(b)的左右數(shù)據(jù)點集的分布分別對應相同,左右數(shù)據(jù)點集之間的最小距離不同。圖(a)左右兩數(shù)據(jù)點集之間的最小距離使用1T表示。圖(b)左右兩數(shù)據(jù)點集之間的最小距離使用2T表示。圖(a)上生成的最小生成樹(MST)的權值之和用1sm表示,圖(b)上生成的最小生成樹的權值之和用sm2表示。如果簇內(nèi)緊密度使用其最小生成樹的平均權重進行度量,那么圖(a)和圖(b)對應的簇緊密度的差異性可以使用公式1212111smsmTTdifnnn進行計算。由此可見,當樣本的數(shù)量較大時,dif的值趨于0,即圖(a)和(b)對應簇的緊密度(由MST的平均權重反映)幾乎相同。然而,事實上,圖(b)的簇內(nèi)緊密度相對于圖(a)小得多。此外,對于最小生成樹的最長邊比其他邊長很多的簇(數(shù)據(jù)呈現(xiàn)不平衡分布),以MST的平均權值作為簇內(nèi)緊密度并不能真正反映簇內(nèi)的緊密性。在上述討論的基礎上,為了克服現(xiàn)有的度量方法作為單鏈接算法的簇內(nèi)緊密度的缺點,本文提出使用MST的最長邊作為簇內(nèi)緊密度。由于單鏈接聚類結果是通過連續(xù)切割長邊得到的,所以單鏈接算法可以看作MST的應用。在此過程中,通過切割MST的最長邊,將一個簇分為兩個簇。在內(nèi)部指標中,簇的緊密度的目標是衡量簇內(nèi)樣本的相似性程度。簇內(nèi)緊密度越小,樣本越分散,一個簇更具有分裂成多個子簇的傾向。從此可以看出,MST的最長邊可以合理地描述

示意圖,數(shù)據(jù)集,示意圖,分離度


安徽大學碩士學位論文25圖3.2十五個模擬數(shù)據(jù)集分布示意圖Cross-parallel3、Parallel3-1、Parallel4和Parallel4-1具有線形結構,它們具有不同的簇間分離度。Ring2、Circle4、Circle4-1、D3-circle-cross3、D3-circle3和D3-circle3-1具有環(huán)形結構,其中Circle4和Circle4-1、D3-circle3和D3-circle3-1具有不同的簇間分離度。Face5和D3-line-circle3是具有復雜結構的數(shù)據(jù)集。


本文編號:3002151

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3002151.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶a5972***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com