類內(nèi)和類間距離分布函數(shù)的確定及應用
發(fā)布時間:2020-04-24 20:42
【摘要】:類內(nèi)、類間距離分布函數(shù)的研究具有重要的現(xiàn)實意義,本文我們主要利用參數(shù)統(tǒng)計的方法來確定類內(nèi)、類間距離的分布函數(shù);陬悆(nèi)、類間的分布函數(shù),我們提出了基于類內(nèi)距離參數(shù)估計的文本聚類評價方法,同時確定了基于類內(nèi)、類間距離比值型(ratio)指標的臨界值。首先,文章研究了基于類內(nèi)距離參數(shù)估計的文本聚類評價方法,發(fā)現(xiàn)當聚類類別數(shù)過小或與真實類別數(shù)相同時,該方法是可行的;而且它可以減弱初始類中心的選取對K-means算法的影響,提高聚類結果的準確性。其次,本文對基于類內(nèi)、類間距離的比值型(ratio)指標的臨界值也進行了研究,我們通過實驗確定了聚類指標真實值在上、下界范圍區(qū)間的位置,該位置可以作為評判基于類內(nèi)、類間距離的比值型(ratio)指標好壞的依據(jù)。
【圖文】:
圖 3.2 LJ60 的山丘圖從上圖中可以看出,三個山丘代表三個不同的類群,每個山丘的高度都較顏色為紅色。因此,,每個類群包含的對象都具有較高的相似性且類內(nèi)標準從而可推斷 LJ60 應聚成 3 類。
圖 3.4 ZD60 的山丘圖以看出,盡管該數(shù)據(jù)矩陣被要求聚成 3 類,但圖中,被標號為 0、1 的山丘具有較高的高度,說明只的相似性且類內(nèi)標準差較低。因此,該可視化圖形好。整及其結果檢驗數(shù)據(jù)集 LJ60、LJ200 和 ZD60 進行了實驗。首先,與真實類別的分布進行對比,直觀上可以看出被調;其次,利用 R 畫出類內(nèi)距離分布的折線圖,并詳整過程;最后,利用 purity值、F 值等指標對聚類結中心的選取方式的影響,在實驗的最后增加了兩種
【學位授予單位】:山西大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:C81
本文編號:2639377
【圖文】:
圖 3.2 LJ60 的山丘圖從上圖中可以看出,三個山丘代表三個不同的類群,每個山丘的高度都較顏色為紅色。因此,,每個類群包含的對象都具有較高的相似性且類內(nèi)標準從而可推斷 LJ60 應聚成 3 類。
圖 3.4 ZD60 的山丘圖以看出,盡管該數(shù)據(jù)矩陣被要求聚成 3 類,但圖中,被標號為 0、1 的山丘具有較高的高度,說明只的相似性且類內(nèi)標準差較低。因此,該可視化圖形好。整及其結果檢驗數(shù)據(jù)集 LJ60、LJ200 和 ZD60 進行了實驗。首先,與真實類別的分布進行對比,直觀上可以看出被調;其次,利用 R 畫出類內(nèi)距離分布的折線圖,并詳整過程;最后,利用 purity值、F 值等指標對聚類結中心的選取方式的影響,在實驗的最后增加了兩種
【學位授予單位】:山西大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:C81
【參考文獻】
相關期刊論文 前4條
1 王千;王成;馮振元;葉金鳳;;K-means聚類算法研究綜述[J];電子設計工程;2012年07期
2 鄭軍;王巍;楊武;楊永田;;基于類間距離參數(shù)估計的文本聚類評價方法[J];計算機工程;2009年09期
3 楊燕;靳蕃;KAMEL Mohamed;;聚類有效性評價綜述[J];計算機應用研究;2008年06期
4 張惟皎,劉春煌,李芳玉;聚類質量的評價方法[J];計算機工程;2005年20期
本文編號:2639377
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/2639377.html
最近更新
教材專著