基于屬性值分布特征的分類數(shù)據(jù)和二值數(shù)據(jù)聚類研究

發(fā)布時間：2021-03-26 01:11

　　隨著信息技術(shù)發(fā)展,管理領(lǐng)域的數(shù)據(jù)量越來越大,具有數(shù)據(jù)類型豐富和未標(biāo)記的特點,急需有針對性的無監(jiān)督學(xué)習(xí)工具。聚類是無監(jiān)督學(xué)習(xí)的重要環(huán)節(jié),針對數(shù)值型數(shù)據(jù)的聚類研究已經(jīng)取得了很好的成果,對于分類數(shù)據(jù)和二值數(shù)據(jù)的聚類分析仍有不足。本文從數(shù)據(jù)對象在分類屬性和二值屬性的分布特點入手,對分類數(shù)據(jù)聚類算法、內(nèi)部評價指標(biāo)選擇、分類數(shù)據(jù)和二值數(shù)據(jù)聚類有效性內(nèi)部評價問題進(jìn)行了研究,提供了完整的聚類分析解決方案,具體研究包括以下內(nèi)容。（1）聚類有效性內(nèi)部評價是聚類分析的關(guān)鍵環(huán)節(jié),由于每個內(nèi)部評價指標(biāo)有各自的適用范圍,在對特定的數(shù)據(jù)集進(jìn)行聚類分析時需要找到適合的內(nèi)部評價指標(biāo)。本文在總結(jié)內(nèi)部指標(biāo)評價能力衡量方法的基礎(chǔ)上,重點分析了通過外部評價指標(biāo)選擇內(nèi)部評價指標(biāo)的方法,通過理論和實驗對外部指標(biāo)的偏性以及利用單一外部指標(biāo)衡量內(nèi)部指標(biāo)評價能力方式不足進(jìn)行了總結(jié)。利用D-S證據(jù)理論合成多個外部指標(biāo)評價結(jié)果提出了內(nèi)部評價指標(biāo)的選擇策略（Strategy of Internal clustering validity indices selected based on Dempster-Shafer evidence th...

【文章來源】：北京科技大學(xué)北京市 211工程院校教育部直屬院校

【文章頁數(shù)】：179 頁

【學(xué)位級別】：博士

【部分圖文】：

圖１－１論文結(jié)構(gòu)及框架圖??

數(shù)據(jù)類型

數(shù)據(jù)類型是決定相似度或差異度的主要因素，也對聚類分析的算法選擇，??有效性評價等環(huán)節(jié)有重要影響。數(shù)據(jù)的分類標(biāo)準(zhǔn)有很多，按照單一的屬性，??可以將數(shù)據(jù)類型按圖２－２劃分同。??數(shù)據(jù)類型??．?１??Ｉ?｜?｜?１??離散型數(shù)據(jù)連續(xù)型數(shù)據(jù)??Ｉ￣＇?１?，?＇￣￣￣１??分類數(shù)據(jù)二值數(shù)據(jù)順序數(shù)據(jù)??１?１??對ｔ值數(shù)據(jù)?不對＃Ｔ值數(shù)據(jù)??圖２－１數(shù)據(jù)類型圖??如圖２－１，在聚類分析中，常用的數(shù)據(jù)類型有以下４種基本變量：區(qū)間??變量（Ｉｎｔｅｒｖａｌ?ｖａｒｉａｂｌｅ）、二值變量或布爾變量（Ｂｉｎａｒｙ?ｖａｒｉａｂｌｅ／Ｂｏｏｌｅａｎ??ｖａｒｉａｂｌｅ）、分類變量（Ｃａｔｅｇｏｒｉｃａｌ?ｖａｒｉａｂｌｅ）、順序變量（Ｏｒｄｉｎａｌ?ｖａｒｉａｂｌｅ）。這??４種變量可以相互轉(zhuǎn)換�；谶@些變量，對應(yīng)產(chǎn)生４種常見的數(shù)據(jù)類型：區(qū)??間數(shù)據(jù)（數(shù)值型數(shù)據(jù)）、二值數(shù)據(jù)、分類數(shù)據(jù)、順序數(shù)據(jù)。??早期的聚類分析在設(shè)計的過程中通常都是針對連續(xù)型的區(qū)間變量。但是??離散型的分類變量和二值變量不存在順序，難以采用連續(xù)型數(shù)據(jù)的度量方式??計算差異度或相似度。離散型數(shù)據(jù)聚類中最關(guān)鍵的工作也就是相似性或差異??性的度量。同理，離散型的另一個關(guān)鍵點是定義一個數(shù)據(jù)集合的的中間表示??或概要表示，比如ｋ－ｍｏｄｅｓ算法中，用眾數(shù)概念定義類中心，借此描述一個??數(shù)據(jù)集合的特征。??（１）區(qū)間變量??區(qū)間變量屬于數(shù)值型變量，是一種連續(xù)變量。例如企業(yè)的營業(yè)收入、學(xué)??生的成績、距離及物體質(zhì)量等。假設(shè)一個ｍ維數(shù)據(jù)集Ｘ＝｛ｘ

模型圖,聚類分析,模型,聚類算法

過程不涉及此過程［３１］。第五階段是解釋階段，涉及對通過對各個類特征的描??述以及對每個類的命名，從而更好的表述每個類的特征。第六階段是聚類有??效性的評價和分析。詳細(xì)過程如圖２－２。??描述研究問題??卜?１?—??相似度選取??￣￣?ｉ?—??樣本選擇??￣￣?ｉ?—??聚類算法選擇??￣￣?１?一??結(jié)果解釋??￣￣?１?一??聚類有效性評價及分析??圖２－２聚類分析六階段模型??以人力資源管理中的人才識別（Ｔａｌｅｎｔ?Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）為例。以員工為簡??歷中的各項信息為各數(shù)據(jù)對象的研究變量，及待研究數(shù)據(jù)集的屬性，通過專??家分析，和相關(guān)性分析，確定屬性。根據(jù)數(shù)據(jù)類型選擇合適的聚類算法，給??－１３?－??

本文編號：3100658

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3100658.html

上一篇：立方體衛(wèi)星星上軟件在線重構(gòu)技術(shù)研究
下一篇：基于物聯(lián)網(wǎng)技術(shù)的勸導(dǎo)系統(tǒng)設(shè)計方法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于屬性值分布特征的分類數(shù)據(jù)和二值數(shù)據(jù)聚類研究