基于屬性值分布特征的分類數(shù)據(jù)和二值數(shù)據(jù)聚類研究
發(fā)布時間:2021-03-26 01:11
隨著信息技術(shù)發(fā)展,管理領(lǐng)域的數(shù)據(jù)量越來越大,具有數(shù)據(jù)類型豐富和未標(biāo)記的特點,急需有針對性的無監(jiān)督學(xué)習(xí)工具。聚類是無監(jiān)督學(xué)習(xí)的重要環(huán)節(jié),針對數(shù)值型數(shù)據(jù)的聚類研究已經(jīng)取得了很好的成果,對于分類數(shù)據(jù)和二值數(shù)據(jù)的聚類分析仍有不足。本文從數(shù)據(jù)對象在分類屬性和二值屬性的分布特點入手,對分類數(shù)據(jù)聚類算法、內(nèi)部評價指標(biāo)選擇、分類數(shù)據(jù)和二值數(shù)據(jù)聚類有效性內(nèi)部評價問題進(jìn)行了研究,提供了完整的聚類分析解決方案,具體研究包括以下內(nèi)容。(1)聚類有效性內(nèi)部評價是聚類分析的關(guān)鍵環(huán)節(jié),由于每個內(nèi)部評價指標(biāo)有各自的適用范圍,在對特定的數(shù)據(jù)集進(jìn)行聚類分析時需要找到適合的內(nèi)部評價指標(biāo)。本文在總結(jié)內(nèi)部指標(biāo)評價能力衡量方法的基礎(chǔ)上,重點分析了通過外部評價指標(biāo)選擇內(nèi)部評價指標(biāo)的方法,通過理論和實驗對外部指標(biāo)的偏性以及利用單一外部指標(biāo)衡量內(nèi)部指標(biāo)評價能力方式不足進(jìn)行了總結(jié)。利用D-S證據(jù)理論合成多個外部指標(biāo)評價結(jié)果提出了內(nèi)部評價指標(biāo)的選擇策略(Strategy of Internal clustering validity indices selected based on Dempster-Shafer evidence th...
【文章來源】:北京科技大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:179 頁
【學(xué)位級別】:博士
【部分圖文】:
圖1-1論文結(jié)構(gòu)及框架圖??
數(shù)據(jù)類型是決定相似度或差異度的主要因素,也對聚類分析的算法選擇,??有效性評價等環(huán)節(jié)有重要影響。數(shù)據(jù)的分類標(biāo)準(zhǔn)有很多,按照單一的屬性,??可以將數(shù)據(jù)類型按圖2-2劃分同。??數(shù)據(jù)類型??.?1??I?|?|?1??離散型數(shù)據(jù)連續(xù)型數(shù)據(jù)??I ̄'?1?,?' ̄ ̄ ̄1??分類數(shù)據(jù)二值數(shù)據(jù)順序數(shù)據(jù)??1?1??對t值數(shù)據(jù)?不對#T值數(shù)據(jù)??圖2-1數(shù)據(jù)類型圖??如圖2-1,在聚類分析中,常用的數(shù)據(jù)類型有以下4種基本變量:區(qū)間??變量(Interval?variable)、二值變量或布爾變量(Binary?variable/Boolean??variable)、分類變量(Categorical?variable)、順序變量(Ordinal?variable)。這??4種變量可以相互轉(zhuǎn)換;谶@些變量,對應(yīng)產(chǎn)生4種常見的數(shù)據(jù)類型:區(qū)??間數(shù)據(jù)(數(shù)值型數(shù)據(jù))、二值數(shù)據(jù)、分類數(shù)據(jù)、順序數(shù)據(jù)。??早期的聚類分析在設(shè)計的過程中通常都是針對連續(xù)型的區(qū)間變量。但是??離散型的分類變量和二值變量不存在順序,難以采用連續(xù)型數(shù)據(jù)的度量方式??計算差異度或相似度。離散型數(shù)據(jù)聚類中最關(guān)鍵的工作也就是相似性或差異??性的度量。同理,離散型的另一個關(guān)鍵點是定義一個數(shù)據(jù)集合的的中間表示??或概要表示,比如k-modes算法中,用眾數(shù)概念定義類中心,借此描述一個??數(shù)據(jù)集合的特征。??(1)區(qū)間變量??區(qū)間變量屬于數(shù)值型變量,是一種連續(xù)變量。例如企業(yè)的營業(yè)收入、學(xué)??生的成績、距離及物體質(zhì)量等。假設(shè)一個m維數(shù)據(jù)集X={x
過程不涉及此過程[31]。第五階段是解釋階段,涉及對通過對各個類特征的描??述以及對每個類的命名,從而更好的表述每個類的特征。第六階段是聚類有??效性的評價和分析。詳細(xì)過程如圖2-2。??描述研究問題??卜?1?—??相似度選取?? ̄ ̄?i?—??樣本選擇?? ̄ ̄?i?—??聚類算法選擇?? ̄ ̄?1?一??結(jié)果解釋?? ̄ ̄?1?一??聚類有效性評價及分析??圖2-2聚類分析六階段模型??以人力資源管理中的人才識別(Talent?Identification)為例。以員工為簡??歷中的各項信息為各數(shù)據(jù)對象的研究變量,及待研究數(shù)據(jù)集的屬性,通過專??家分析,和相關(guān)性分析,確定屬性。根據(jù)數(shù)據(jù)類型選擇合適的聚類算法,給??-13?-??
本文編號:3100658
【文章來源】:北京科技大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:179 頁
【學(xué)位級別】:博士
【部分圖文】:
圖1-1論文結(jié)構(gòu)及框架圖??
數(shù)據(jù)類型是決定相似度或差異度的主要因素,也對聚類分析的算法選擇,??有效性評價等環(huán)節(jié)有重要影響。數(shù)據(jù)的分類標(biāo)準(zhǔn)有很多,按照單一的屬性,??可以將數(shù)據(jù)類型按圖2-2劃分同。??數(shù)據(jù)類型??.?1??I?|?|?1??離散型數(shù)據(jù)連續(xù)型數(shù)據(jù)??I ̄'?1?,?' ̄ ̄ ̄1??分類數(shù)據(jù)二值數(shù)據(jù)順序數(shù)據(jù)??1?1??對t值數(shù)據(jù)?不對#T值數(shù)據(jù)??圖2-1數(shù)據(jù)類型圖??如圖2-1,在聚類分析中,常用的數(shù)據(jù)類型有以下4種基本變量:區(qū)間??變量(Interval?variable)、二值變量或布爾變量(Binary?variable/Boolean??variable)、分類變量(Categorical?variable)、順序變量(Ordinal?variable)。這??4種變量可以相互轉(zhuǎn)換;谶@些變量,對應(yīng)產(chǎn)生4種常見的數(shù)據(jù)類型:區(qū)??間數(shù)據(jù)(數(shù)值型數(shù)據(jù))、二值數(shù)據(jù)、分類數(shù)據(jù)、順序數(shù)據(jù)。??早期的聚類分析在設(shè)計的過程中通常都是針對連續(xù)型的區(qū)間變量。但是??離散型的分類變量和二值變量不存在順序,難以采用連續(xù)型數(shù)據(jù)的度量方式??計算差異度或相似度。離散型數(shù)據(jù)聚類中最關(guān)鍵的工作也就是相似性或差異??性的度量。同理,離散型的另一個關(guān)鍵點是定義一個數(shù)據(jù)集合的的中間表示??或概要表示,比如k-modes算法中,用眾數(shù)概念定義類中心,借此描述一個??數(shù)據(jù)集合的特征。??(1)區(qū)間變量??區(qū)間變量屬于數(shù)值型變量,是一種連續(xù)變量。例如企業(yè)的營業(yè)收入、學(xué)??生的成績、距離及物體質(zhì)量等。假設(shè)一個m維數(shù)據(jù)集X={x
過程不涉及此過程[31]。第五階段是解釋階段,涉及對通過對各個類特征的描??述以及對每個類的命名,從而更好的表述每個類的特征。第六階段是聚類有??效性的評價和分析。詳細(xì)過程如圖2-2。??描述研究問題??卜?1?—??相似度選取?? ̄ ̄?i?—??樣本選擇?? ̄ ̄?i?—??聚類算法選擇?? ̄ ̄?1?一??結(jié)果解釋?? ̄ ̄?1?一??聚類有效性評價及分析??圖2-2聚類分析六階段模型??以人力資源管理中的人才識別(Talent?Identification)為例。以員工為簡??歷中的各項信息為各數(shù)據(jù)對象的研究變量,及待研究數(shù)據(jù)集的屬性,通過專??家分析,和相關(guān)性分析,確定屬性。根據(jù)數(shù)據(jù)類型選擇合適的聚類算法,給??-13?-??
本文編號:3100658
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3100658.html
最近更新
教材專著