基于屬性值分布特征的分類數(shù)據(jù)和二值數(shù)據(jù)聚類研究
發(fā)布時(shí)間:2021-03-26 01:11
隨著信息技術(shù)發(fā)展,管理領(lǐng)域的數(shù)據(jù)量越來(lái)越大,具有數(shù)據(jù)類型豐富和未標(biāo)記的特點(diǎn),急需有針對(duì)性的無(wú)監(jiān)督學(xué)習(xí)工具。聚類是無(wú)監(jiān)督學(xué)習(xí)的重要環(huán)節(jié),針對(duì)數(shù)值型數(shù)據(jù)的聚類研究已經(jīng)取得了很好的成果,對(duì)于分類數(shù)據(jù)和二值數(shù)據(jù)的聚類分析仍有不足。本文從數(shù)據(jù)對(duì)象在分類屬性和二值屬性的分布特點(diǎn)入手,對(duì)分類數(shù)據(jù)聚類算法、內(nèi)部評(píng)價(jià)指標(biāo)選擇、分類數(shù)據(jù)和二值數(shù)據(jù)聚類有效性內(nèi)部評(píng)價(jià)問(wèn)題進(jìn)行了研究,提供了完整的聚類分析解決方案,具體研究包括以下內(nèi)容。(1)聚類有效性內(nèi)部評(píng)價(jià)是聚類分析的關(guān)鍵環(huán)節(jié),由于每個(gè)內(nèi)部評(píng)價(jià)指標(biāo)有各自的適用范圍,在對(duì)特定的數(shù)據(jù)集進(jìn)行聚類分析時(shí)需要找到適合的內(nèi)部評(píng)價(jià)指標(biāo)。本文在總結(jié)內(nèi)部指標(biāo)評(píng)價(jià)能力衡量方法的基礎(chǔ)上,重點(diǎn)分析了通過(guò)外部評(píng)價(jià)指標(biāo)選擇內(nèi)部評(píng)價(jià)指標(biāo)的方法,通過(guò)理論和實(shí)驗(yàn)對(duì)外部指標(biāo)的偏性以及利用單一外部指標(biāo)衡量?jī)?nèi)部指標(biāo)評(píng)價(jià)能力方式不足進(jìn)行了總結(jié)。利用D-S證據(jù)理論合成多個(gè)外部指標(biāo)評(píng)價(jià)結(jié)果提出了內(nèi)部評(píng)價(jià)指標(biāo)的選擇策略(Strategy of Internal clustering validity indices selected based on Dempster-Shafer evidence th...
【文章來(lái)源】:北京科技大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:179 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖1-1論文結(jié)構(gòu)及框架圖??
數(shù)據(jù)類型是決定相似度或差異度的主要因素,也對(duì)聚類分析的算法選擇,??有效性評(píng)價(jià)等環(huán)節(jié)有重要影響。數(shù)據(jù)的分類標(biāo)準(zhǔn)有很多,按照單一的屬性,??可以將數(shù)據(jù)類型按圖2-2劃分同。??數(shù)據(jù)類型??.?1??I?|?|?1??離散型數(shù)據(jù)連續(xù)型數(shù)據(jù)??I ̄'?1?,?' ̄ ̄ ̄1??分類數(shù)據(jù)二值數(shù)據(jù)順序數(shù)據(jù)??1?1??對(duì)t值數(shù)據(jù)?不對(duì)#T值數(shù)據(jù)??圖2-1數(shù)據(jù)類型圖??如圖2-1,在聚類分析中,常用的數(shù)據(jù)類型有以下4種基本變量:區(qū)間??變量(Interval?variable)、二值變量或布爾變量(Binary?variable/Boolean??variable)、分類變量(Categorical?variable)、順序變量(Ordinal?variable)。這??4種變量可以相互轉(zhuǎn)換。基于這些變量,對(duì)應(yīng)產(chǎn)生4種常見的數(shù)據(jù)類型:區(qū)??間數(shù)據(jù)(數(shù)值型數(shù)據(jù))、二值數(shù)據(jù)、分類數(shù)據(jù)、順序數(shù)據(jù)。??早期的聚類分析在設(shè)計(jì)的過(guò)程中通常都是針對(duì)連續(xù)型的區(qū)間變量。但是??離散型的分類變量和二值變量不存在順序,難以采用連續(xù)型數(shù)據(jù)的度量方式??計(jì)算差異度或相似度。離散型數(shù)據(jù)聚類中最關(guān)鍵的工作也就是相似性或差異??性的度量。同理,離散型的另一個(gè)關(guān)鍵點(diǎn)是定義一個(gè)數(shù)據(jù)集合的的中間表示??或概要表示,比如k-modes算法中,用眾數(shù)概念定義類中心,借此描述一個(gè)??數(shù)據(jù)集合的特征。??(1)區(qū)間變量??區(qū)間變量屬于數(shù)值型變量,是一種連續(xù)變量。例如企業(yè)的營(yíng)業(yè)收入、學(xué)??生的成績(jī)、距離及物體質(zhì)量等。假設(shè)一個(gè)m維數(shù)據(jù)集X={x
過(guò)程不涉及此過(guò)程[31]。第五階段是解釋階段,涉及對(duì)通過(guò)對(duì)各個(gè)類特征的描??述以及對(duì)每個(gè)類的命名,從而更好的表述每個(gè)類的特征。第六階段是聚類有??效性的評(píng)價(jià)和分析。詳細(xì)過(guò)程如圖2-2。??描述研究問(wèn)題??卜?1?—??相似度選取?? ̄ ̄?i?—??樣本選擇?? ̄ ̄?i?—??聚類算法選擇?? ̄ ̄?1?一??結(jié)果解釋?? ̄ ̄?1?一??聚類有效性評(píng)價(jià)及分析??圖2-2聚類分析六階段模型??以人力資源管理中的人才識(shí)別(Talent?Identification)為例。以員工為簡(jiǎn)??歷中的各項(xiàng)信息為各數(shù)據(jù)對(duì)象的研究變量,及待研究數(shù)據(jù)集的屬性,通過(guò)專??家分析,和相關(guān)性分析,確定屬性。根據(jù)數(shù)據(jù)類型選擇合適的聚類算法,給??-13?-??
本文編號(hào):3100658
【文章來(lái)源】:北京科技大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:179 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖1-1論文結(jié)構(gòu)及框架圖??
數(shù)據(jù)類型是決定相似度或差異度的主要因素,也對(duì)聚類分析的算法選擇,??有效性評(píng)價(jià)等環(huán)節(jié)有重要影響。數(shù)據(jù)的分類標(biāo)準(zhǔn)有很多,按照單一的屬性,??可以將數(shù)據(jù)類型按圖2-2劃分同。??數(shù)據(jù)類型??.?1??I?|?|?1??離散型數(shù)據(jù)連續(xù)型數(shù)據(jù)??I ̄'?1?,?' ̄ ̄ ̄1??分類數(shù)據(jù)二值數(shù)據(jù)順序數(shù)據(jù)??1?1??對(duì)t值數(shù)據(jù)?不對(duì)#T值數(shù)據(jù)??圖2-1數(shù)據(jù)類型圖??如圖2-1,在聚類分析中,常用的數(shù)據(jù)類型有以下4種基本變量:區(qū)間??變量(Interval?variable)、二值變量或布爾變量(Binary?variable/Boolean??variable)、分類變量(Categorical?variable)、順序變量(Ordinal?variable)。這??4種變量可以相互轉(zhuǎn)換。基于這些變量,對(duì)應(yīng)產(chǎn)生4種常見的數(shù)據(jù)類型:區(qū)??間數(shù)據(jù)(數(shù)值型數(shù)據(jù))、二值數(shù)據(jù)、分類數(shù)據(jù)、順序數(shù)據(jù)。??早期的聚類分析在設(shè)計(jì)的過(guò)程中通常都是針對(duì)連續(xù)型的區(qū)間變量。但是??離散型的分類變量和二值變量不存在順序,難以采用連續(xù)型數(shù)據(jù)的度量方式??計(jì)算差異度或相似度。離散型數(shù)據(jù)聚類中最關(guān)鍵的工作也就是相似性或差異??性的度量。同理,離散型的另一個(gè)關(guān)鍵點(diǎn)是定義一個(gè)數(shù)據(jù)集合的的中間表示??或概要表示,比如k-modes算法中,用眾數(shù)概念定義類中心,借此描述一個(gè)??數(shù)據(jù)集合的特征。??(1)區(qū)間變量??區(qū)間變量屬于數(shù)值型變量,是一種連續(xù)變量。例如企業(yè)的營(yíng)業(yè)收入、學(xué)??生的成績(jī)、距離及物體質(zhì)量等。假設(shè)一個(gè)m維數(shù)據(jù)集X={x
過(guò)程不涉及此過(guò)程[31]。第五階段是解釋階段,涉及對(duì)通過(guò)對(duì)各個(gè)類特征的描??述以及對(duì)每個(gè)類的命名,從而更好的表述每個(gè)類的特征。第六階段是聚類有??效性的評(píng)價(jià)和分析。詳細(xì)過(guò)程如圖2-2。??描述研究問(wèn)題??卜?1?—??相似度選取?? ̄ ̄?i?—??樣本選擇?? ̄ ̄?i?—??聚類算法選擇?? ̄ ̄?1?一??結(jié)果解釋?? ̄ ̄?1?一??聚類有效性評(píng)價(jià)及分析??圖2-2聚類分析六階段模型??以人力資源管理中的人才識(shí)別(Talent?Identification)為例。以員工為簡(jiǎn)??歷中的各項(xiàng)信息為各數(shù)據(jù)對(duì)象的研究變量,及待研究數(shù)據(jù)集的屬性,通過(guò)專??家分析,和相關(guān)性分析,確定屬性。根據(jù)數(shù)據(jù)類型選擇合適的聚類算法,給??-13?-??
本文編號(hào):3100658
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3100658.html
最近更新
教材專著