面向混合屬性數(shù)據(jù)的自適應(yīng)三支聚類算法的研究
發(fā)布時間:2020-07-04 05:09
【摘要】:聚類分析作為一種有效的無監(jiān)督數(shù)據(jù)挖掘方法,已經(jīng)廣泛地應(yīng)用在教育、商業(yè)、農(nóng)業(yè)等許多實際領(lǐng)域中。為了克服傳統(tǒng)二支聚類算法不能夠有效表示數(shù)據(jù)對象與類簇之間存在的不確定性關(guān)系,三支聚類算法應(yīng)運而生。在三支聚類表示中,類簇用兩個集合表示,其將數(shù)據(jù)空間劃分為三個域,即:核心域中的數(shù)據(jù)對象確定屬于該類簇,邊緣域中的數(shù)據(jù)對象可能屬于該類簇,瑣碎域中的數(shù)據(jù)對象確定不屬于該類簇。一方面,目前的三支決策方法研究中,往往需要通過合適的評價函數(shù)以及相應(yīng)的閾值來獲得三支結(jié)果。但是,閾值的設(shè)定往往沒有科學(xué)且高效的方法。另外一方面,現(xiàn)實生活中存在著大量混合屬性數(shù)據(jù)。因此,論文針對面向混合屬性數(shù)據(jù)的自適應(yīng)三支聚類算法進行了深入的研究。針對三支聚類閾值問題,論文提出了一種基于引力搜索的自適應(yīng)三支聚類算法。受物理學(xué)中萬有引力定律的啟發(fā),根據(jù)二支聚類結(jié)果中數(shù)據(jù)對象局部質(zhì)量的分布,以萬有引力公式作為評價函數(shù),將初始聚類結(jié)果中未被聚類的數(shù)據(jù)對象,根據(jù)萬有引力大小劃分至其鄰居類簇的核心域、邊緣域或者瑣碎域中。同時,在聚類的過程中,針對每一個未被聚類的數(shù)據(jù)對象,三支決策閾值能夠自適應(yīng)地調(diào)整。通過多組實驗分析,保證聚類效果的同時,基于引力搜索的自適應(yīng)三支聚類算法不僅能夠有效保留二支類簇的形狀信息,而且能夠有效解決重疊聚類的問題。同時,為保證工作的完整性,論文提出了一種改進密度峰值聚類算法作為二支聚類算法,獲得二支聚類結(jié)果并發(fā)現(xiàn)沒有明確類簇歸屬的數(shù)據(jù)對象。針對混合屬性數(shù)據(jù)相似性度量問題,論文提出了一種基于加權(quán)樹結(jié)構(gòu)的混合屬性數(shù)據(jù)相似性度量方式,能夠有效減少相似性度量過程中屬性值信息的損失。針對分類屬性以及有序?qū)傩?構(gòu)建加權(quán)樹結(jié)構(gòu),充分考慮了屬性值語義、屬性值個數(shù)以及屬性值在數(shù)據(jù)集中出現(xiàn)的頻率;針對數(shù)值屬性,進行歸一化處理。同時,結(jié)合基于引力搜索的自適應(yīng)三支聚類算法,論文進一步提出了面向混合屬性數(shù)據(jù)的自適應(yīng)三支聚類算法。在真實數(shù)據(jù)集上進行的多組實驗結(jié)果說明了新算法的合理性以及有效性。
【學(xué)位授予單位】:重慶郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP311.13
【圖文】:
決策思想的啟發(fā),我們通過一對集合表示一個類簇。三支類簇表示更適合處理不確定性,因為它能夠有效展示可能屬于類簇的數(shù)據(jù)對象。同時,傳統(tǒng)的二支聚類算法通常僅僅是發(fā)現(xiàn)可能邊緣的數(shù)據(jù)對象,而不是對它們進行進一步自動地劃分,并且往往稱這樣的數(shù)據(jù)對象為“噪聲點”。為了能夠進一步對這些數(shù)據(jù)對象進行自動地劃分,我們提出了一種有效的三支聚類算法,TWC-GS。算法基于萬有引力思想,能夠在聚類過程中,自適應(yīng)的調(diào)整閾值,得到數(shù)據(jù)對象與類簇之間更加詳細(xì)的歸屬信息。同時,為保證工作的完整性,我們同樣提出了一種二支聚類算法來獲取二支聚類結(jié)果,并發(fā)現(xiàn)未被聚類的數(shù)據(jù)對象。實驗結(jié)果說明,論文提出的三支聚類算法,不僅能夠根據(jù)二支聚類結(jié)果自動地得到三支聚類結(jié)果,而且在 Accuracy、F-measure、NMI、RI 四個指標(biāo)下優(yōu)于對比算法。3.1 算法框架概述
實例的初始聚類結(jié)果
本文編號:2740687
【學(xué)位授予單位】:重慶郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP311.13
【圖文】:
決策思想的啟發(fā),我們通過一對集合表示一個類簇。三支類簇表示更適合處理不確定性,因為它能夠有效展示可能屬于類簇的數(shù)據(jù)對象。同時,傳統(tǒng)的二支聚類算法通常僅僅是發(fā)現(xiàn)可能邊緣的數(shù)據(jù)對象,而不是對它們進行進一步自動地劃分,并且往往稱這樣的數(shù)據(jù)對象為“噪聲點”。為了能夠進一步對這些數(shù)據(jù)對象進行自動地劃分,我們提出了一種有效的三支聚類算法,TWC-GS。算法基于萬有引力思想,能夠在聚類過程中,自適應(yīng)的調(diào)整閾值,得到數(shù)據(jù)對象與類簇之間更加詳細(xì)的歸屬信息。同時,為保證工作的完整性,我們同樣提出了一種二支聚類算法來獲取二支聚類結(jié)果,并發(fā)現(xiàn)未被聚類的數(shù)據(jù)對象。實驗結(jié)果說明,論文提出的三支聚類算法,不僅能夠根據(jù)二支聚類結(jié)果自動地得到三支聚類結(jié)果,而且在 Accuracy、F-measure、NMI、RI 四個指標(biāo)下優(yōu)于對比算法。3.1 算法框架概述
實例的初始聚類結(jié)果
【參考文獻】
相關(guān)期刊論文 前1條
1 蔡莉;魏云剛;;教育資源共享網(wǎng)絡(luò)中教師聚類的提取與應(yīng)用[J];現(xiàn)代教育技術(shù);2010年06期
相關(guān)碩士學(xué)位論文 前1條
1 張聰;一種基于樹結(jié)構(gòu)的三支增量聚類算法研究[D];重慶郵電大學(xué);2015年
本文編號:2740687
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2740687.html
最近更新
教材專著