天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向混合屬性數據的自適應三支聚類算法的研究

發(fā)布時間:2020-07-04 05:09
【摘要】:聚類分析作為一種有效的無監(jiān)督數據挖掘方法,已經廣泛地應用在教育、商業(yè)、農業(yè)等許多實際領域中。為了克服傳統(tǒng)二支聚類算法不能夠有效表示數據對象與類簇之間存在的不確定性關系,三支聚類算法應運而生。在三支聚類表示中,類簇用兩個集合表示,其將數據空間劃分為三個域,即:核心域中的數據對象確定屬于該類簇,邊緣域中的數據對象可能屬于該類簇,瑣碎域中的數據對象確定不屬于該類簇。一方面,目前的三支決策方法研究中,往往需要通過合適的評價函數以及相應的閾值來獲得三支結果。但是,閾值的設定往往沒有科學且高效的方法。另外一方面,現實生活中存在著大量混合屬性數據。因此,論文針對面向混合屬性數據的自適應三支聚類算法進行了深入的研究。針對三支聚類閾值問題,論文提出了一種基于引力搜索的自適應三支聚類算法。受物理學中萬有引力定律的啟發(fā),根據二支聚類結果中數據對象局部質量的分布,以萬有引力公式作為評價函數,將初始聚類結果中未被聚類的數據對象,根據萬有引力大小劃分至其鄰居類簇的核心域、邊緣域或者瑣碎域中。同時,在聚類的過程中,針對每一個未被聚類的數據對象,三支決策閾值能夠自適應地調整。通過多組實驗分析,保證聚類效果的同時,基于引力搜索的自適應三支聚類算法不僅能夠有效保留二支類簇的形狀信息,而且能夠有效解決重疊聚類的問題。同時,為保證工作的完整性,論文提出了一種改進密度峰值聚類算法作為二支聚類算法,獲得二支聚類結果并發(fā)現沒有明確類簇歸屬的數據對象。針對混合屬性數據相似性度量問題,論文提出了一種基于加權樹結構的混合屬性數據相似性度量方式,能夠有效減少相似性度量過程中屬性值信息的損失。針對分類屬性以及有序屬性,構建加權樹結構,充分考慮了屬性值語義、屬性值個數以及屬性值在數據集中出現的頻率;針對數值屬性,進行歸一化處理。同時,結合基于引力搜索的自適應三支聚類算法,論文進一步提出了面向混合屬性數據的自適應三支聚類算法。在真實數據集上進行的多組實驗結果說明了新算法的合理性以及有效性。
【學位授予單位】:重慶郵電大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP311.13
【圖文】:

算法流程圖,數據對象,聚類算法


決策思想的啟發(fā),我們通過一對集合表示一個類簇。三支類簇表示更適合處理不確定性,因為它能夠有效展示可能屬于類簇的數據對象。同時,傳統(tǒng)的二支聚類算法通常僅僅是發(fā)現可能邊緣的數據對象,而不是對它們進行進一步自動地劃分,并且往往稱這樣的數據對象為“噪聲點”。為了能夠進一步對這些數據對象進行自動地劃分,我們提出了一種有效的三支聚類算法,TWC-GS。算法基于萬有引力思想,能夠在聚類過程中,自適應的調整閾值,得到數據對象與類簇之間更加詳細的歸屬信息。同時,為保證工作的完整性,我們同樣提出了一種二支聚類算法來獲取二支聚類結果,并發(fā)現未被聚類的數據對象。實驗結果說明,論文提出的三支聚類算法,不僅能夠根據二支聚類結果自動地得到三支聚類結果,而且在 Accuracy、F-measure、NMI、RI 四個指標下優(yōu)于對比算法。3.1 算法框架概述

聚類,實例,學位論文,質量分布


實例的初始聚類結果

【參考文獻】

相關期刊論文 前1條

1 蔡莉;魏云剛;;教育資源共享網絡中教師聚類的提取與應用[J];現代教育技術;2010年06期

相關碩士學位論文 前1條

1 張聰;一種基于樹結構的三支增量聚類算法研究[D];重慶郵電大學;2015年



本文編號:2740687

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2740687.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶70c0e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com