天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于最小類(lèi)間距的半監(jiān)督聚類(lèi)算法研究

發(fā)布時(shí)間:2018-03-01 10:07

  本文關(guān)鍵詞: 半監(jiān)督學(xué)習(xí) 聚類(lèi) Single Linkage K-均值聚類(lèi) 出處:《蘭州大學(xué)》2017年碩士論文 論文類(lèi)型:學(xué)位論文


【摘要】:半監(jiān)督學(xué)習(xí)方法在數(shù)據(jù)挖掘研究領(lǐng)域內(nèi)具有舉足輕重的地位,這類(lèi)方法能夠在僅獲取少量有效的有監(jiān)督數(shù)據(jù)信息或觀測(cè)數(shù)據(jù)類(lèi)標(biāo)簽信息的基礎(chǔ)上,更有效且具有目的性的對(duì)數(shù)據(jù)進(jìn)行分析和挖掘。但目前對(duì)于半監(jiān)督學(xué)習(xí)方法中研究比較成熟、應(yīng)用較為廣泛的多以半監(jiān)督回歸方法和半監(jiān)督分類(lèi)方法為主,半監(jiān)督聚類(lèi)方法相較而言研究的深度和廣度都不夠成熟。K-meansGuider方法是2010年李杉提出的一種結(jié)合了分類(lèi)方法和K-means算法思想的基于分類(lèi)的半監(jiān)督聚類(lèi)算法,其主要思想是在基于K-means方法聚類(lèi)中心的搜索思想,利用半監(jiān)督學(xué)習(xí)方法改進(jìn)了聚類(lèi)過(guò)程中有關(guān)類(lèi)中心選取的過(guò)程,該方法將數(shù)據(jù)集中少部分含有類(lèi)標(biāo)簽的數(shù)據(jù)作為有監(jiān)督數(shù)據(jù)信息,并根據(jù)這些數(shù)據(jù)構(gòu)造一個(gè)初始的粗分類(lèi)器,將原始數(shù)據(jù)粗略分類(lèi),之后利用K-means聚類(lèi)方法的思想進(jìn)一步對(duì)初始粗分類(lèi)結(jié)果進(jìn)行分析、集成,相較于K-means的聚類(lèi)結(jié)果的精確程度有了很大的改善,但其結(jié)果高度依賴(lài)算法初始設(shè)定的粗分類(lèi)器,且算法時(shí)間效率不高。本文在K-meansGuider方法的基礎(chǔ)上進(jìn)行改進(jìn),結(jié)合層次聚類(lèi)方法中最小類(lèi)間距(Single Linkage)的思想及2014年Rodriguez和Laio提出的快速搜索聚類(lèi)方法(FSC)中類(lèi)簇合并的思想,提出了一種基于最小類(lèi)間距(Single Linkage)的半監(jiān)督聚類(lèi)算法,該算法利用數(shù)據(jù)集中少量的有監(jiān)督數(shù)據(jù)信息,將該部分?jǐn)?shù)據(jù)劃分為帶有類(lèi)標(biāo)簽的初始類(lèi),再根據(jù)最小類(lèi)間距(Single Linkage)的思想將其余無(wú)監(jiān)督的數(shù)據(jù)點(diǎn)聚入各個(gè)初始類(lèi)中,其中設(shè)立閾值以避免初始類(lèi)中的有監(jiān)督數(shù)據(jù)信息不完整從而影響聚類(lèi)效果的問(wèn)題。本文以UCI數(shù)據(jù)庫(kù)中的5組真實(shí)數(shù)據(jù)對(duì)提出的方法加以實(shí)現(xiàn),并與傳統(tǒng)K-means及K-meansGuider方法做對(duì)比,實(shí)驗(yàn)結(jié)果表明,本文改進(jìn)的方法對(duì)于提高聚類(lèi)效果有較為明顯的效果。
[Abstract]:Semi-supervised learning methods play an important role in the field of data mining. These methods can obtain only a small amount of effective supervised data information or observational data class label information. It is more effective and purposeful to analyze and mine the data, but the research on semi-supervised learning methods is more mature at present, and the more widely used methods are semi-supervised regression method and semi-supervised classification method. Compared with the semi-supervised clustering method, the depth and breadth of the research are not mature. K-means Guider method is a classification-based semi-supervised clustering algorithm proposed by Li in 2010, which combines the classification method with K-means algorithm. The main idea is to improve the selection process of clustering centers in the process of clustering by using semi-supervised learning method, which is based on the search idea of clustering center of K-means method. In this method, a small number of data containing class labels in the data set are taken as supervised data information, and an initial coarse classifier is constructed according to these data, and the raw data is roughly classified. Then using K-means clustering method to further analyze the initial coarse classification results, integration, compared with K-means clustering results of the accuracy has a great improvement, but the results are highly dependent on the initial set of rough classifier algorithm. The algorithm is not efficient in time. Based on the K-means Guider method, this paper combines the idea of minimum class spacing single Linkage in hierarchical clustering method and the idea of cluster merging in Rodriguez and Laio's fast search clustering method in 2014. In this paper, a semi-supervised clustering algorithm based on the minimum class spacing single Linkageis proposed. The algorithm uses a small amount of supervised data information in the data set to divide the data into initial classes with class labels. The rest of the unsupervised data points are then clustered into the initial classes based on the idea of minimum class spacing single Linkage. In order to avoid the problem of incomplete supervised data information in the initial class, this paper uses five groups of real data in UCI database to implement the proposed method, and compares it with the traditional K-means and K-Means Guider methods. The experimental results show that the improved method has obvious effect on clustering.
【學(xué)位授予單位】:蘭州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:C81

【相似文獻(xiàn)】

相關(guān)會(huì)議論文 前5條

1 柳斌;李之棠;涂浩;;基于半監(jiān)督學(xué)習(xí)的應(yīng)用流分類(lèi)方法[A];2010年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集[C];2010年

2 葛薦;馬廷淮;;基于集成算法的半監(jiān)督學(xué)習(xí)研究[A];第29屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年

3 趙玲玲;周水生;王雪巖;;基于集成算法的半監(jiān)督學(xué)習(xí)[A];第十四屆全國(guó)信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2009)論文集[C];2009年

4 ;Complete Dissection of the Genetic Basis of Heterosis in a Highly Heterotic Rice Hybrid Based on a Ultra-high Density Linkage Map[A];植物分子生物學(xué)與現(xiàn)代農(nóng)業(yè)——全國(guó)植物生物學(xué)研討會(huì)論文摘要集[C];2010年

5 谷方明;劉大有;王新穎;;基于半監(jiān)督學(xué)習(xí)的加權(quán)支持向量域數(shù)據(jù)描述方法[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年

相關(guān)博士學(xué)位論文 前10條

1 超木日力格;基于雅克比矩陣的軟劃分聚類(lèi)算法分析[D];北京交通大學(xué);2017年

2 高兵;基于密度的數(shù)據(jù)流聚類(lèi)方法研究[D];哈爾濱工程大學(xué);2014年

3 程爽;miRNA靶基因預(yù)測(cè)及其功能識(shí)別算法研究[D];哈爾濱工業(yè)大學(xué);2016年

4 譚學(xué)敏;基于半監(jiān)督學(xué)習(xí)的運(yùn)動(dòng)想象腦-機(jī)接口研究[D];重慶大學(xué);2015年

5 孫博良;在線(xiàn)半監(jiān)督學(xué)習(xí)理論、算法與應(yīng)用研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2014年

6 徐雪;樣本的幾何信息在半監(jiān)督學(xué)習(xí)中的應(yīng)用研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年

7 孔怡青;半監(jiān)督學(xué)習(xí)及其應(yīng)用研究[D];江南大學(xué);2009年

8 蘭遠(yuǎn)東;基于圖的半監(jiān)督學(xué)習(xí)理論、算法及應(yīng)用研究[D];華南理工大學(xué);2012年

9 唐曉亮;基于神經(jīng)網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)方法研究[D];大連理工大學(xué);2009年

10 余國(guó)先;高維數(shù)據(jù)上的半監(jiān)督學(xué)習(xí)研究[D];華南理工大學(xué);2013年

相關(guān)碩士學(xué)位論文 前10條

1 丁志婕;基于最小類(lèi)間距的半監(jiān)督聚類(lèi)算法研究[D];蘭州大學(xué);2017年

2 郭亞銳;面向大規(guī)模數(shù)據(jù)的多視角K-means聚類(lèi)算法的研究[D];鄭州大學(xué);2017年

3 曹曉鋒;面向維度的高維聚類(lèi)邊界檢測(cè)技術(shù)研究[D];鄭州大學(xué);2017年

4 邱雪營(yíng);基于圖像視覺(jué)上下文的多元IB聚類(lèi)算法[D];鄭州大學(xué);2017年

5 栗國(guó)保;基于MapReduce的分布式聚類(lèi)算法的研究[D];江西理工大學(xué);2017年

6 張燦龍;不確定DM-chameleon聚類(lèi)算法在滑坡危險(xiǎn)性預(yù)測(cè)的研究及應(yīng)用[D];江西理工大學(xué);2017年

7 李南;基于屬性偏序結(jié)構(gòu)理論的半監(jiān)督學(xué)習(xí)方法研究[D];燕山大學(xué);2015年

8 路同強(qiáng);基于半監(jiān)督學(xué)習(xí)的微博謠言檢測(cè)研究[D];山東大學(xué);2015年

9 杜俊;半監(jiān)督學(xué)習(xí)及其在社交媒體分析中的應(yīng)用[D];華北電力大學(xué);2015年

10 王俊超;在線(xiàn)半監(jiān)督學(xué)習(xí)尺度自適應(yīng)魯棒目標(biāo)跟蹤[D];湘潭大學(xué);2015年



本文編號(hào):1551464

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shekelunwen/shgj/1551464.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)50431***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com