基于概率和代表點(diǎn)的數(shù)據(jù)流動(dòng)態(tài)聚類算法
本文關(guān)鍵詞: 數(shù)據(jù)流 能量函數(shù) 概率 優(yōu)化算法 動(dòng)態(tài)聚類 出處:《計(jì)算機(jī)研究與發(fā)展》2016年05期 論文類型:期刊論文
【摘要】:為了解決數(shù)據(jù)流動(dòng)態(tài)聚類問(wèn)題,提出了一種概率化的基于代表點(diǎn)聚類算法.首先,基于概率框架給出了AP(affinity propagation)聚類算法和EEM(enhancedα-expansion move)聚類算法的聯(lián)合目標(biāo)函數(shù),提出了概率化的基于代表點(diǎn)聚類算法;其次,根據(jù)樣本與其代表點(diǎn)之間的概率,提出了基于概率的漂移動(dòng)態(tài)α-expansion數(shù)據(jù)流聚類算法.該算法使得新數(shù)據(jù)的代表點(diǎn)盡可能貼近原始數(shù)據(jù)的代表點(diǎn),從而提高聚類性能;另一方面,考慮到原始數(shù)據(jù)與新數(shù)據(jù)的相似性,該算法能夠處理2種漂移過(guò)程中的動(dòng)態(tài)聚類問(wèn)題:1)新數(shù)據(jù)與原始數(shù)據(jù)分享部分?jǐn)?shù)據(jù),其余數(shù)據(jù)與原始數(shù)據(jù)相似;2)沒(méi)有相同的數(shù)據(jù),新數(shù)據(jù)與原始數(shù)據(jù)有相似關(guān)系.在人工合成數(shù)據(jù)集D31,Birch3以及真實(shí)數(shù)據(jù)集Forest Covertpye,KDD CUP99的實(shí)驗(yàn)結(jié)果均顯示出了所提之算法能夠處理數(shù)據(jù)流聚類問(wèn)題,并保證聚類性能穩(wěn)定.
[Abstract]:In order to solve the dynamic clustering problem of data flow, a probabilistic representative point clustering algorithm is proposed. Firstly, the joint objective functions of AP(affinity propagation clustering algorithm and EEM(enhanced 偽 -expansion clustering algorithm are given based on the probability framework. A probabilistic clustering algorithm based on representative points is proposed. Secondly, according to the probability between the samples and their representative points, In this paper, a probabilistic drift dynamic 偽 -expansion data stream clustering algorithm is proposed, which makes the representative points of the new data as close as possible to the representative points of the original data, thus improving the clustering performance. On the other hand, considering the similarity between the original data and the new data, This algorithm can deal with the dynamic clustering problem of two drift processes: 1) the new data share part of the data with the original data, and the other data are similar to the original data and do not have the same data. The experimental results of the synthetic data set D31 / Birch3 and the real data set Forest overtpyeh CUP99 show that the proposed algorithm can deal with the data flow clustering problem and ensure the clustering performance is stable.
【作者單位】: 江南大學(xué)數(shù)字媒體學(xué)院;齊魯工業(yè)大學(xué)信息學(xué)院;
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目(6127220) 山東省高等學(xué)?萍加(jì)劃項(xiàng)目(J14LN05) 江蘇省普通高校研究生科研創(chuàng)新計(jì)劃基金項(xiàng)目(KYLX_1124)~~
【分類號(hào)】:TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 孟凡榮;李曉翠;周勇;;一種基于代表點(diǎn)的增量聚類算法[J];計(jì)算機(jī)應(yīng)用研究;2012年08期
2 劉彤,鄭永果;基于多代表點(diǎn)的聚類方法的改進(jìn)[J];福建電腦;2005年06期
3 任江濤;丘正元;紀(jì)慶革;;一種基于投票機(jī)制的代表點(diǎn)選擇算法[J];計(jì)算機(jī)應(yīng)用;2007年01期
4 孫福明;洪日昌;吳秀清;;基于概率分布代表點(diǎn)的模型集合設(shè)計(jì)方法[J];控制理論與應(yīng)用;2009年05期
5 黃云;洪佳明;覃遵躍;;一種基于置信度的代表點(diǎn)選擇算法[J];計(jì)算機(jī)工程;2012年19期
6 張健飛;陳黎飛;郭躬德;李南;;多代表點(diǎn)的子空間分類算法[J];計(jì)算機(jī)科學(xué)與探索;2011年11期
7 陳園園;陳治平;;一種基于代表點(diǎn)和點(diǎn)密度的聚類算法[J];計(jì)算機(jī)工程與應(yīng)用;2008年28期
8 陳可華;;基于多代表點(diǎn)的文本分類研究[J];鄭州大學(xué)學(xué)報(bào)(工學(xué)版);2010年06期
9 倪維健;黃亞樓;李飛;劉賞;;一種基于加權(quán)多代表點(diǎn)的層次聚類算法[J];計(jì)算機(jī)科學(xué);2005年05期
10 陳黎飛;郭躬德;;最近鄰分類的多代表點(diǎn)學(xué)習(xí)算法[J];模式識(shí)別與人工智能;2011年06期
相關(guān)會(huì)議論文 前1條
1 張健;葉建栲;李廣斌;;基于代表點(diǎn)的聚類算法[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
相關(guān)碩士學(xué)位論文 前2條
1 張友新;基于聚類的代表點(diǎn)獲取算法及其應(yīng)用[D];煙臺(tái)大學(xué);2013年
2 王曉u(píng)&;基于代表點(diǎn)的數(shù)據(jù)和文本聚類新方法的研究[D];天津大學(xué);2006年
,本文編號(hào):1530744
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1530744.html