基于概率和代表點的數(shù)據(jù)流動態(tài)聚類算法
本文關(guān)鍵詞: 數(shù)據(jù)流 能量函數(shù) 概率 優(yōu)化算法 動態(tài)聚類 出處:《計算機研究與發(fā)展》2016年05期 論文類型:期刊論文
【摘要】:為了解決數(shù)據(jù)流動態(tài)聚類問題,提出了一種概率化的基于代表點聚類算法.首先,基于概率框架給出了AP(affinity propagation)聚類算法和EEM(enhancedα-expansion move)聚類算法的聯(lián)合目標函數(shù),提出了概率化的基于代表點聚類算法;其次,根據(jù)樣本與其代表點之間的概率,提出了基于概率的漂移動態(tài)α-expansion數(shù)據(jù)流聚類算法.該算法使得新數(shù)據(jù)的代表點盡可能貼近原始數(shù)據(jù)的代表點,從而提高聚類性能;另一方面,考慮到原始數(shù)據(jù)與新數(shù)據(jù)的相似性,該算法能夠處理2種漂移過程中的動態(tài)聚類問題:1)新數(shù)據(jù)與原始數(shù)據(jù)分享部分數(shù)據(jù),其余數(shù)據(jù)與原始數(shù)據(jù)相似;2)沒有相同的數(shù)據(jù),新數(shù)據(jù)與原始數(shù)據(jù)有相似關(guān)系.在人工合成數(shù)據(jù)集D31,Birch3以及真實數(shù)據(jù)集Forest Covertpye,KDD CUP99的實驗結(jié)果均顯示出了所提之算法能夠處理數(shù)據(jù)流聚類問題,并保證聚類性能穩(wěn)定.
[Abstract]:In order to solve the dynamic clustering problem of data flow, a probabilistic representative point clustering algorithm is proposed. Firstly, the joint objective functions of AP(affinity propagation clustering algorithm and EEM(enhanced 偽 -expansion clustering algorithm are given based on the probability framework. A probabilistic clustering algorithm based on representative points is proposed. Secondly, according to the probability between the samples and their representative points, In this paper, a probabilistic drift dynamic 偽 -expansion data stream clustering algorithm is proposed, which makes the representative points of the new data as close as possible to the representative points of the original data, thus improving the clustering performance. On the other hand, considering the similarity between the original data and the new data, This algorithm can deal with the dynamic clustering problem of two drift processes: 1) the new data share part of the data with the original data, and the other data are similar to the original data and do not have the same data. The experimental results of the synthetic data set D31 / Birch3 and the real data set Forest overtpyeh CUP99 show that the proposed algorithm can deal with the data flow clustering problem and ensure the clustering performance is stable.
【作者單位】: 江南大學(xué)數(shù)字媒體學(xué)院;齊魯工業(yè)大學(xué)信息學(xué)院;
【基金】:國家自然科學(xué)基金項目(6127220) 山東省高等學(xué)?萍加媱濏椖(J14LN05) 江蘇省普通高校研究生科研創(chuàng)新計劃基金項目(KYLX_1124)~~
【分類號】:TP311.13
【相似文獻】
相關(guān)期刊論文 前10條
1 孟凡榮;李曉翠;周勇;;一種基于代表點的增量聚類算法[J];計算機應(yīng)用研究;2012年08期
2 劉彤,鄭永果;基于多代表點的聚類方法的改進[J];福建電腦;2005年06期
3 任江濤;丘正元;紀慶革;;一種基于投票機制的代表點選擇算法[J];計算機應(yīng)用;2007年01期
4 孫福明;洪日昌;吳秀清;;基于概率分布代表點的模型集合設(shè)計方法[J];控制理論與應(yīng)用;2009年05期
5 黃云;洪佳明;覃遵躍;;一種基于置信度的代表點選擇算法[J];計算機工程;2012年19期
6 張健飛;陳黎飛;郭躬德;李南;;多代表點的子空間分類算法[J];計算機科學(xué)與探索;2011年11期
7 陳園園;陳治平;;一種基于代表點和點密度的聚類算法[J];計算機工程與應(yīng)用;2008年28期
8 陳可華;;基于多代表點的文本分類研究[J];鄭州大學(xué)學(xué)報(工學(xué)版);2010年06期
9 倪維健;黃亞樓;李飛;劉賞;;一種基于加權(quán)多代表點的層次聚類算法[J];計算機科學(xué);2005年05期
10 陳黎飛;郭躬德;;最近鄰分類的多代表點學(xué)習(xí)算法[J];模式識別與人工智能;2011年06期
相關(guān)會議論文 前1條
1 張健;葉建栲;李廣斌;;基于代表點的聚類算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
相關(guān)碩士學(xué)位論文 前2條
1 張友新;基于聚類的代表點獲取算法及其應(yīng)用[D];煙臺大學(xué);2013年
2 王曉u&;基于代表點的數(shù)據(jù)和文本聚類新方法的研究[D];天津大學(xué);2006年
,本文編號:1530744
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1530744.html