自適應(yīng)譜聚類算法并行實(shí)現(xiàn)及優(yōu)化
本文選題:譜聚類 切入點(diǎn):并行算法 出處:《科研信息化技術(shù)與應(yīng)用》2016年06期
【摘要】:譜聚類算法是基于譜圖分割理論的聚類方法,其對(duì)高維、非凸數(shù)據(jù)分布問題有很好的聚類效果。但對(duì)大規(guī)模數(shù)據(jù)問題的聚類,該方法存在著計(jì)算時(shí)間和存儲(chǔ)空間等方面的瓶頸。本文給出了一個(gè)自適應(yīng)的譜聚類并行算法,通過局部計(jì)算和異步循環(huán)通信并行方法,最大限度減少了并行譜聚類中數(shù)據(jù)通信次數(shù),并通過計(jì)算與通信重疊策略,進(jìn)一步降低了并行算法的通信開銷。在并行算法實(shí)現(xiàn)中,將自主開發(fā)的最優(yōu)預(yù)條件共軛梯度法并行求解器PLOBPCG用于譜聚類的特征降維。在中科院的"元"超級(jí)計(jì)算機(jī)上,通過對(duì)兩類大規(guī)模數(shù)據(jù)聚類的測(cè)試表明,在2048核上的加速比接近線性加速,并行效率達(dá)到96%以上。
[Abstract]:Spectral clustering algorithm is a clustering method based on spectral segmentation theory. It has a good clustering effect on the distribution of high-dimensional and non-convex data.However, for the clustering of large-scale data problems, there are some bottlenecks in computing time and storage space.In this paper, an adaptive parallel algorithm for spectral clustering is presented. By means of local computation and asynchronous cyclic communication, the number of data communication in parallel spectral clustering is minimized.The communication overhead of parallel algorithm is further reduced.In the implementation of parallel algorithm, PLOBPCG, a self-developed parallel solver of optimal preconditioned conjugate gradient method, is used to reduce the characteristic dimension of spectral clustering.On the "Yuan" supercomputer of the Chinese Academy of Sciences, the test of two kinds of large-scale data clustering shows that the speedup on the 2048 core is close to linear acceleration, and the parallel efficiency is over 96%.
【作者單位】: 中國(guó)科學(xué)院大學(xué);中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心;
【基金】:數(shù)學(xué)工程與先進(jìn)計(jì)算國(guó)家重點(diǎn)實(shí)驗(yàn)室開放基金(2014A03)
【分類號(hào)】:TP391.41;TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 汪中;劉貴全;陳恩紅;;基于模糊K-harmonic means的譜聚類算法[J];智能系統(tǒng)學(xué)報(bào);2009年02期
2 孫昌思核;孔萬增;戴國(guó)駿;;一種自動(dòng)確定類個(gè)數(shù)的譜聚類算法[J];杭州電子科技大學(xué)學(xué)報(bào);2010年02期
3 蘭洋;;改進(jìn)譜聚類算法在高等院校人才選拔中的應(yīng)用[J];信陽師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2010年04期
4 張力文;丁世飛;許新征;朱紅;徐麗;;一種基于成對(duì)約束的譜聚類算法[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年04期
5 施培蓓;郭玉堂;胡玉娟;俞駿;;多尺度的譜聚類算法[J];計(jì)算機(jī)工程與應(yīng)用;2011年08期
6 楊曉慧;王莉莉;李登峰;;一種新的層次譜聚類算法[J];上海理工大學(xué)學(xué)報(bào);2014年01期
7 朱強(qiáng)生;何華燦;周延泉;;譜聚類算法對(duì)輸入數(shù)據(jù)順序的敏感性[J];計(jì)算機(jī)應(yīng)用研究;2007年04期
8 金慧珍;趙遼英;;多層自動(dòng)確定類別的譜聚類算法[J];計(jì)算機(jī)應(yīng)用;2008年05期
9 孫大雷;孟凡榮;閆秋艷;;一種初始化不敏感的譜聚類算法[J];微電子學(xué)與計(jì)算機(jī);2012年07期
10 陶新民;宋少宇;曹盼東;付丹丹;;一種基于流形距離核的譜聚類算法[J];信息與控制;2012年03期
相關(guān)碩士學(xué)位論文 前10條
1 李純;快速譜聚類算法的研究與應(yīng)用[D];哈爾濱工程大學(xué);2012年
2 董彬;一種基于主動(dòng)學(xué)習(xí)的半監(jiān)督譜聚類算法研究[D];中國(guó)礦業(yè)大學(xué);2015年
3 劉萍萍;基于特征間隙檢測(cè)簇?cái)?shù)的譜聚類算法研究[D];南京郵電大學(xué);2015年
4 崔慧嶺;一種面向大數(shù)據(jù)的文本聚類算法[D];湖北師范大學(xué);2016年
5 徐大海;基于分布式的譜聚類算法在虛擬社區(qū)發(fā)現(xiàn)上的應(yīng)用研究[D];暨南大學(xué);2016年
6 王有華;基于歸一化壓縮距離的文本譜聚類算法研究[D];貴州大學(xué);2016年
7 張濤;基于密度估計(jì)的譜聚類算法研究與應(yīng)用[D];江南大學(xué);2016年
8 包秀娟;聚類有效性指標(biāo)結(jié)構(gòu)分析及應(yīng)用[D];天津大學(xué);2014年
9 周燕琴;基于改進(jìn)譜聚類算法在醫(yī)學(xué)圖像中的應(yīng)用研究[D];廣西師范學(xué)院;2016年
10 孫羊子;基于流形距離的聚類算法研究及其在極光分類中的應(yīng)用[D];陜西師范大學(xué);2016年
,本文編號(hào):1716064
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1716064.html