面向大數(shù)據(jù)處理的并行優(yōu)化抽樣聚類K-means算法
本文關(guān)鍵詞:面向大數(shù)據(jù)處理的并行優(yōu)化抽樣聚類K-means算法
更多相關(guān)文章: 大數(shù)據(jù) K-均值 概率抽樣 歐氏距離 聚類精度
【摘要】:針對大數(shù)據(jù)環(huán)境下K-means聚類算法聚類精度不足和收斂速度慢的問題,提出一種基于優(yōu)化抽樣聚類的K-means算法(OSCK)。首先,該算法從海量數(shù)據(jù)中概率抽樣多個樣本;其次,基于最佳聚類中心的歐氏距離相似性原理,建模評估樣本聚類結(jié)果并去除抽樣聚類結(jié)果的次優(yōu)解;最后,加權(quán)整合評估得到的聚類結(jié)果得到最終k個聚類中心,并將這k個聚類中心作為大數(shù)據(jù)集聚類中心。理論分析和實(shí)驗(yàn)結(jié)果表明,OSCK面向海量數(shù)據(jù)分析相對于對比算法具有更好的聚類精度,并且具有很強(qiáng)的穩(wěn)健性和可擴(kuò)展性。
【作者單位】: 湖南大學(xué)信息科學(xué)與工程學(xué)院;
【關(guān)鍵詞】: 大數(shù)據(jù) K-均值 概率抽樣 歐氏距離 聚類精度
【基金】:國家自然科學(xué)基金資助項(xiàng)目(61173107) 國家863計(jì)劃項(xiàng)目(2012AA01A301-01)~~
【分類號】:TP311.13
【正文快照】: 0引言隨著信息技術(shù)的不斷深入發(fā)展,許多大型企業(yè)、機(jī)構(gòu)與組織持續(xù)獲得了各種體量巨大、結(jié)構(gòu)各異的數(shù)據(jù),同時也面臨著高效存儲、處理與分析這些有價值數(shù)據(jù)的技術(shù)問題。從大數(shù)據(jù)集中高效地挖掘出有用的信息將具有重要的意義[1-2]。聚類算法是數(shù)據(jù)挖掘的重要內(nèi)容[3-5],在工商業(yè)以
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 葛磊;武芳;王鵬波;張冬林;;3維建筑綜合中基于最小特征的面平移算法[J];測繪科學(xué)技術(shù)學(xué)報;2009年02期
2 駱雯,孫延明,陳振威,陳錦昌;判斷點(diǎn)與封閉多邊形相對關(guān)系的改進(jìn)算法[J];機(jī)械;1999年03期
3 李林;盧顯良;;一種基于切割映射的規(guī)則沖突消除算法[J];電子學(xué)報;2008年02期
4 劉巧玲;張紅英;林茂松;;一種簡單快速的圖像去霧算法[J];計(jì)算機(jī)應(yīng)用與軟件;2013年07期
5 林亞平,楊小林;快速概率分析進(jìn)化算法及其性能研究[J];電子學(xué)報;2001年02期
6 章郡鋒;吳曉紅;黃曉強(qiáng);何小海;;基于暗原色先驗(yàn)去霧的改進(jìn)算法[J];電視技術(shù);2013年23期
7 楊鐵軍;靳婷;;一種動態(tài)整周模糊值求解算法及其仿真分析[J];系統(tǒng)工程與電子技術(shù);2007年01期
8 周秀玲;郭平;陳寶維;王靜;;幾種計(jì)算超體積算法的比較研究[J];計(jì)算機(jī)工程;2011年03期
9 吳一戎,胡東輝,彭海良;Chirp Scaling SAR成象算法及其實(shí)現(xiàn)[J];電子科學(xué)學(xué)刊;1995年03期
10 王貴竹;一種產(chǎn)生單向分解值的算法[J];安徽大學(xué)學(xué)報(自然科學(xué)版);2001年03期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 尹冀鋒;;一種新的圖象自適應(yīng)增強(qiáng)算法[A];四川省通信學(xué)會一九九二年學(xué)術(shù)年會論文集[C];1992年
2 寧春平;田家瑋;郭延輝;王影;張英濤;鄭桂霞;劉研;;計(jì)算機(jī)輔助增強(qiáng)、分割算法在鑒別乳腺良、惡性腫塊中的應(yīng)用價值[A];中華醫(yī)學(xué)會第十次全國超聲醫(yī)學(xué)學(xué)術(shù)會議論文匯編[C];2009年
3 謝麗聰;;SVB查詢改寫算法的改進(jìn)[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
4 鄭存紅;;復(fù)雜背景下相關(guān)跟蹤算法研究及DSP實(shí)現(xiàn)[A];中國光學(xué)學(xué)會2010年光學(xué)大會論文集[C];2010年
5 楊文杰;吳軍;;RFID抗沖突算法研究[A];2008通信理論與技術(shù)新進(jìn)展——第十三屆全國青年通信學(xué)術(shù)會議論文集(上)[C];2008年
6 高山;畢篤彥;魏娜;;一種基于UPF的小目標(biāo)TBD算法[A];第十四屆全國圖象圖形學(xué)學(xué)術(shù)會議論文集[C];2008年
7 周磊;張衛(wèi)華;王曉奇;張軍;;基于流水算法的智能路障機(jī)器人設(shè)計(jì)[A];2011年全國電子信息技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2011年
8 潘巍;李戰(zhàn)懷;陳群;索博;李衛(wèi)榜;;面向MapReduce的非對稱分片復(fù)制連接算法優(yōu)化技術(shù)研究[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)(NDBC2012)[C];2012年
9 李偉偉;蔡康穎;鄭新;王文成;;3D模型中重復(fù)結(jié)構(gòu)的多尺度快速檢測算法[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2010)、第19屆全國多媒體學(xué)術(shù)會議(NCMT2010)、第6屆全國人機(jī)交互學(xué)術(shù)會議(CHCI2010)、第5屆全國普適計(jì)算學(xué)術(shù)會議(PCC2010)論文集[C];2010年
10 楊任爾;陳懇;勵金祥;;基于棱邊方向檢測的運(yùn)動自適應(yīng)去隔行算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
中國重要報紙全文數(shù)據(jù)庫 前1條
1 國泰君安資產(chǎn)管理部;“算法交易”是道指暴跌罪魁禍?zhǔn)?[N];上海證券報;2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 馮輝;網(wǎng)絡(luò)化的并行與分布式優(yōu)化算法研究及應(yīng)用[D];復(fù)旦大學(xué);2013年
2 許玉杰;云計(jì)算環(huán)境下海量數(shù)據(jù)的并行聚類算法研究[D];大連海事大學(xué);2014年
3 李琰;基于貓群算法的高光譜遙感森林類型識別研究[D];東北林業(yè)大學(xué);2015年
4 陳加順;海洋環(huán)境下聚類算法的研究[D];南京航空航天大學(xué);2014年
5 王洋;基于群體智能的通信網(wǎng)絡(luò)告警關(guān)聯(lián)規(guī)則挖掘算法研究[D];太原理工大學(xué);2015年
6 張冬麗;人工蜂群算法的改進(jìn)及相關(guān)應(yīng)用研究[D];燕山大學(xué);2014年
7 徐悅竹;機(jī)會發(fā)現(xiàn)算法及其應(yīng)用研究[D];哈爾濱工程大學(xué);2010年
8 王征;分布式互斥算法的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2007年
9 王艷嬌;人工蜂群算法的研究與應(yīng)用[D];哈爾濱工程大學(xué);2013年
10 楊世品;P系統(tǒng)優(yōu)化算法及應(yīng)用研究[D];浙江大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 姚鑫宇;EMD去噪與MUSIC算法在DOA估計(jì)中的聯(lián)合應(yīng)用[D];昆明理工大學(xué);2015年
2 陸進(jìn);面向含噪數(shù)據(jù)聚類相關(guān)算法的研究[D];復(fù)旦大學(xué);2014年
3 李家昌;基于能量約束的超聲圖像自動分割算法[D];華南理工大學(xué);2015年
4 陳堅(jiān);基于密度和約束的數(shù)據(jù)流聚類算法研究[D];蘭州大學(xué);2015年
5 高健;基于Zynq7000平臺的去霧算法研究及實(shí)現(xiàn)[D];南京理工大學(xué);2015年
6 顧磊;基于Hadoop的聚類算法的數(shù)據(jù)優(yōu)化及其應(yīng)用研究[D];南京信息工程大學(xué);2015年
7 楊燕霞;基于Hadoop平臺的并行關(guān)聯(lián)規(guī)則挖掘算法研究[D];四川師范大學(xué);2015年
8 王羽;基于MapReduce的社區(qū)發(fā)現(xiàn)算法的設(shè)計(jì)與實(shí)現(xiàn)[D];南京理工大學(xué);2015年
9 許振佳;流式數(shù)據(jù)的并行聚類算法研究[D];曲阜師范大學(xué);2015年
10 董琴;人工蜂群算法的改進(jìn)與應(yīng)用[D];大連海事大學(xué);2015年
,本文編號:1051714
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1051714.html