一種大規(guī)模分類數(shù)據(jù)聚類算法及其并行實(shí)現(xiàn)
本文關(guān)鍵詞:一種大規(guī)模分類數(shù)據(jù)聚類算法及其并行實(shí)現(xiàn) 出處:《計(jì)算機(jī)研究與發(fā)展》2016年05期 論文類型:期刊論文
更多相關(guān)文章: 分類數(shù)據(jù) CLOPE p-CLOPE 并行聚類 MapReduce
【摘要】:CLOPE算法在大規(guī)模、稀疏、高維的分類數(shù)據(jù)集的聚類上取得了很好的聚類效果.然而該算法受輸入數(shù)據(jù)的順序影響,難以獲得穩(wěn)定且全局最優(yōu)的聚類結(jié)果.因此提出一種基于等分劃分再排列思想的p-CLOPE算法對(duì)這一缺陷進(jìn)行改進(jìn).在p-CLOPE算法的每一輪迭代過程中,對(duì)輸入數(shù)據(jù)集等分為p部分再排列生成不同順序的p!份數(shù)據(jù)集,對(duì)這些數(shù)據(jù)集分別聚類并選取最優(yōu)的聚類結(jié)果作為下一輪迭代的輸入.為了降低上述過程的時(shí)間復(fù)雜度,提出了一種中間結(jié)果復(fù)用策略,較大程度地提高了聚類速度.最后,在Hadoop平臺(tái)上實(shí)現(xiàn)了一個(gè)包含p-CLOPE相關(guān)算法的開源聚類工具.實(shí)驗(yàn)表明:p-CLOPE算法比CLOPE算法取得了更優(yōu)的聚類結(jié)果.對(duì)蘑菇數(shù)據(jù)集,當(dāng)CLOPE算法取得最優(yōu)聚類結(jié)果時(shí),p-CLOPE比CLOPE取得了高35.7%的收益值;在處理大量數(shù)據(jù)時(shí),并行p-CLOPE比串行p-CLOPE極大地縮短了聚類時(shí)間,并在計(jì)算資源充足時(shí),取得了接近p!倍的加速比.
【作者單位】: 東華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;浙江萬里學(xué)院計(jì)算機(jī)與信息學(xué)院;
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目(61103046) 上海市自然科學(xué)基金項(xiàng)目(11ZR1401200)~~
【分類號(hào)】:TP311.13
【正文快照】: 結(jié)果時(shí),p-CLOPE比CLOPE取得了高35.7%的收益值;在處理大量數(shù)據(jù)時(shí),并行p-CLOPE比串行p-CLOPE極大地縮短了聚類時(shí)間,并在計(jì)算資源充足時(shí),取得了接近p!倍的加速比.傳統(tǒng)的針對(duì)數(shù)值數(shù)據(jù)的聚類算法雖然在不斷取得突破[1],但并不適合處理分類數(shù)據(jù)[2].分類數(shù)據(jù)由非數(shù)值的屬性組成.對(duì)分
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 韓秀苓,程凡,高建林,李傳光;管道自適應(yīng)有源噪聲控制算法[J];Journal of Beijing Institute of Technology(English Edition);1995年01期
2 陶新民;徐晶;童智靖;劉玉;;不均衡數(shù)據(jù)下基于陰性免疫的過抽樣新算法[J];控制與決策;2010年06期
3 趙國(guó)峰;閆亮;;用于快速流分類的關(guān)鍵字分解Hash算法[J];計(jì)算機(jī)工程;2010年16期
4 郭雷勇;譚洪舟;高守平;郭笑梅;;RFID系統(tǒng)閱讀器反碰撞算法分類與研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2009年09期
5 郝水俠,李凡長(zhǎng);多Agent的并行思智算法[J];計(jì)算機(jī)工程與應(yīng)用;2004年10期
6 劉貝家;方景龍;;基于SVDD的多示例學(xué)習(xí)算法[J];科技通報(bào);2011年02期
7 田大東;鄧偉;;基于不同懲罰系數(shù)的SMO改進(jìn)算法[J];計(jì)算機(jī)應(yīng)用;2008年09期
8 許敏;王士同;顧鑫;;TL-SVM:一種遷移學(xué)習(xí)算法[J];控制與決策;2014年01期
9 李雅林;張化祥;張順;;基于近鄰加權(quán)及多示例的多標(biāo)記學(xué)習(xí)改進(jìn)算法[J];計(jì)算機(jī)工程與應(yīng)用;2013年16期
10 羅玉華,李三立;RISC多發(fā)射結(jié)構(gòu)中循環(huán)優(yōu)化的軟件流水算法[J];計(jì)算機(jī)學(xué)報(bào);1993年09期
相關(guān)博士學(xué)位論文 前10條
1 吳濤;粒子群及量子行為粒子群優(yōu)化算法的改進(jìn)研究[D];西南交通大學(xué);2014年
2 徐勇;分布式壓縮感知的算法及其應(yīng)用研究[D];中國(guó)地質(zhì)大學(xué);2015年
3 蔡先發(fā);基于圖的半監(jiān)督算法及其應(yīng)用研究[D];華南理工大學(xué);2013年
4 蔣良孝;樸素貝葉斯分類器及其改進(jìn)算法研究[D];中國(guó)地質(zhì)大學(xué);2009年
5 李美安;普適分布式互斥算法及應(yīng)用[D];電子科技大學(xué);2007年
6 孫巖;貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法研究與應(yīng)用[D];大連理工大學(xué);2010年
7 吳偉寧;主動(dòng)學(xué)習(xí)算法中采樣策略研究[D];哈爾濱工業(yè)大學(xué);2013年
8 汪慶淼;基于目標(biāo)函數(shù)的模糊聚類新算法及其應(yīng)用研究[D];江蘇大學(xué);2014年
9 戴朝華;搜尋者優(yōu)化算法及其應(yīng)用研究[D];西南交通大學(xué);2009年
10 李小冬;核極限學(xué)習(xí)機(jī)的理論與算法及其在圖像處理中的應(yīng)用[D];浙江大學(xué);2014年
相關(guān)碩士學(xué)位論文 前10條
1 李超;基于標(biāo)簽傳播及適合度的社團(tuán)聚類算法研究[D];西南大學(xué);2015年
2 劉晨曦;RFID定位VIRE算法的研究與改進(jìn)[D];貴州師范大學(xué);2015年
3 馬睿;利用巖石光譜和改進(jìn)的PC算法實(shí)現(xiàn)礦物的識(shí)別[D];新疆大學(xué);2015年
4 萬猛;推薦系統(tǒng)攻擊檢測(cè)算法的研究[D];電子科技大學(xué);2014年
5 劉排;基于OMNeT++的無線傳感器網(wǎng)絡(luò)節(jié)點(diǎn)定位改進(jìn)算法的研究[D];河北工業(yè)大學(xué);2015年
6 陳辰;無線通信領(lǐng)域MIMO檢測(cè)類算法的硬件加速技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2013年
7 段沛博;分布式約束優(yōu)化算法若干問題研究[D];東北大學(xué);2013年
8 王麗紅;基于模糊聚類的社區(qū)發(fā)現(xiàn)算法研究[D];浙江工業(yè)大學(xué);2014年
9 劉恒;基于重復(fù)數(shù)的最短循環(huán)請(qǐng)求集生成算法研究[D];內(nèi)蒙古農(nóng)業(yè)大學(xué);2014年
10 米秀明;基于進(jìn)化算法的角色挖掘算法[D];北京交通大學(xué);2014年
,本文編號(hào):1336893
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1336893.html