基于MapReduce的改進k-means文本聚類算法
本文關(guān)鍵詞:基于MapReduce的改進k-means文本聚類算法
更多相關(guān)文章: k-means算法 文本聚類 MapReduce
【摘要】:針對傳統(tǒng)k-means文本聚類算法在處理大規(guī)模文本數(shù)據(jù)時擴展性不足的問題,提出了基于MapReduce編程模型的并行k-means文本聚類算法。通過刪除離群點和采用高效的初始質(zhì)心選擇策略提高k-means聚類效果,并設(shè)計基于MapReduce框架的大規(guī)模文本并行聚類模型提高算法的可擴展性。實驗證明,該算法在大規(guī)模文本聚類中具有良好的聚類效果和可擴展性。
【作者單位】: 江蘇科技大學(xué)計算機科學(xué)與工程學(xué)院;
【分類號】:TP391.1
【正文快照】: 0引言隨著大數(shù)據(jù)的興起,數(shù)據(jù)挖掘工作顯得越發(fā)重要,傳統(tǒng)的數(shù)據(jù)處理平臺和數(shù)據(jù)處理方法受到了極大的挑戰(zhàn)。通過分布式系統(tǒng)將任務(wù)分而治之是當前一個重要的研究方向,而任務(wù)調(diào)度,容錯能力以及節(jié)點間的通信等問題則顯得尤為重要。MapReduce是谷歌提出的用于處理大規(guī)模數(shù)據(jù)集的分布
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 龔靜;李英杰;;文本聚類算法的分析與比較[J];湖南環(huán)境生物職業(yè)技術(shù)學(xué)院學(xué)報;2006年03期
2 李眾;梁志劍;;一種改進的文本聚類算法[J];陜西科技大學(xué)學(xué)報(自然科學(xué)版);2008年06期
3 甘克勤;叢超;張寶林;孫旭凱;;基于劃分的文本聚類算法在標準文獻中的試驗與對比研究[J];標準科學(xué);2013年10期
4 莫紫娟;;試論短文本聚類算法在微博的應(yīng)用[J];科技致富向?qū)?2014年09期
5 史夢潔;;文本聚類算法綜述[J];現(xiàn)代計算機(專業(yè)版);2014年03期
6 張書敏;;短文本聚類算法研究[J];科技致富向?qū)?2013年09期
7 朱君;曲超;湯庸;;利用單詞超團的二分圖文本聚類算法[J];電子科技大學(xué)學(xué)報;2008年03期
8 石曉敬;韓燮;;文本聚類算法的設(shè)計與實現(xiàn)[J];計算機工程與設(shè)計;2010年09期
9 殷風景;肖衛(wèi)東;葛斌;李芳芳;;一種面向網(wǎng)絡(luò)話題發(fā)現(xiàn)的增量文本聚類算法[J];計算機應(yīng)用研究;2011年01期
10 李巖;婁云;;文本聚類算法在輿情監(jiān)控中的應(yīng)用分析[J];電子設(shè)計工程;2013年01期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 蔡嘉榮;印鑒;劉玉葆;黃志蘭;;一種有效的文本聚類算法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 范新梅;基于微博的輿情分析系統(tǒng)設(shè)計與實現(xiàn)[D];河北科技大學(xué);2015年
2 程楊;中文短文本聚類算法的研究[D];吉林大學(xué);2016年
3 馬文超;基于2度頻繁詞序列的文本聚類算法研究[D];河南大學(xué);2009年
4 劉龍海;基于成對約束的半監(jiān)督文本聚類算法研究[D];重慶大學(xué);2011年
5 黃文江;中文文本聚類算法分析與研究[D];上海交通大學(xué);2010年
6 潘啟蒙;文本聚類算法的研究與實現(xiàn)[D];吉林大學(xué);2008年
7 郭增新;基于語義的文本聚類算法研究[D];西安電子科技大學(xué);2012年
8 高利波;文本聚類算法的研究及應(yīng)用[D];電子科技大學(xué);2013年
9 馬素琴;基于相似度的文本聚類算法研究及應(yīng)用[D];江蘇大學(xué);2010年
10 翟獻民;維吾爾語文本聚類算法研究[D];新疆大學(xué);2013年
,本文編號:1258543
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1258543.html