天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于Hadoop平臺(tái)的聚類(lèi)算法并行化研究

發(fā)布時(shí)間:2018-02-24 17:07

  本文關(guān)鍵詞: 聚類(lèi) Kmeans Canopy Hadoop MapReduce 出處:《吉林大學(xué)》2017年碩士論文 論文類(lèi)型:學(xué)位論文


【摘要】:隨著信息技術(shù)的高速發(fā)展,大型商業(yè)數(shù)據(jù)庫(kù)和互聯(lián)網(wǎng)都積累了一定規(guī);蛘叱笠(guī)模的數(shù)據(jù),這些數(shù)據(jù)包含著豐富的信息內(nèi)容。人們迫切希望從這些龐大的數(shù)據(jù)中發(fā)現(xiàn)對(duì)其生活、工作有益的潛在信息,如何快速準(zhǔn)確地分析現(xiàn)有數(shù)據(jù),最大程度地獲取其蘊(yùn)含的價(jià)值,已經(jīng)成為許多公司和學(xué)者共同面對(duì)的問(wèn)題。聚類(lèi)算法在所有的數(shù)據(jù)挖掘方法中占有舉足輕重的地位,是將待分類(lèi)對(duì)象從未知過(guò)渡到已知的有效措施。Hadoop是一種開(kāi)源的能夠運(yùn)行在大量節(jié)點(diǎn)之上的分布式系統(tǒng),Map Reduce計(jì)算模型是其生態(tài)環(huán)境中的重要組成部分,與以前的并行計(jì)算模式相比,它能夠極大地簡(jiǎn)化分布式并行化程序的開(kāi)發(fā)過(guò)程。本文主要工作以及創(chuàng)新點(diǎn)如下:(1)針對(duì)串行化的Kmeans算法處理海量數(shù)據(jù)集效率低下的問(wèn)題,本文設(shè)計(jì)了基于Hadoop的Kmeans并行化算法,并對(duì)其實(shí)現(xiàn)細(xì)節(jié)進(jìn)行優(yōu)化,從而進(jìn)一步提升算法處理海量數(shù)據(jù)的性能。優(yōu)化策略主要有:對(duì)輸入數(shù)據(jù)進(jìn)行min-max標(biāo)準(zhǔn)化處理;調(diào)整HDFS數(shù)據(jù)塊大小;在Map階段和Reduce階段中間添加Combine過(guò)程,通過(guò)對(duì)Map階段輸出結(jié)果進(jìn)行合并來(lái)減少數(shù)據(jù)節(jié)點(diǎn)間的通信。(2)針對(duì)Kmeans并行化算法指定初始聚類(lèi)中心隨機(jī)性的問(wèn)題,本文采用Canopy算法快速聚類(lèi)得到一組初始聚類(lèi)中心,同時(shí)針對(duì)Canopy算法的區(qū)域半徑盲目取值會(huì)造成canopy中心點(diǎn)不準(zhǔn)確問(wèn)題,本文提出了改進(jìn)的Canopy-Kmeans并行化算法。主要改進(jìn)有:提出區(qū)域半徑的估值方法來(lái)改善canopy中心點(diǎn)的選取,從而減少算法迭代次數(shù);優(yōu)化Kmeans迭代過(guò)程來(lái)減少整體計(jì)算量,進(jìn)一步提高迭代速度;刪除數(shù)據(jù)集中的孤立點(diǎn),得到更準(zhǔn)確的初始聚類(lèi)中心。(3)通過(guò)搭建Hadoop平臺(tái)對(duì)基于Map Reduce的改進(jìn)Canopy-Kmeans并行化算法進(jìn)行了一系列的測(cè)試來(lái)驗(yàn)證其性能。實(shí)驗(yàn)結(jié)果表明:改進(jìn)的Canopy-Kmeans并行化算法是有效的、收斂的,且可以進(jìn)一步提升聚類(lèi)準(zhǔn)確率,減少算法迭代次數(shù);該算法具有良好的可擴(kuò)展性和加速比性能,進(jìn)一步驗(yàn)證了本文設(shè)計(jì)的并行化算法適合處理海量數(shù)據(jù)集。
[Abstract]:This paper presents a series of tests to improve the performance of the distributed parallelizing program . The optimization strategy is as follows : ( 1 ) To improve the performance of the distributed parallelizing program .

【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP311.13

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張偉;姜愷;劉洪;;直接模擬Monte Carlo方法并行化研究[J];計(jì)算機(jī)應(yīng)用與軟件;2009年09期

2 吳正娟;職為梅;楊勇;范明;;并行化的粒子群技術(shù)[J];微計(jì)算機(jī)信息;2009年36期

3 齊書(shū)陽(yáng);;迎接并行化的明天[J];軟件世界;2009年06期

4 曹琳,楊學(xué)軍,金國(guó)華;兩種并行化機(jī)制的分析[J];計(jì)算機(jī)研究與發(fā)展;1993年09期

5 金國(guó)華,,陳福接;并行化技術(shù)與工具[J];計(jì)算機(jī)研究與發(fā)展;1996年07期

6 蔡立志,童維勤,廖文昭;序列拼裝程序的并行化研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2003年14期

7 王偉;潘建偉;;有限差分法的并行化計(jì)算實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2008年07期

8 程錦松;;迭代法的并行化[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);1997年03期

9 陳再高;王s

本文編號(hào):1531031


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1531031.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)c4fb3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com