天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于Hadoop和Mahout的K-Means算法設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2018-04-13 19:06

  本文選題:K-Means + 云計(jì)算; 參考:《大連海事大學(xué)》2016年碩士論文


【摘要】:隨著計(jì)算機(jī)技術(shù)的進(jìn)步,互聯(lián)網(wǎng)上的數(shù)據(jù)量與日俱增,從海量的數(shù)據(jù)中挖掘有價(jià)值的信息顯得非常重要。單機(jī)在處理海量數(shù)據(jù)時(shí)存在計(jì)算能力不足、存儲(chǔ)空間有限和內(nèi)存太小等問題,而將傳統(tǒng)的算法遷移到Hadoop平臺(tái),經(jīng)過并行化改進(jìn)可以有效的解決該問題。本文搭建的是基于Hadoop和Mahout的實(shí)驗(yàn)平臺(tái)。Hadoop和Mahout都是Apache下開源項(xiàng)目。Hadoop是一種分布式系統(tǒng)框架,Mahout是云平臺(tái)上的數(shù)據(jù)挖掘領(lǐng)域的算法庫。Hadoop平臺(tái)具有很強(qiáng)的計(jì)算能力,結(jié)合Mahout可以進(jìn)行海量數(shù)據(jù)挖掘。本文主要研究了數(shù)據(jù)挖掘技術(shù)中的K-Means算法,用Canopy算法進(jìn)行預(yù)處理后再使用K-Means算法聚類,在前人研究的Canopy-kmeans算法基礎(chǔ)上提出了基于層次分析(AHP)的加權(quán)歐式距離的方法,并用改進(jìn)的算法對UCI中的KDD99標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行聚類和分析。本文主要工作如下:(1)介紹論文的相關(guān)技術(shù),并對Hadoop框架和Mahout庫進(jìn)行說明。(2)分析研究K-Means算法的優(yōu)缺點(diǎn),用Canopy算法進(jìn)行數(shù)據(jù)預(yù)處理后再進(jìn)行K-Means算法聚類,可以減少噪聲點(diǎn)對算法的影響,更好地確定K值和聚類中心。本文在此基礎(chǔ)上提出基于AHP的加權(quán)歐氏距離的方法,可以更好地適用于多維海量數(shù)據(jù)集。(3)分析Mahout庫中的K-Means算法并改進(jìn),對標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行聚類分析后,改進(jìn)的算法在算法穩(wěn)定性和聚類準(zhǔn)確率上有了提升,并且可以對海量數(shù)據(jù)進(jìn)行處理。
[Abstract]:With the development of computer technology, the amount of data on the Internet is increasing day by day. It is very important to mine valuable information from the huge amount of data.There are some problems such as insufficient computing power, limited storage space and too little memory in processing massive data on a single computer. However, the traditional algorithm is migrated to Hadoop platform, which can be effectively solved by parallelization improvement.In this paper, the experimental platform based on Hadoop and Mahout. Hadoop and Mahout are open source project. Hadoop is a distributed system framework. Hadoop is a data mining algorithm library on cloud platform. Hadoop platform has strong computing power.Combined with Mahout, massive data mining can be carried out.In this paper, we mainly study the K-Means algorithm in the data mining technology. We use the Canopy algorithm to preprocess and then use the K-Means algorithm to cluster. Based on the previous Canopy-kmeans algorithm, we propose a method of weighted Euclidean distance based on AHP (Analytical hierarchy process).The improved algorithm is used to cluster and analyze the KDD99 standard data set in UCI.The main work of this paper is as follows: (1) introduce the related technologies of the thesis, and explain the Hadoop framework and Mahout library. (2) analyze the advantages and disadvantages of the K-Means algorithm, use Canopy algorithm to preprocess the data and then cluster the K-Means algorithm.The effect of noise points on the algorithm can be reduced, and K value and clustering center can be better determined.In this paper, the method of weighted Euclidean distance based on AHP is proposed, which is more suitable for analyzing the K-Means algorithm in the Mahout database and improving it.The improved algorithm improves the algorithm stability and clustering accuracy, and can deal with massive data.
【學(xué)位授予單位】:大連海事大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 葛磊;武芳;王鵬波;張冬林;;3維建筑綜合中基于最小特征的面平移算法[J];測繪科學(xué)技術(shù)學(xué)報(bào);2009年02期

2 駱雯,孫延明,陳振威,陳錦昌;判斷點(diǎn)與封閉多邊形相對關(guān)系的改進(jìn)算法[J];機(jī)械;1999年03期

3 李林;盧顯良;;一種基于切割映射的規(guī)則沖突消除算法[J];電子學(xué)報(bào);2008年02期

4 劉巧玲;張紅英;林茂松;;一種簡單快速的圖像去霧算法[J];計(jì)算機(jī)應(yīng)用與軟件;2013年07期

5 林亞平,楊小林;快速概率分析進(jìn)化算法及其性能研究[J];電子學(xué)報(bào);2001年02期

6 章郡鋒;吳曉紅;黃曉強(qiáng);何小海;;基于暗原色先驗(yàn)去霧的改進(jìn)算法[J];電視技術(shù);2013年23期

7 楊鐵軍;靳婷;;一種動(dòng)態(tài)整周模糊值求解算法及其仿真分析[J];系統(tǒng)工程與電子技術(shù);2007年01期

8 周秀玲;郭平;陳寶維;王靜;;幾種計(jì)算超體積算法的比較研究[J];計(jì)算機(jī)工程;2011年03期

9 吳一戎,胡東輝,彭海良;Chirp Scaling SAR成象算法及其實(shí)現(xiàn)[J];電子科學(xué)學(xué)刊;1995年03期

10 王貴竹;一種產(chǎn)生單向分解值的算法[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年03期

相關(guān)會(huì)議論文 前10條

1 尹冀鋒;;一種新的圖象自適應(yīng)增強(qiáng)算法[A];四川省通信學(xué)會(huì)一九九二年學(xué)術(shù)年會(huì)論文集[C];1992年

2 寧春平;田家瑋;郭延輝;王影;張英濤;鄭桂霞;劉研;;計(jì)算機(jī)輔助增強(qiáng)、分割算法在鑒別乳腺良、惡性腫塊中的應(yīng)用價(jià)值[A];中華醫(yī)學(xué)會(huì)第十次全國超聲醫(yī)學(xué)學(xué)術(shù)會(huì)議論文匯編[C];2009年

3 謝麗聰;;SVB查詢改寫算法的改進(jìn)[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年

4 鄭存紅;;復(fù)雜背景下相關(guān)跟蹤算法研究及DSP實(shí)現(xiàn)[A];中國光學(xué)學(xué)會(huì)2010年光學(xué)大會(huì)論文集[C];2010年

5 楊文杰;吳軍;;RFID抗沖突算法研究[A];2008通信理論與技術(shù)新進(jìn)展——第十三屆全國青年通信學(xué)術(shù)會(huì)議論文集(上)[C];2008年

6 高山;畢篤彥;魏娜;;一種基于UPF的小目標(biāo)TBD算法[A];第十四屆全國圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2008年

7 周磊;張衛(wèi)華;王曉奇;張軍;;基于流水算法的智能路障機(jī)器人設(shè)計(jì)[A];2011年全國電子信息技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2011年

8 潘巍;李戰(zhàn)懷;陳群;索博;李衛(wèi)榜;;面向MapReduce的非對稱分片復(fù)制連接算法優(yōu)化技術(shù)研究[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年

9 李偉偉;蔡康穎;鄭新;王文成;;3D模型中重復(fù)結(jié)構(gòu)的多尺度快速檢測算法[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年

10 楊任爾;陳懇;勵(lì)金祥;;基于棱邊方向檢測的運(yùn)動(dòng)自適應(yīng)去隔行算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年

相關(guān)重要報(bào)紙文章 前1條

1 國泰君安資產(chǎn)管理部;“算法交易”是道指暴跌罪魁禍?zhǔn)?[N];上海證券報(bào);2010年

相關(guān)博士學(xué)位論文 前10條

1 馮輝;網(wǎng)絡(luò)化的并行與分布式優(yōu)化算法研究及應(yīng)用[D];復(fù)旦大學(xué);2013年

2 許玉杰;云計(jì)算環(huán)境下海量數(shù)據(jù)的并行聚類算法研究[D];大連海事大學(xué);2014年

3 李琰;基于貓群算法的高光譜遙感森林類型識(shí)別研究[D];東北林業(yè)大學(xué);2015年

4 陳加順;海洋環(huán)境下聚類算法的研究[D];南京航空航天大學(xué);2014年

5 王洋;基于群體智能的通信網(wǎng)絡(luò)告警關(guān)聯(lián)規(guī)則挖掘算法研究[D];太原理工大學(xué);2015年

6 雷雨;面向考試時(shí)間表問題的啟發(fā)式進(jìn)化算法研究[D];西安電子科技大學(xué);2015年

7 熊霖;大數(shù)據(jù)下的數(shù)據(jù)選擇與學(xué)習(xí)算法研究[D];西安電子科技大學(xué);2015年

8 周雷;基于圖結(jié)構(gòu)的目標(biāo)檢測與分割算法研究[D];上海交通大學(xué);2014年

9 王冰;人工蜂群算法的改進(jìn)及相關(guān)應(yīng)用的研究[D];北京理工大學(xué);2015年

10 蔣亦樟;多視角和遷移學(xué)習(xí)識(shí)別方法和智能建模研究[D];江南大學(xué);2015年

相關(guān)碩士學(xué)位論文 前10條

1 姚鑫宇;EMD去噪與MUSIC算法在DOA估計(jì)中的聯(lián)合應(yīng)用[D];昆明理工大學(xué);2015年

2 陸進(jìn);面向含噪數(shù)據(jù)聚類相關(guān)算法的研究[D];復(fù)旦大學(xué);2014年

3 李家昌;基于能量約束的超聲圖像自動(dòng)分割算法[D];華南理工大學(xué);2015年

4 陳堅(jiān);基于密度和約束的數(shù)據(jù)流聚類算法研究[D];蘭州大學(xué);2015年

5 高健;基于Zynq7000平臺(tái)的去霧算法研究及實(shí)現(xiàn)[D];南京理工大學(xué);2015年

6 顧磊;基于Hadoop的聚類算法的數(shù)據(jù)優(yōu)化及其應(yīng)用研究[D];南京信息工程大學(xué);2015年

7 楊燕霞;基于Hadoop平臺(tái)的并行關(guān)聯(lián)規(guī)則挖掘算法研究[D];四川師范大學(xué);2015年

8 王羽;基于MapReduce的社區(qū)發(fā)現(xiàn)算法的設(shè)計(jì)與實(shí)現(xiàn)[D];南京理工大學(xué);2015年

9 許振佳;流式數(shù)據(jù)的并行聚類算法研究[D];曲阜師范大學(xué);2015年

10 董琴;人工蜂群算法的改進(jìn)與應(yīng)用[D];大連海事大學(xué);2015年

,

本文編號(hào):1745805

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1745805.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6c54c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com