天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于Hadoop和Mahout的K-Means算法設(shè)計與實現(xiàn)

發(fā)布時間:2018-04-13 19:06

  本文選題:K-Means + 云計算; 參考:《大連海事大學(xué)》2016年碩士論文


【摘要】:隨著計算機技術(shù)的進步,互聯(lián)網(wǎng)上的數(shù)據(jù)量與日俱增,從海量的數(shù)據(jù)中挖掘有價值的信息顯得非常重要。單機在處理海量數(shù)據(jù)時存在計算能力不足、存儲空間有限和內(nèi)存太小等問題,而將傳統(tǒng)的算法遷移到Hadoop平臺,經(jīng)過并行化改進可以有效的解決該問題。本文搭建的是基于Hadoop和Mahout的實驗平臺。Hadoop和Mahout都是Apache下開源項目。Hadoop是一種分布式系統(tǒng)框架,Mahout是云平臺上的數(shù)據(jù)挖掘領(lǐng)域的算法庫。Hadoop平臺具有很強的計算能力,結(jié)合Mahout可以進行海量數(shù)據(jù)挖掘。本文主要研究了數(shù)據(jù)挖掘技術(shù)中的K-Means算法,用Canopy算法進行預(yù)處理后再使用K-Means算法聚類,在前人研究的Canopy-kmeans算法基礎(chǔ)上提出了基于層次分析(AHP)的加權(quán)歐式距離的方法,并用改進的算法對UCI中的KDD99標(biāo)準數(shù)據(jù)集進行聚類和分析。本文主要工作如下:(1)介紹論文的相關(guān)技術(shù),并對Hadoop框架和Mahout庫進行說明。(2)分析研究K-Means算法的優(yōu)缺點,用Canopy算法進行數(shù)據(jù)預(yù)處理后再進行K-Means算法聚類,可以減少噪聲點對算法的影響,更好地確定K值和聚類中心。本文在此基礎(chǔ)上提出基于AHP的加權(quán)歐氏距離的方法,可以更好地適用于多維海量數(shù)據(jù)集。(3)分析Mahout庫中的K-Means算法并改進,對標(biāo)準數(shù)據(jù)集進行聚類分析后,改進的算法在算法穩(wěn)定性和聚類準確率上有了提升,并且可以對海量數(shù)據(jù)進行處理。
[Abstract]:With the development of computer technology, the amount of data on the Internet is increasing day by day. It is very important to mine valuable information from the huge amount of data.There are some problems such as insufficient computing power, limited storage space and too little memory in processing massive data on a single computer. However, the traditional algorithm is migrated to Hadoop platform, which can be effectively solved by parallelization improvement.In this paper, the experimental platform based on Hadoop and Mahout. Hadoop and Mahout are open source project. Hadoop is a distributed system framework. Hadoop is a data mining algorithm library on cloud platform. Hadoop platform has strong computing power.Combined with Mahout, massive data mining can be carried out.In this paper, we mainly study the K-Means algorithm in the data mining technology. We use the Canopy algorithm to preprocess and then use the K-Means algorithm to cluster. Based on the previous Canopy-kmeans algorithm, we propose a method of weighted Euclidean distance based on AHP (Analytical hierarchy process).The improved algorithm is used to cluster and analyze the KDD99 standard data set in UCI.The main work of this paper is as follows: (1) introduce the related technologies of the thesis, and explain the Hadoop framework and Mahout library. (2) analyze the advantages and disadvantages of the K-Means algorithm, use Canopy algorithm to preprocess the data and then cluster the K-Means algorithm.The effect of noise points on the algorithm can be reduced, and K value and clustering center can be better determined.In this paper, the method of weighted Euclidean distance based on AHP is proposed, which is more suitable for analyzing the K-Means algorithm in the Mahout database and improving it.The improved algorithm improves the algorithm stability and clustering accuracy, and can deal with massive data.
【學(xué)位授予單位】:大連海事大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13

【相似文獻】

相關(guān)期刊論文 前10條

1 葛磊;武芳;王鵬波;張冬林;;3維建筑綜合中基于最小特征的面平移算法[J];測繪科學(xué)技術(shù)學(xué)報;2009年02期

2 駱雯,孫延明,陳振威,陳錦昌;判斷點與封閉多邊形相對關(guān)系的改進算法[J];機械;1999年03期

3 李林;盧顯良;;一種基于切割映射的規(guī)則沖突消除算法[J];電子學(xué)報;2008年02期

4 劉巧玲;張紅英;林茂松;;一種簡單快速的圖像去霧算法[J];計算機應(yīng)用與軟件;2013年07期

5 林亞平,楊小林;快速概率分析進化算法及其性能研究[J];電子學(xué)報;2001年02期

6 章郡鋒;吳曉紅;黃曉強;何小海;;基于暗原色先驗去霧的改進算法[J];電視技術(shù);2013年23期

7 楊鐵軍;靳婷;;一種動態(tài)整周模糊值求解算法及其仿真分析[J];系統(tǒng)工程與電子技術(shù);2007年01期

8 周秀玲;郭平;陳寶維;王靜;;幾種計算超體積算法的比較研究[J];計算機工程;2011年03期

9 吳一戎,胡東輝,彭海良;Chirp Scaling SAR成象算法及其實現(xiàn)[J];電子科學(xué)學(xué)刊;1995年03期

10 王貴竹;一種產(chǎn)生單向分解值的算法[J];安徽大學(xué)學(xué)報(自然科學(xué)版);2001年03期

相關(guān)會議論文 前10條

1 尹冀鋒;;一種新的圖象自適應(yīng)增強算法[A];四川省通信學(xué)會一九九二年學(xué)術(shù)年會論文集[C];1992年

2 寧春平;田家瑋;郭延輝;王影;張英濤;鄭桂霞;劉研;;計算機輔助增強、分割算法在鑒別乳腺良、惡性腫塊中的應(yīng)用價值[A];中華醫(yī)學(xué)會第十次全國超聲醫(yī)學(xué)學(xué)術(shù)會議論文匯編[C];2009年

3 謝麗聰;;SVB查詢改寫算法的改進[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年

4 鄭存紅;;復(fù)雜背景下相關(guān)跟蹤算法研究及DSP實現(xiàn)[A];中國光學(xué)學(xué)會2010年光學(xué)大會論文集[C];2010年

5 楊文杰;吳軍;;RFID抗沖突算法研究[A];2008通信理論與技術(shù)新進展——第十三屆全國青年通信學(xué)術(shù)會議論文集(上)[C];2008年

6 高山;畢篤彥;魏娜;;一種基于UPF的小目標(biāo)TBD算法[A];第十四屆全國圖象圖形學(xué)學(xué)術(shù)會議論文集[C];2008年

7 周磊;張衛(wèi)華;王曉奇;張軍;;基于流水算法的智能路障機器人設(shè)計[A];2011年全國電子信息技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2011年

8 潘巍;李戰(zhàn)懷;陳群;索博;李衛(wèi)榜;;面向MapReduce的非對稱分片復(fù)制連接算法優(yōu)化技術(shù)研究[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)(NDBC2012)[C];2012年

9 李偉偉;蔡康穎;鄭新;王文成;;3D模型中重復(fù)結(jié)構(gòu)的多尺度快速檢測算法[A];第六屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2010)、第19屆全國多媒體學(xué)術(shù)會議(NCMT2010)、第6屆全國人機交互學(xué)術(shù)會議(CHCI2010)、第5屆全國普適計算學(xué)術(shù)會議(PCC2010)論文集[C];2010年

10 楊任爾;陳懇;勵金祥;;基于棱邊方向檢測的運動自適應(yīng)去隔行算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年

相關(guān)重要報紙文章 前1條

1 國泰君安資產(chǎn)管理部;“算法交易”是道指暴跌罪魁禍首?[N];上海證券報;2010年

相關(guān)博士學(xué)位論文 前10條

1 馮輝;網(wǎng)絡(luò)化的并行與分布式優(yōu)化算法研究及應(yīng)用[D];復(fù)旦大學(xué);2013年

2 許玉杰;云計算環(huán)境下海量數(shù)據(jù)的并行聚類算法研究[D];大連海事大學(xué);2014年

3 李琰;基于貓群算法的高光譜遙感森林類型識別研究[D];東北林業(yè)大學(xué);2015年

4 陳加順;海洋環(huán)境下聚類算法的研究[D];南京航空航天大學(xué);2014年

5 王洋;基于群體智能的通信網(wǎng)絡(luò)告警關(guān)聯(lián)規(guī)則挖掘算法研究[D];太原理工大學(xué);2015年

6 雷雨;面向考試時間表問題的啟發(fā)式進化算法研究[D];西安電子科技大學(xué);2015年

7 熊霖;大數(shù)據(jù)下的數(shù)據(jù)選擇與學(xué)習(xí)算法研究[D];西安電子科技大學(xué);2015年

8 周雷;基于圖結(jié)構(gòu)的目標(biāo)檢測與分割算法研究[D];上海交通大學(xué);2014年

9 王冰;人工蜂群算法的改進及相關(guān)應(yīng)用的研究[D];北京理工大學(xué);2015年

10 蔣亦樟;多視角和遷移學(xué)習(xí)識別方法和智能建模研究[D];江南大學(xué);2015年

相關(guān)碩士學(xué)位論文 前10條

1 姚鑫宇;EMD去噪與MUSIC算法在DOA估計中的聯(lián)合應(yīng)用[D];昆明理工大學(xué);2015年

2 陸進;面向含噪數(shù)據(jù)聚類相關(guān)算法的研究[D];復(fù)旦大學(xué);2014年

3 李家昌;基于能量約束的超聲圖像自動分割算法[D];華南理工大學(xué);2015年

4 陳堅;基于密度和約束的數(shù)據(jù)流聚類算法研究[D];蘭州大學(xué);2015年

5 高健;基于Zynq7000平臺的去霧算法研究及實現(xiàn)[D];南京理工大學(xué);2015年

6 顧磊;基于Hadoop的聚類算法的數(shù)據(jù)優(yōu)化及其應(yīng)用研究[D];南京信息工程大學(xué);2015年

7 楊燕霞;基于Hadoop平臺的并行關(guān)聯(lián)規(guī)則挖掘算法研究[D];四川師范大學(xué);2015年

8 王羽;基于MapReduce的社區(qū)發(fā)現(xiàn)算法的設(shè)計與實現(xiàn)[D];南京理工大學(xué);2015年

9 許振佳;流式數(shù)據(jù)的并行聚類算法研究[D];曲阜師范大學(xué);2015年

10 董琴;人工蜂群算法的改進與應(yīng)用[D];大連海事大學(xué);2015年



本文編號:1745805

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1745805.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6c54c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
一区二区日韩欧美精品| 亚洲av日韩一区二区三区四区| 黄色国产自拍在线观看| 色偷偷亚洲女人天堂观看| 欧美中文字幕日韩精品| 麻豆在线观看一区二区| 中国美女偷拍福利视频| 亚洲高清一区二区高清| 亚洲国产性生活高潮免费视频| 国产午夜福利在线免费观看| 久久精品蜜桃一区二区av| 欧美人妻盗摄日韩偷拍| 九九热精彩视频在线播放| 又大又长又粗又黄国产| 欧美日韩少妇精品专区性色| 女人精品内射国产99| 亚洲国产精品久久琪琪| 91亚洲国产成人久久| 尤物久久91欧美人禽亚洲| 99久久精品午夜一区| 日本最新不卡免费一区二区| 欧美又黑又粗大又硬又爽| 欧美精品女同一区二区| 色丁香一区二区黑人巨大| 高潮少妇高潮久久精品99| 精品女同在线一区二区| 久久本道综合色狠狠五月| 亚洲熟女国产熟女二区三区| 久久偷拍视频免费观看| 国产一区二区三区av在线| 综合久综合久综合久久| 亚洲国产精品久久综合网| 亚洲国产中文字幕在线观看| 国产欧美日韩在线一区二区| 亚洲少妇人妻一区二区| 日本免费熟女一区二区三区| 成人区人妻精品一区二区三区| 国产专区亚洲专区久久| 熟女中文字幕一区二区三区| 国产一区麻豆水好多高潮| 99在线视频精品免费播放|