天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于密度和距離的K-means算法研究與應(yīng)用

發(fā)布時(shí)間:2018-05-12 23:19

  本文選題:數(shù)據(jù)挖掘 + 聚類分析 ; 參考:《西安理工大學(xué)》2016年碩士論文


【摘要】:數(shù)據(jù)挖掘是在大數(shù)據(jù)集上的探索并揭示其隱含規(guī)律的一種計(jì)算過程,它融合了眾多的技術(shù),是計(jì)算機(jī)科學(xué)的重要分支。其中聚類分析是數(shù)據(jù)挖掘中重要的分析技術(shù)之一,聚類分析是按照相似度進(jìn)行劃分的,將本身沒有類別的數(shù)據(jù)樣本劃分成不同的簇。本文選取的是K-means算法進(jìn)行研究,它是數(shù)據(jù)挖掘中最基本的聚類算法。該算法的優(yōu)點(diǎn)是執(zhí)行簡單、操作方便,但是也存在著諸多的缺點(diǎn),比如:聚類形成的簇?cái)?shù)K是由用戶指定;初始聚類中心是隨機(jī)選取的;該算法只能發(fā)現(xiàn)類球狀的簇等。本文的工作主要分為以下三個(gè)方面:首先在K-means算法的理論研究上,一方面,剔除了影響聚類結(jié)果的孤立點(diǎn)和對初始聚類中心選取進(jìn)行了改進(jìn)。另一方面,在確定了初始聚類中心后,把數(shù)據(jù)點(diǎn)合理地分配到各個(gè)簇中;其次為了能對海量數(shù)據(jù)進(jìn)行處理,把改進(jìn)算法在Spark平臺(tái)上進(jìn)行了實(shí)現(xiàn);最后本文將改進(jìn)算法應(yīng)用到了移動(dòng)客戶細(xì)分中。實(shí)驗(yàn)證明,改進(jìn)后的K-means算法比傳統(tǒng)K-means算法的聚類結(jié)果更加準(zhǔn)確。本文借助Spark平臺(tái)對改進(jìn)算法進(jìn)行并行化實(shí)現(xiàn),從而能夠在不影響準(zhǔn)確度的情況下減少算法執(zhí)行的時(shí)間。通過對細(xì)分變量的選擇,把采集到的移動(dòng)客戶數(shù)據(jù)根據(jù)相似性劃分成不同的類別,能夠幫助移動(dòng)數(shù)據(jù)信息分析人員對不同的客戶群采取不同的營銷策略。
[Abstract]:Data mining is a kind of computing process to explore and reveal the hidden rules on big data set. It combines many technologies and is an important branch of computer science. Clustering analysis is one of the most important analysis techniques in data mining. Clustering analysis is divided according to similarity, and the data samples that do not have a category are divided into different clusters. In this paper, K-means algorithm is selected, which is the most basic clustering algorithm in data mining. The advantage of this algorithm is that it is simple to execute and easy to operate, but it also has many disadvantages, such as: the number of clusters K formed by clustering is specified by the user; the initial cluster center is randomly selected; and the algorithm can only find globular clusters and so on. The work of this paper is divided into the following three aspects: firstly, in the theoretical research of K-means algorithm, on the one hand, the isolated points that affect the clustering results are eliminated and the selection of initial clustering centers is improved. On the other hand, after determining the initial clustering center, the data points are allocated to each cluster reasonably. Secondly, in order to process the massive data, the improved algorithm is implemented on the Spark platform. Finally, the improved algorithm is applied to mobile customer segmentation. Experimental results show that the improved K-means algorithm is more accurate than the traditional K-means algorithm. In this paper, the improved algorithm is parallelized with the help of Spark platform, which can reduce the execution time of the algorithm without affecting the accuracy. Through the selection of subdivision variables, the collected mobile customer data can be divided into different categories according to similarity, which can help mobile data information analysts to take different marketing strategies for different customer groups.
【學(xué)位授予單位】:西安理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 黃興;劉小青;曹步清;唐明董;劉建勛;;融合K-Means與Agnes的Mashup服務(wù)聚類方法[J];小型微型計(jì)算機(jī)系統(tǒng);2015年11期

2 楊紅光;劉建生;;一種結(jié)合灰狼優(yōu)化和K-均值的混合聚類算法[J];江西理工大學(xué)學(xué)報(bào);2015年05期

3 孔令凱;向毅;梁松;;關(guān)于結(jié)合層次聚類和K-means算法進(jìn)行聚類的研究[J];科技創(chuàng)新與應(yīng)用;2015年25期

4 吳春瑾;;試分析數(shù)據(jù)挖掘中的統(tǒng)計(jì)方法及其應(yīng)用研究[J];商;2015年19期

5 邢長征;谷浩;;基于平均密度優(yōu)化初始聚類中心的k-means算法[J];計(jì)算機(jī)工程與應(yīng)用;2014年20期

6 時(shí)甜甜;;移動(dòng)互聯(lián)網(wǎng)用戶群的變化及影響[J];中國電信業(yè);2013年09期

7 王榮;王飛戈;吳坤芳;;基于改進(jìn)ROCK算法的個(gè)性化推薦系統(tǒng)研究[J];河南科學(xué);2011年11期

8 盧秀惠;;Master/Slave型集群系統(tǒng)加速比的研究[J];渤海大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年03期

9 譚本軍;;聚類算法在移動(dòng)客戶細(xì)分中的應(yīng)用[J];科技信息;2010年14期

10 龍真真;張策;劉飛裔;張正文;;一種改進(jìn)的Chameleon算法[J];計(jì)算機(jī)工程;2009年20期

相關(guān)博士學(xué)位論文 前1條

1 楊善升;基于數(shù)據(jù)挖掘的若干化工過程優(yōu)化和化合物構(gòu)效關(guān)系研究[D];上海大學(xué);2008年

相關(guān)碩士學(xué)位論文 前10條

1 李文棟;基于Spark的大數(shù)據(jù)挖掘技術(shù)的研究與實(shí)現(xiàn)[D];山東大學(xué);2015年

2 秦國棟;以數(shù)據(jù)挖掘?yàn)榛A(chǔ)的成都移動(dòng)客戶保有系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年

3 崔廣風(fēng);數(shù)據(jù)挖掘中的統(tǒng)計(jì)方法及其應(yīng)用研究[D];西南石油大學(xué);2014年

4 常凱;基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘分類算法比較和分析研究[D];安徽大學(xué);2014年

5 姚蒙;基于云計(jì)算平臺(tái)的聚類算法的研究[D];武漢理工大學(xué);2014年

6 馮琳;集群計(jì)算引擎Spark中的內(nèi)存優(yōu)化研究與實(shí)現(xiàn)[D];清華大學(xué);2013年

7 許微;基于知識(shí)發(fā)現(xiàn)機(jī)制的企業(yè)決策支持系統(tǒng)構(gòu)建研究[D];湘潭大學(xué);2013年

8 龐巧紅;數(shù)據(jù)挖掘技術(shù)在信用卡客戶分析中的應(yīng)用[D];西南財(cái)經(jīng)大學(xué);2012年

9 吳建峰;無線傳感器網(wǎng)絡(luò)數(shù)據(jù)壓縮算法研究[D];杭州電子科技大學(xué);2012年

10 謝毅;海量遙感影像數(shù)據(jù)存儲(chǔ)組織結(jié)構(gòu)研究[D];河南大學(xué);2011年



本文編號(hào):1880590

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1880590.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶082bc***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
国产专区亚洲专区久久| 亚洲日本久久国产精品久久| 欧美午夜伦理在线观看| 欧美日韩免费黄片观看| 国产老熟女乱子人伦视频| 高清不卡视频在线观看| 好吊妞视频只有这里有精品| 国产亚洲不卡一区二区| 91亚洲国产成人久久精品麻豆| 亚洲香艳网久久五月婷婷| 日本欧美一区二区三区高清| 亚洲中文字幕高清视频在线观看| 亚洲午夜精品视频观看| 午夜午夜精品一区二区| 国产熟女一区二区精品视频| 亚洲精品国产福利在线| 欧美视频在线观看一区| 一本久道久久综合中文字幕| 激情视频在线视频在线视频 | 欧美日韩在线观看自拍| 国产日韩欧美一区二区| 在线日韩中文字幕一区| 亚洲国产成人av毛片国产 | 熟女乱一区二区三区丝袜| 欧洲精品一区二区三区四区| 成人午夜视频在线播放| 成人午夜激情在线免费观看| 国产av熟女一区二区三区四区| 欧洲日韩精品一区二区三区| 久久本道综合色狠狠五月| 日本 一区二区 在线| 丰满人妻一二三区av| 欧美日本道一区二区三区| 亚洲国产成人爱av在线播放下载| 亚洲精品一区二区三区免| 九九热这里只有精品哦| 国产香蕉国产精品偷在线观看 | 大香蕉伊人一区二区三区| 91亚洲国产成人久久精品麻豆| 日韩美成人免费在线视频 | 91亚洲国产—区=区a|