基于Spark平臺的CURE算法并行化設計與應用
本文關鍵詞:基于Spark平臺的CURE算法并行化設計與應用,由筆耕文化傳播整理發(fā)布。
《華南理工大學》 2014年
基于Spark平臺的CURE算法并行化設計與應用
邱榮財
【摘要】:近年來,云計算的研究,相應地興起了大數(shù)據(jù)處理平臺的研究,Hadoop的誕生讓人們從MPI(Message Passing Interface)轉(zhuǎn)向了MapReduce計算模型的研究。Spark平臺通過引入RDD(Resilient Distributed Datasets)模型大大提高了其處理速度,使其在交互式計算和迭代計算方面遠勝于Hadoop,擅長迭代計算的優(yōu)勢使得Spark處理平臺非常有利于成為大數(shù)據(jù)的數(shù)據(jù)挖掘利器。大數(shù)據(jù)的核心處理之一就是數(shù)據(jù)挖掘,而處理要求也高,Spark的出現(xiàn)正是迎合了廣大企業(yè)、學者的需求。聚類算法是數(shù)據(jù)挖掘中的一個重要部分,而如今Spark平臺對聚類算法的支持只有K-means,鑒于該算法只適用于球形數(shù)據(jù)集,因此在Spark上實現(xiàn)對任意數(shù)據(jù)集都能夠聚類的聚類算法很有必要。聚類算法中CURE算法具有很好的聚類效果,而且適用于任意數(shù)據(jù)集,但其復雜度較高,因此在Spark上實現(xiàn)對CURE算法的并行化可以提高聚類效率,使得聚類算法能夠在大數(shù)據(jù)處理平臺得以豐富起來。目前,智能移動設備引領的移動互聯(lián)網(wǎng)非;馃幔蚋髌髽I(yè)無不對其密切關注,抓住移動市場就是抓住了關鍵的商機,因此非常有必要對移動互聯(lián)網(wǎng)用戶的數(shù)據(jù)進行挖掘,以便對移動用戶提供個性化營銷和業(yè)務推薦,留住用戶為企業(yè)帶來利益。 鑒于目前國內(nèi)外對Spark平臺上的聚類算法實現(xiàn)研究甚少以及前文等原因,本文將在Spark上研究CURE算法的并行化實現(xiàn)及其應用。本文首先對Spark平臺做了詳細的分析,同時對數(shù)據(jù)挖掘算法進行了分析和總結。其次,本文將聚類算法中的CURE算法進行了改進,提出了具有分散式代表點選擇算法選擇代表點的ACURE算法,使得選擇的代表點比原有的CURE算法更加的分散,進一步改善了聚類效果。然后在Spark平臺上進行了ACURE算法的數(shù)據(jù)并行和任務并行的并行化實現(xiàn)研究,并比較了兩種并行模式的不同,得出了兩者不可同時并行化、采取數(shù)據(jù)并行化更有優(yōu)勢的結論,同時比較了數(shù)據(jù)并行時,分區(qū)對ACURE算法的影響,并且比較了單機處理和Spark并行化處理的性能。然后將基于Spark的ACURE算法應用在移動互聯(lián)網(wǎng)大數(shù)據(jù)的數(shù)據(jù)挖掘中,對移動互聯(lián)網(wǎng)用戶的上網(wǎng)行為的聚類結果和K-means的聚類結果進行了對比,得出了ACURE算法在聚類效果上更符合實際的結論,最后對移動互聯(lián)網(wǎng)用戶數(shù)據(jù)在時間、興趣、消費水平等方面進行了深入的挖掘,為個性化推薦提供了豐富的用戶內(nèi)容。
【關鍵詞】:
【學位授予單位】:華南理工大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP311.13
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 倪維健;黃亞樓;李飛;劉賞;;一種基于加權多代表點的層次聚類算法[J];計算機科學;2005年05期
2 曹澤文;周姚;;基于MapReduce的JP算法設計與實現(xiàn)[J];計算機工程;2012年24期
3 王民;尹超;王稚慧;要趁紅;高婧;;Binary-Positive下的并行化CURE算法[J];計算機工程與應用;2014年11期
4 張佩云;陳恩紅;黃波;;基于社會網(wǎng)絡面向個性化需求的可信服務推薦[J];通信學報;2013年12期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 何文德;楊鳳年;劉光燦;;無線傳感器網(wǎng)絡在文物保護中的應用[J];安防科技;2007年07期
2 劉海波;鄒濤;翁哲;;無線傳感器網(wǎng)絡在執(zhí)勤槍械定位中的應用[J];安防科技;2009年09期
3 張開風;胡艷軍;許耀華;姜新紅;仇樂樂;王?;高韋;丁勝建;;WSN與GPRS結合的遠程圖像等數(shù)據(jù)采集系統(tǒng)設計[J];安徽大學學報(自然科學版);2011年04期
4 林麗萍;;無線傳感器網(wǎng)絡節(jié)點的研究與應用[J];安徽職業(yè)技術學院學報;2010年04期
5 余華;孫艷紅;車銀超;郭玉峰;;無線傳感器網(wǎng)絡在現(xiàn)代農(nóng)業(yè)中的應用[J];安徽農(nóng)業(yè)科學;2010年04期
6 余華;呂寧波;;基于無線傳感器網(wǎng)絡的農(nóng)田信息管理系統(tǒng)的研究[J];安徽農(nóng)業(yè)科學;2010年32期
7 范書平;高巍;馬寶英;;一種無線溫度傳感器網(wǎng)絡中節(jié)能的路由協(xié)議[J];安徽農(nóng)業(yè)科學;2011年02期
8 楊治秋;柴寶杰;;無線傳感器網(wǎng)絡在農(nóng)業(yè)信息監(jiān)控系統(tǒng)中的應用[J];安徽農(nóng)業(yè)科學;2011年35期
9 歸奕紅;;無線傳感網(wǎng)應用于設施農(nóng)業(yè)的節(jié)能方案研究[J];安徽農(nóng)業(yè)科學;2012年02期
10 秦玉偉;彭燕;;能量非均衡節(jié)點在無線傳感網(wǎng)絡立體空間的LEACH路由研究[J];安徽農(nóng)業(yè)科學;2012年03期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 張維勇;張芬;馬學森;;基于IEEE802.15.4的一種分簇算法研究[A];第二十六屆中國控制會議論文集[C];2007年
2 石為人;張陽;鄧鵬程;;傳感器網(wǎng)絡局部時間同步協(xié)議研究[A];第二十六屆中國控制會議論文集[C];2007年
3 劉增力;李雯霏;龍華;朵琳;;能量相關DSR協(xié)議OPNET仿真及性能分析[A];第二十七屆中國控制會議論文集[C];2008年
4 羅旭;柴利;楊君;;無線傳感器網(wǎng)絡TTSL迭代定位算法[A];第二十九屆中國控制會議論文集[C];2010年
5 任玲;唐昊;周雷;魏振春;;一種能量高效的無線傳感器網(wǎng)絡自適應傳輸方法[A];中國自動化學會控制理論專業(yè)委員會B卷[C];2011年
6 何堅;方康玲;李曉卉;韓維;;基于無線傳感器網(wǎng)絡的涉密載體智能監(jiān)管系統(tǒng)研究[A];中國自動化學會控制理論專業(yè)委員會D卷[C];2011年
7 陳傳友;張在琛;;基于ADF7020-1的無線收發(fā)模塊的設計與實現(xiàn)[A];2011年通信與信息技術新進展——第八屆中國通信學會學術年會論文集[C];2011年
8 丁飛;馬小鐵;;LEACH協(xié)議在群體生理參數(shù)采集中的實現(xiàn)[A];第九屆全國信息獲取與處理學術會議論文集Ⅱ[C];2011年
9 于亮亮;劉剛;王俊;;基于IEEE802.15.4的溫室環(huán)境信息采集系統(tǒng)[A];中國農(nóng)業(yè)工程學會2011年學術年會論文集[C];2011年
10 謝宇博;劉剛;王俊;于亮亮;;基于PDA的溫室環(huán)境信息管理系統(tǒng)的研究與開發(fā)[A];中國農(nóng)業(yè)工程學會2011年學術年會論文集[C];2011年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 王蕊;無線傳感器網(wǎng)絡部署與拓撲控制研究[D];哈爾濱工程大學;2009年
2 孫玉婷;基于柱形換能器的水下傳感器網(wǎng)絡組網(wǎng)協(xié)議研究[D];中國海洋大學;2009年
3 羅漢江;海洋監(jiān)測傳感器網(wǎng)絡關鍵技術研究[D];中國海洋大學;2010年
4 郭瑛;基于事件觸發(fā)的無線傳感器網(wǎng)絡關鍵技術研究[D];中國海洋大學;2010年
5 周鵬;水下傳感器網(wǎng)絡海上試驗平臺的研究與設計[D];中國海洋大學;2010年
6 張書奎;無線傳感器網(wǎng)絡中信息分發(fā)的可靠性研究[D];蘇州大學;2010年
7 高藝;能源自給低功耗無線傳感器網(wǎng)絡關鍵技術研究[D];南開大學;2010年
8 吳磊;無線自組織網(wǎng)絡中的路由技術相關問題研究[D];電子科技大學;2010年
9 陳偉;多跳無線網(wǎng)絡路由關鍵技術研究[D];電子科技大學;2010年
10 王曉敏;無線傳感器網(wǎng)絡數(shù)據(jù)收集與路由協(xié)議研究[D];電子科技大學;2010年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 葉青;基于可信的無線傳感器網(wǎng)絡認證技術的研究[D];安徽工程大學;2010年
2 諶業(yè)濱;無線傳感器網(wǎng)絡自身健康狀態(tài)融合機制研究[D];南昌航空大學;2010年
3 喬田田;無線傳感器網(wǎng)絡路由協(xié)議研究[D];山東科技大學;2010年
4 駱科學;基于ZigBee的無線傳感器網(wǎng)絡節(jié)點在礦井機車運輸監(jiān)控系統(tǒng)中的應用研究[D];山東科技大學;2010年
5 彭慧;面向離散型制造業(yè)的嵌入式MES檢測終端開發(fā)[D];浙江理工大學;2010年
6 閉啟禮;水文傳感器網(wǎng)絡部署優(yōu)化研究[D];鄭州大學;2010年
7 張永琦;無線傳感器網(wǎng)絡中基于網(wǎng)關的分級簇算法研究[D];鄭州大學;2010年
8 張磊;基于無線傳感器網(wǎng)絡的實驗管理系統(tǒng)的設計與實現(xiàn)[D];鄭州大學;2010年
9 劉蘭濤;無線傳感器網(wǎng)絡中時間同步技術的研究[D];鄭州大學;2010年
10 許俊杰;無線通信技術在設備狀態(tài)監(jiān)測中的研究與應用[D];鄭州大學;2010年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 姜園,張朝陽,仇佩亮,周東方;用于數(shù)據(jù)挖掘的聚類算法[J];電子與信息學報;2005年04期
2 沈潔;趙雷;楊季文;李榕;;一種基于劃分的層次聚類算法[J];計算機工程與應用;2007年31期
3 趙妍;趙學民;;基于CURE的用戶聚類算法研究[J];計算機工程與應用;2012年11期
4 崔杰,任家東;分布式關聯(lián)規(guī)則挖掘中的聚類分區(qū)算法[J];計算機工程;2004年23期
5 時念云;張金明;褚希;;基于CURE算法的相似重復記錄檢測[J];計算機工程;2009年05期
6 王玉祥;喬秀全;李曉峰;孟洛明;;上下文感知的移動社交網(wǎng)絡服務選擇機制研究[J];計算機學報;2010年11期
7 陳全;鄧倩妮;;云計算及其關鍵技術[J];計算機應用;2009年09期
8 江小平;李成華;向文;張新訪;;云計算環(huán)境下樸素貝葉斯文本分類算法的實現(xiàn)[J];計算機應用;2011年09期
9 韓燕波;陳俊亮;王千祥;;《云計算和服務計算》專輯前言[J];計算機學報;2011年12期
10 陳克寒;韓盼盼;吳健;;基于用戶聚類的異構社交網(wǎng)絡推薦算法[J];計算機學報;2013年02期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 陳再高;王玥;王建國;張殿輝;付梅艷;喬海亮;袁媛;;三維粒子模擬并行化技術研究[J];計算機工程與科學;2009年11期
2 高嵩,崔西寧;并行化高級語言的實現(xiàn)[J];西安工業(yè)學院學報;1997年02期
3 江嶺;劉學軍;湯國安;宋效東;;地形分析中坡度坡向算法并行化方法研究[J];計算機工程與科學;2013年04期
4 武繼剛;一個選擇算法及其并行化[J];計算機工程與設計;1996年05期
5 范植華,范路;多岔控制轉(zhuǎn)換的并行化重構[J];電子學報;1999年08期
6 俞一峻,臧斌宇,施武,朱傳琪;自動尋找使多重串行循環(huán)并行化的幺模變換[J];軟件學報;1999年04期
7 竹居智久;邱石;;充分發(fā)揮并行化優(yōu)勢開拓出新的應用天地[J];電子設計應用;2006年12期
8 郭克榕,唐新春;基于多層循環(huán)并行化的負載平衡優(yōu)化[J];國防科技大學學報;1997年05期
9 楊博,王鼎興,鄭緯民;構造并行化系統(tǒng)交互環(huán)境的若干關鍵技術[J];軟件學報;2001年05期
10 常曉東;胡長軍;李永紅;;化學驅(qū)油藏數(shù)模并行化中的關鍵技術[J];微計算機信息;2007年28期
中國重要會議論文全文數(shù)據(jù)庫 前8條
1 蘭彤;馮玉才;肖偉器;;空間連接處理的并行化研究[A];數(shù)據(jù)庫研究進展97——第十四屆全國數(shù)據(jù)庫學術會議論文集(上)[C];1997年
2 張雯;駱志剛;趙翔;王金華;靳新;;剪接比對軟件sim4的并行化研究與實現(xiàn)[A];2006年全國開放式分布與并行計算學術會議論文集(一)[C];2006年
3 王本龍;龔凱;劉樺;;自由表面流動問題的并行化SPH方法求解[A];中國力學學會學術大會'2009論文摘要集[C];2009年
4 王峰;楊建俊;張?zhí)炀?許淑艷;;不同操作平臺上的MCNP并行化計算[A];中國原子能科學研究院年報 2009[C];2010年
5 徐金秀;張?zhí)靹?;NCC區(qū)域氣候模式算法分析及并行化實現(xiàn)[A];2006年全國開放式分布與并行計算學術會議論文集(一)[C];2006年
6 陳皓;羅月童;劉曉平;;基于MPI的光子映射算法并行化[A];計算機技術與應用進展·2007——全國第18屆計算機技術與應用(CACIS)學術會議論文集[C];2007年
7 曹琰;王清賢;魏強;尹中旭;;基于相容和搜索結合的并行約束求解方法[A];2013年中國智能自動化學術會議論文集(第五分冊)[C];2013年
8 陳德華;解維;李悅;;面向大規(guī)模圖數(shù)據(jù)的分布式并行聚類算法研究[A];第29屆中國數(shù)據(jù)庫學術會議論文集(B輯)(NDBC2012)[C];2012年
中國重要報紙全文數(shù)據(jù)庫 前3條
1 ;[N];網(wǎng)絡世界;2006年
2 謝濤;[N];電腦商報;2008年
3 記者 魯媛媛;[N];網(wǎng)絡世界;2009年
中國博士學位論文全文數(shù)據(jù)庫 前5條
1 程興國;仿生算法的動態(tài)反饋機制及其并行化實現(xiàn)方法研究[D];華南理工大學;2013年
2 丁曉寧;面向CFD的交互式并行化技術研究[D];西北工業(yè)大學;2002年
3 張平;并行化編譯器中并行程序自動生成和性能優(yōu)化技術研究[D];解放軍信息工程大學;2006年
4 傅游;稀薄氣體Monte Carlo數(shù)值仿真并行化技術研究與實現(xiàn)[D];西北工業(yè)大學;2002年
5 董春麗;并行化編譯中數(shù)據(jù)和計算的自動劃分及優(yōu)化技術研究[D];解放軍信息工程大學;2007年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 金龑;協(xié)同過濾算法及其并行化研究[D];南京大學;2012年
2 郭銳;支持推測并行化的可擴展事務存儲體系結構設計與性能評價[D];中國科學技術大學;2009年
3 王濤;關聯(lián)規(guī)則算法及并行化研究[D];河北大學;2006年
4 高彥明;蟻群算法并行化研究[D];蘇州大學;2005年
5 張靜敏;面向CFD程序的并行化系統(tǒng)性能研究[D];西北工業(yè)大學;2003年
6 吳東保;藥物化合物分子相似性計算的并行化研究[D];華東理工大學;2014年
7 陳小蘭;Linux應用程序多核并行化方法研究與實現(xiàn)[D];西南交通大學;2010年
8 朱禮廷;不可壓縮管流數(shù)值模擬中的算法并行化研究與實現(xiàn)[D];杭州電子科技大學;2011年
9 周洋;帶自由表面三維淺水流動的并行化模擬研究[D];上海交通大學;2013年
10 羅愛寶;梯度下降類和EM類迭代算法的并行化研究[D];南京大學;2012年
本文關鍵詞:基于Spark平臺的CURE算法并行化設計與應用,由筆耕文化傳播整理發(fā)布。
,本文編號:105968
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/105968.html