基于Hadoop的并行數(shù)據(jù)挖掘的研究

發(fā)布時(shí)間：2018-03-31 23:14

本文選題：Hadoop　切入點(diǎn)：數(shù)據(jù)挖掘　出處：《南京郵電大學(xué)》2017年碩士論文

【摘要】：隨著“互聯(lián)網(wǎng)+”時(shí)代的到來,產(chǎn)生的數(shù)據(jù)量呈指數(shù)性爆發(fā),涵蓋了各種非結(jié)構(gòu)化數(shù)據(jù)。如何從多變的、復(fù)雜的海量數(shù)據(jù)中找到有意義的模式和規(guī)則,來解決科學(xué)、醫(yī)療、能源、商業(yè)、政府管理、城市建設(shè)等領(lǐng)域的問題成為重點(diǎn)。數(shù)據(jù)挖掘是統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、人工智能等多領(lǐng)域的融合,但是傳統(tǒng)的數(shù)據(jù)挖掘處理及改進(jìn)的方式大多串行連接在單機(jī)上,由于單機(jī)處理能力有限且內(nèi)存不足,處理效率低下,并不適合大規(guī)模數(shù)據(jù)的挖掘工作。在這種情況下,基于Hadoop的并行數(shù)據(jù)挖掘成為新的研究熱點(diǎn)。Apriori算法是關(guān)聯(lián)規(guī)則挖掘最為經(jīng)典的算法,Apriori算法通過逐層迭代方式,采用串行自連接和剪枝操作來挖掘頻繁項(xiàng)集。Apriori算法的缺點(diǎn)是重復(fù)掃描數(shù)據(jù)庫,產(chǎn)生大量的候選集,算法效率較低�；贛apReduce的并行Apriori算法解決了傳統(tǒng)Apriori算法多次掃描數(shù)據(jù)庫的問題,但是其候選集仍然由頻繁項(xiàng)集經(jīng)過串行自連接產(chǎn)生,并產(chǎn)生大量的候選集中間數(shù)據(jù)。本文重點(diǎn)討論了如何提高基于MapReduce的Apriori算法挖掘頻繁項(xiàng)集的效率,對(duì)連接步進(jìn)行并行化改進(jìn),提出大數(shù)據(jù)環(huán)境下挖掘頻繁項(xiàng)目集的一種改進(jìn)算法—C_Apriori算法。該算法通過Map、Reduce過程從頻繁k-項(xiàng)集中并行得到k+1項(xiàng)候選集Ck+1,使得Apriori算法產(chǎn)生頻繁項(xiàng)集的整個(gè)過程并行化,減少了迭代過程中候選集數(shù)目數(shù)量,節(jié)約了存儲(chǔ)空間和時(shí)間開銷。通過時(shí)間復(fù)雜度進(jìn)行分析比較,C_Apriori算法在處理大規(guī)模數(shù)據(jù)時(shí)會(huì)大大減少連接步的時(shí)間消耗。本文最后,使用HBase數(shù)據(jù)庫,設(shè)計(jì)基于Hadoop的并行數(shù)據(jù)挖掘系統(tǒng),并將C_Apriori算法在Hadoop并行數(shù)據(jù)挖掘系統(tǒng)進(jìn)行了測(cè)試,結(jié)果表明改進(jìn)算法在大數(shù)據(jù)和較小支持度環(huán)境下都具有更高的效率,且能取得優(yōu)異的加速功能。該方案在某科技公司的智慧社區(qū)系統(tǒng)中得到成功應(yīng)用。
[Abstract]:This paper discusses how to improve the efficiency of mining frequent itemsets from multi - variable and complex mass data .

【學(xué)位授予單位】：南京郵電大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2017
【分類號(hào)】：TP311.13

【參考文獻(xiàn)】

相關(guān)期刊論文前10條

1 吳信東;何進(jìn);陸汝鈐;鄭南寧;;從大數(shù)據(jù)到大知識(shí):HACE+BigKE[J];自動(dòng)化學(xué)報(bào);2016年07期

2 王興偉;李婕;譚振華;馬連博;李福亮;黃敏;;面向“互聯(lián)網(wǎng)+”的網(wǎng)絡(luò)技術(shù)發(fā)展現(xiàn)狀與未來趨勢(shì)[J];計(jì)算機(jī)研究與發(fā)展;2016年04期

3 崔妍;包志強(qiáng);;關(guān)聯(lián)規(guī)則挖掘綜述[J];計(jì)算機(jī)應(yīng)用研究;2016年02期

4 張東;亓開元;吳楠;辛國茂;劉正偉;顏秉珩;郭鋒;;云海大數(shù)據(jù)一體機(jī)體系結(jié)構(gòu)和關(guān)鍵技術(shù)[J];計(jì)算機(jī)研究與發(fā)展;2016年02期

5 魏玲;魏永江;高長(zhǎng)元;;基于Bigtable與MapReduce的Apriori算法改進(jìn)[J];計(jì)算機(jī)科學(xué);2015年10期

6 宋寶燕;王俊陸;王妍;;基于范德蒙碼的HDFS優(yōu)化存儲(chǔ)策略研究[J];計(jì)算機(jī)學(xué)報(bào);2015年09期

7 董新華;李瑞軒;周灣灣;王聰;薛正元;廖東杰;;Hadoop系統(tǒng)性能優(yōu)化與功能增強(qiáng)綜述[J];計(jì)算機(jī)研究與發(fā)展;2013年S2期

8 羅丹;李陶深;;一種基于壓縮矩陣的Apriori算法改進(jìn)研究[J];計(jì)算機(jī)科學(xué);2013年12期

9 遲學(xué)斌;顧蓓蓓;武虹;王龍;朱鵬;;高性能計(jì)算機(jī)系統(tǒng)及平臺(tái)發(fā)展?fàn)顩r分析[J];計(jì)算機(jī)工程與科學(xué);2013年11期

10 吳琪;;基于云計(jì)算的Apriori挖掘算法[J];計(jì)算機(jī)測(cè)量與控制;2012年06期

相關(guān)博士學(xué)位論文前1條

1 李秋虹;基于MapReduce的大規(guī)模數(shù)據(jù)挖掘技術(shù)研究[D];復(fù)旦大學(xué);2013年

相關(guān)碩士學(xué)位論文前3條

1 李銀周;移動(dòng)互聯(lián)網(wǎng)中手機(jī)終端與流量特征分析[D];北京郵電大學(xué);2014年

2 朱安柱;基于Hadoop的Apriori算法改進(jìn)與移植的研究[D];華中科技大學(xué);2012年

3 曹風(fēng)兵;基于Hadoop的云計(jì)算模型研究與應(yīng)用[D];重慶大學(xué);2011年

，

本文編號(hào)：1692899

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1692899.html

上一篇：基于改進(jìn)FREAK算法的圖像拼接技術(shù)研究
下一篇：一種基于帶核隨機(jī)子空間的聚類集成算法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的并行數(shù)據(jù)挖掘的研究