基于Hadoop的并行數(shù)據(jù)挖掘的研究
本文選題:Hadoop 切入點(diǎn):數(shù)據(jù)挖掘 出處:《南京郵電大學(xué)》2017年碩士論文
【摘要】:隨著“互聯(lián)網(wǎng)+”時代的到來,產(chǎn)生的數(shù)據(jù)量呈指數(shù)性爆發(fā),涵蓋了各種非結(jié)構(gòu)化數(shù)據(jù)。如何從多變的、復(fù)雜的海量數(shù)據(jù)中找到有意義的模式和規(guī)則,來解決科學(xué)、醫(yī)療、能源、商業(yè)、政府管理、城市建設(shè)等領(lǐng)域的問題成為重點(diǎn)。數(shù)據(jù)挖掘是統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、人工智能等多領(lǐng)域的融合,但是傳統(tǒng)的數(shù)據(jù)挖掘處理及改進(jìn)的方式大多串行連接在單機(jī)上,由于單機(jī)處理能力有限且內(nèi)存不足,處理效率低下,并不適合大規(guī)模數(shù)據(jù)的挖掘工作。在這種情況下,基于Hadoop的并行數(shù)據(jù)挖掘成為新的研究熱點(diǎn)。Apriori算法是關(guān)聯(lián)規(guī)則挖掘最為經(jīng)典的算法,Apriori算法通過逐層迭代方式,采用串行自連接和剪枝操作來挖掘頻繁項(xiàng)集。Apriori算法的缺點(diǎn)是重復(fù)掃描數(shù)據(jù)庫,產(chǎn)生大量的候選集,算法效率較低;贛apReduce的并行Apriori算法解決了傳統(tǒng)Apriori算法多次掃描數(shù)據(jù)庫的問題,但是其候選集仍然由頻繁項(xiàng)集經(jīng)過串行自連接產(chǎn)生,并產(chǎn)生大量的候選集中間數(shù)據(jù)。本文重點(diǎn)討論了如何提高基于MapReduce的Apriori算法挖掘頻繁項(xiàng)集的效率,對連接步進(jìn)行并行化改進(jìn),提出大數(shù)據(jù)環(huán)境下挖掘頻繁項(xiàng)目集的一種改進(jìn)算法—C_Apriori算法。該算法通過Map、Reduce過程從頻繁k-項(xiàng)集中并行得到k+1項(xiàng)候選集Ck+1,使得Apriori算法產(chǎn)生頻繁項(xiàng)集的整個過程并行化,減少了迭代過程中候選集數(shù)目數(shù)量,節(jié)約了存儲空間和時間開銷。通過時間復(fù)雜度進(jìn)行分析比較,C_Apriori算法在處理大規(guī)模數(shù)據(jù)時會大大減少連接步的時間消耗。本文最后,使用HBase數(shù)據(jù)庫,設(shè)計(jì)基于Hadoop的并行數(shù)據(jù)挖掘系統(tǒng),并將C_Apriori算法在Hadoop并行數(shù)據(jù)挖掘系統(tǒng)進(jìn)行了測試,結(jié)果表明改進(jìn)算法在大數(shù)據(jù)和較小支持度環(huán)境下都具有更高的效率,且能取得優(yōu)異的加速功能。該方案在某科技公司的智慧社區(qū)系統(tǒng)中得到成功應(yīng)用。
[Abstract]:This paper discusses how to improve the efficiency of mining frequent itemsets from multi - variable and complex mass data .
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP311.13
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 吳信東;何進(jìn);陸汝鈐;鄭南寧;;從大數(shù)據(jù)到大知識:HACE+BigKE[J];自動化學(xué)報(bào);2016年07期
2 王興偉;李婕;譚振華;馬連博;李福亮;黃敏;;面向“互聯(lián)網(wǎng)+”的網(wǎng)絡(luò)技術(shù)發(fā)展現(xiàn)狀與未來趨勢[J];計(jì)算機(jī)研究與發(fā)展;2016年04期
3 崔妍;包志強(qiáng);;關(guān)聯(lián)規(guī)則挖掘綜述[J];計(jì)算機(jī)應(yīng)用研究;2016年02期
4 張東;亓開元;吳楠;辛國茂;劉正偉;顏秉珩;郭鋒;;云海大數(shù)據(jù)一體機(jī)體系結(jié)構(gòu)和關(guān)鍵技術(shù)[J];計(jì)算機(jī)研究與發(fā)展;2016年02期
5 魏玲;魏永江;高長元;;基于Bigtable與MapReduce的Apriori算法改進(jìn)[J];計(jì)算機(jī)科學(xué);2015年10期
6 宋寶燕;王俊陸;王妍;;基于范德蒙碼的HDFS優(yōu)化存儲策略研究[J];計(jì)算機(jī)學(xué)報(bào);2015年09期
7 董新華;李瑞軒;周灣灣;王聰;薛正元;廖東杰;;Hadoop系統(tǒng)性能優(yōu)化與功能增強(qiáng)綜述[J];計(jì)算機(jī)研究與發(fā)展;2013年S2期
8 羅丹;李陶深;;一種基于壓縮矩陣的Apriori算法改進(jìn)研究[J];計(jì)算機(jī)科學(xué);2013年12期
9 遲學(xué)斌;顧蓓蓓;武虹;王龍;朱鵬;;高性能計(jì)算機(jī)系統(tǒng)及平臺發(fā)展?fàn)顩r分析[J];計(jì)算機(jī)工程與科學(xué);2013年11期
10 吳琪;;基于云計(jì)算的Apriori挖掘算法[J];計(jì)算機(jī)測量與控制;2012年06期
相關(guān)博士學(xué)位論文 前1條
1 李秋虹;基于MapReduce的大規(guī)模數(shù)據(jù)挖掘技術(shù)研究[D];復(fù)旦大學(xué);2013年
相關(guān)碩士學(xué)位論文 前3條
1 李銀周;移動互聯(lián)網(wǎng)中手機(jī)終端與流量特征分析[D];北京郵電大學(xué);2014年
2 朱安柱;基于Hadoop的Apriori算法改進(jìn)與移植的研究[D];華中科技大學(xué);2012年
3 曹風(fēng)兵;基于Hadoop的云計(jì)算模型研究與應(yīng)用[D];重慶大學(xué);2011年
,本文編號:1692899
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1692899.html