基于Hadoop的關(guān)聯(lián)規(guī)則挖掘算法分析
發(fā)布時間:2017-04-16 11:20
本文關(guān)鍵詞:基于Hadoop的關(guān)聯(lián)規(guī)則挖掘算法分析,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著信息技術(shù)的發(fā)展和互聯(lián)網(wǎng)領(lǐng)域的革新,大數(shù)據(jù)研究已經(jīng)成為熱點問題。關(guān)聯(lián)規(guī)則在尋找數(shù)據(jù)的關(guān)聯(lián)性起到了非常重要的作用,是數(shù)據(jù)挖掘中的一種重要研究方法。其核心問題是如何獲取頻繁集并據(jù)此找出不同項目的相關(guān)關(guān)系。Hadoop作為云計算最為核心的分布式計算框架,集高效性,可擴(kuò)展性,低成本等優(yōu)點于一身,已經(jīng)成為大數(shù)據(jù)最佳計算模式之一。本文以經(jīng)典關(guān)聯(lián)規(guī)則算法Apriori和Fp-Growth為基礎(chǔ),在分析其Hadoop并行化運行優(yōu)缺點的基礎(chǔ)上,提出了Apriori的Hadoop并行化的改進(jìn)算法。同時,將Fp-Growth的Hadoop并行化算法應(yīng)用于搜索引擎。本文的主要研究內(nèi)容如下:(1)對于Apriori算法在事務(wù)壓縮、減少掃描次數(shù)、簡化候選集生成方面進(jìn)行改進(jìn)。提出了以元素“0”和“1”表示事務(wù)的布爾矩陣模型,引入權(quán)值維度,壓縮了相同事務(wù)的矩陣規(guī)模。動態(tài)地進(jìn)行剪枝,以矩陣的“與”運算作為候選集合生成的計算方法。將改進(jìn)算法結(jié)合Hadoop框架進(jìn)行并行化實現(xiàn),實驗表明該算法適合大規(guī)模數(shù)據(jù)挖掘,具有良好的伸縮性與有效性。(2)基于FP-Growth的Hadoop并行化算法和搜索引擎的原理,對用戶行為進(jìn)行分析,設(shè)計出了改進(jìn)后算法在搜索引擎的應(yīng)用場景,實現(xiàn)了Fp-Growth的Hadoop并行算法對搜狗實驗室的web分析日志的挖掘。實驗表明滿足支持度的查詢詞和點擊鏈接頻繁集在日志中普遍存在,并且隨著Hadoop節(jié)點數(shù)的增加,算法性能將得到大幅提高。
【關(guān)鍵詞】:數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則 Hadoop Apriori Fp-Growth
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP311.13
【參考文獻(xiàn)】
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 朱濤;基于FP-growth關(guān)聯(lián)規(guī)則挖掘算法的研究與應(yīng)用[D];南昌大學(xué);2010年
本文關(guān)鍵詞:基于Hadoop的關(guān)聯(lián)規(guī)則挖掘算法分析,由筆耕文化傳播整理發(fā)布。
,本文編號:310716
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/310716.html
最近更新
教材專著