天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于hadoop與加權模型的FP-growth算法的優(yōu)化研究

發(fā)布時間:2024-02-28 19:40
  數(shù)據(jù)挖掘是以某種方式分析數(shù)據(jù)源,從中發(fā)現(xiàn)一些潛在的有用的信息,所以數(shù)據(jù)挖掘又稱為知識發(fā)現(xiàn),而關聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中的一個重要課題,從數(shù)據(jù)背后發(fā)現(xiàn)事物之間存在的關聯(lián)。如今,關聯(lián)規(guī)則挖掘技術已經(jīng)廣泛應用于金融、互聯(lián)網(wǎng)、醫(yī)療等眾多領域,學者們對于關聯(lián)規(guī)則挖掘算法的研究熱情更是日益高漲。傳統(tǒng)的關聯(lián)規(guī)則挖掘算法都默認事物具有相同的重要性且分布均勻,但是在實際的生產(chǎn)和生活中,事物往往都具有不同的重要性且分布不均,因此,本文基于加權關聯(lián)規(guī)則挖掘算法進行研究。本文在引進加權模型的條件下,主要針對經(jīng)典的FP-growth算法進行了改進,一方面是采用有序FP樹來代替?zhèn)鹘y(tǒng)FP樹,進而減少存儲空間的利用;另一方面是采用二維列表記錄項的加權支持度,省去了在生成加權條件FP子樹時對條件模式基的第一次遍歷�;陉P聯(lián)規(guī)則挖掘中要處理的數(shù)據(jù)量越來越大的情況,Hadoop分布式系統(tǒng)架構應運而生,海量數(shù)據(jù)的處理不再是難題。本文采用Hadoop中的Map Reduce并行計算框架來處理數(shù)據(jù)集,并提出均衡化分組策略,避免了數(shù)據(jù)傾斜的產(chǎn)生,分布式數(shù)據(jù)處理降低了時間復雜度,能夠高效地進行海量數(shù)據(jù)的關聯(lián)規(guī)則挖掘。本文研究了基于ha...

【文章頁數(shù)】:69 頁

【學位級別】:碩士

【部分圖文】:

圖2-1頻繁模式樹FP-tree第三步,從FP-tree的底端自下而上進行挖掘,為項頭表中每個節(jié)點生成條

圖2-1頻繁模式樹FP-tree第三步,從FP-tree的底端自下而上進行挖掘,為項頭表中每個節(jié)點生成條

第二章相關理論及技術研究11第一步,對事務數(shù)據(jù)庫D進行掃描,計算各項的支持度,將小于最小支持度的項剔除,剩余項按支持度降序排列,若支持度相同時按字母順序排列,得到頻繁1項集L={A:8,E:7,C:5,G:4,B:2,D:2,F:2}。有序事務集如表2-4第3列所示。第二步,創(chuàng)建....


圖2-2Hadoop結構框架圖

圖2-2Hadoop結構框架圖

天津工業(yè)大學碩士學位論文14同的機器,然后Reduce函數(shù)將拆分并處理后的數(shù)據(jù)進行整合統(tǒng)計,輸出最終結果。(3)Yarn。Yarn是Hadoop2.x中被引入的核心部件,它是Hadoop的資源管理系統(tǒng)。它可以理解為是一個“管理平臺”,使Hadoop不僅可以支持MapReduce計....


圖2-3MapReduce執(zhí)行流程圖

圖2-3MapReduce執(zhí)行流程圖

第二章相關理論及技術研究152.3.2并行計算框架MapReduceMapReduce是我們在進行大數(shù)據(jù)處理的時候經(jīng)常要使用的計算模型,通過MapReduce很容易在Hadoop平臺上進行分布式的計算編程。MapReduce由兩個關鍵性操作構成,即Map(映射)與Reduce(歸....


圖2-4WordCount案例MapReduce流程

圖2-4WordCount案例MapReduce流程

天津工業(yè)大學碩士學位論文16(4)ShuffleShuffle是介于Map和Reduce過程中間的操作,它需要從所有Map任務輸出的結果中篩選鍵值對,將具有相同key的<key,value>對組合在一起發(fā)送到同一個Reduce任務中作為輸入。(5)化簡ReduceReduce負責....



本文編號:3913929

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3913929.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶3546f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com