基于hadoop與加權模型的FP-growth算法的優(yōu)化研究

發(fā)布時間：2024-02-28 19:40

　　數(shù)據(jù)挖掘是以某種方式分析數(shù)據(jù)源,從中發(fā)現(xiàn)一些潛在的有用的信息,所以數(shù)據(jù)挖掘又稱為知識發(fā)現(xiàn),而關聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中的一個重要課題,從數(shù)據(jù)背后發(fā)現(xiàn)事物之間存在的關聯(lián)。如今,關聯(lián)規(guī)則挖掘技術已經(jīng)廣泛應用于金融、互聯(lián)網(wǎng)、醫(yī)療等眾多領域,學者們對于關聯(lián)規(guī)則挖掘算法的研究熱情更是日益高漲。傳統(tǒng)的關聯(lián)規(guī)則挖掘算法都默認事物具有相同的重要性且分布均勻,但是在實際的生產(chǎn)和生活中,事物往往都具有不同的重要性且分布不均,因此,本文基于加權關聯(lián)規(guī)則挖掘算法進行研究。本文在引進加權模型的條件下,主要針對經(jīng)典的FP-growth算法進行了改進,一方面是采用有序FP樹來代替?zhèn)鹘y(tǒng)FP樹,進而減少存儲空間的利用;另一方面是采用二維列表記錄項的加權支持度,省去了在生成加權條件FP子樹時對條件模式基的第一次遍歷�；陉P聯(lián)規(guī)則挖掘中要處理的數(shù)據(jù)量越來越大的情況,Hadoop分布式系統(tǒng)架構應運而生,海量數(shù)據(jù)的處理不再是難題。本文采用Hadoop中的Map Reduce并行計算框架來處理數(shù)據(jù)集,并提出均衡化分組策略,避免了數(shù)據(jù)傾斜的產(chǎn)生,分布式數(shù)據(jù)處理降低了時間復雜度,能夠高效地進行海量數(shù)據(jù)的關聯(lián)規(guī)則挖掘。本文研究了基于ha...

【文章頁數(shù)】：69 頁

【學位級別】：碩士

【部分圖文】：

圖2-1頻繁模式樹FP-tree第三步，從FP-tree的底端自下而上進行挖掘，為項頭表中每個節(jié)點生成條

第二章相關理論及技術研究11第一步，對事務數(shù)據(jù)庫D進行掃描，計算各項的支持度，將小于最小支持度的項剔除，剩余項按支持度降序排列，若支持度相同時按字母順序排列，得到頻繁1項集L={A:8,E:7,C:5,G:4,B:2,D:2,F:2}。有序事務集如表2-4第3列所示。第二步，創(chuàng)建....

圖2-2Hadoop結構框架圖

天津工業(yè)大學碩士學位論文14同的機器，然后Reduce函數(shù)將拆分并處理后的數(shù)據(jù)進行整合統(tǒng)計，輸出最終結果。（3）Yarn。Yarn是Hadoop2.x中被引入的核心部件，它是Hadoop的資源管理系統(tǒng)。它可以理解為是一個“管理平臺”，使Hadoop不僅可以支持MapReduce計....

圖2-3MapReduce執(zhí)行流程圖

第二章相關理論及技術研究152.3.2并行計算框架MapReduceMapReduce是我們在進行大數(shù)據(jù)處理的時候經(jīng)常要使用的計算模型，通過MapReduce很容易在Hadoop平臺上進行分布式的計算編程。MapReduce由兩個關鍵性操作構成，即Map（映射）與Reduce（歸....

圖2-4WordCount案例MapReduce流程

天津工業(yè)大學碩士學位論文16（4）ShuffleShuffle是介于Map和Reduce過程中間的操作，它需要從所有Map任務輸出的結果中篩選鍵值對，將具有相同key的<key,value>對組合在一起發(fā)送到同一個Reduce任務中作為輸入。（5）化簡ReduceReduce負責....

本文編號：3913929

資料下載

論文發(fā)表

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3913929.html

上一篇：內(nèi)部控制披露調(diào)節(jié)下企業(yè)信息化程度對審計費用影響研究
下一篇：大數(shù)據(jù)技術開展學生評教的研究與應用

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于hadoop與加權模型的FP-growth算法的優(yōu)化研究