一種改進(jìn)的關(guān)聯(lián)規(guī)則算法研究與應(yīng)用
發(fā)布時(shí)間:2021-02-23 14:42
隨著數(shù)據(jù)挖掘技術(shù)迅速而深入的發(fā)展,關(guān)聯(lián)規(guī)則及其相關(guān)技術(shù)也得到越來越多的學(xué)者和研究人員的關(guān)注。關(guān)聯(lián)規(guī)則挖掘能從大量的數(shù)據(jù)集中挖掘出隱含的、對(duì)決策有潛在價(jià)值的項(xiàng)集之間的有趣關(guān)聯(lián)和相關(guān)關(guān)系,其應(yīng)用的背景也從最初的購物籃分析擴(kuò)展到網(wǎng)絡(luò)入侵檢測、用戶消費(fèi)習(xí)慣分析、關(guān)聯(lián)規(guī)則分類、交通事故模式分析、軟件bug挖掘等。因此,對(duì)關(guān)聯(lián)規(guī)則技術(shù)的研究具有重要的實(shí)際意義,本文選擇了這一主題進(jìn)行了分析和研究。本文首先介紹了數(shù)據(jù)挖掘領(lǐng)域的研究內(nèi)容、挖掘的方法和技術(shù)、當(dāng)前的研究現(xiàn)狀以及應(yīng)用和發(fā)展趨勢,接著對(duì)關(guān)聯(lián)規(guī)則挖掘技術(shù)中的經(jīng)典算法(Apriori、FP-growth等)進(jìn)行了概述、分析和總結(jié),在此基礎(chǔ)上提出了一種基于最大頻繁項(xiàng)集的關(guān)聯(lián)規(guī)則挖掘算法MFIP-Miner算法。該算法將數(shù)據(jù)庫中的事務(wù)通過頻繁模式樹(FP-Tree)壓縮存儲(chǔ),并充分利用頻繁模式樹的性質(zhì),嚴(yán)格控制在挖掘過程中遞歸調(diào)用的終結(jié)條件,從而達(dá)到提升算法的性能的目的。其次,本文完成了實(shí)驗(yàn)平臺(tái)的搭建,選用R語言,在Eclipse +StatET編程環(huán)境中實(shí)現(xiàn)了 MFIP-Miner算法,并對(duì)比MFIP-Miner算法與FP-growth算法、Mafi...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【圖文】:
圖1-1常用數(shù)據(jù)挖掘技術(shù)使用狀況的調(diào)查表??圖1-1為當(dāng)前常用的數(shù)據(jù)挖掘技術(shù)及算法的一個(gè)使用情況的調(diào)查表,該數(shù)據(jù)??
從頻繁項(xiàng)目樹的葉節(jié)點(diǎn)開始a開始,掃描事務(wù)數(shù)據(jù)庫找出所有以a結(jié)??尾的頻繁項(xiàng)目集的集合。調(diào)用函數(shù),然后判斷T包含路徑的個(gè)數(shù),??由表3-1可知,T包含多個(gè)路徑,算法執(zhí)行至else部分,從圖3-1所示項(xiàng)目頭表??//7^/e中選擇單個(gè)項(xiàng)集a,運(yùn)算crUm///后其結(jié)果不變。然后通過Z/raWe中項(xiàng)??目鏈找出a的同名節(jié)點(diǎn)鏈,由T找出g每一個(gè)同名節(jié)點(diǎn)鏈的前綴路徑,修改路徑??中節(jié)點(diǎn)計(jì)數(shù),將所有找出前綴路徑中節(jié)點(diǎn)的計(jì)數(shù)修改為項(xiàng)目a的計(jì)數(shù),即得到??alj皿//的條件模式基:R/:l,c:l,d:l),(c:l,Z):l,e:l)},由條件模式基生成條件??模式樹乃={(c:?2)丨。再次調(diào)用MF7P?-Max?(7b,A/F/P,,同理調(diào)用尸-Mcc??函數(shù)時(shí)判斷參數(shù)7;只包含單個(gè)路徑,取出該路徑與a合并,得到結(jié)果該??路徑中c的支持度數(shù)為2,則設(shè)置的支持?jǐn)?shù)記為2。之后判斷是否為??中某項(xiàng)目集的子集
4.2.1在Mushroom數(shù)據(jù)庫上的測試分析??Mushroom數(shù)據(jù)庫的TID平均長度為23,則出現(xiàn)較多長頻繁模式(頻繁模式??的長度大于10)的可能性較大。由圖4-1可知MFIP-Miner算法在Mushroom數(shù)??據(jù)庫上運(yùn)行時(shí)間在給定的不同最小支持度(minSup)下均小于FP-growth和Mafia??算法,即可得出結(jié)論:MFIP-Mi?ner的挖掘效率高于Mafi?a算法和FP-growth算法。??同時(shí),結(jié)合圖4-2可知,長頻繁模式較少(長度不大于5的頻繁模式占多數(shù))的情??況下,在支持度范圍內(nèi),兩種經(jīng)典算法的效率低于改進(jìn)算法。??90?80?70?60?50?40?30??minSup?(%)??圖4-1不同支持度下三種算法在Mushroom數(shù)據(jù)庫上運(yùn)行時(shí)間的比較??24??
【參考文獻(xiàn)】:
期刊論文
[1]改進(jìn)的基于頻繁模式樹的最大頻繁項(xiàng)集挖掘算法——FP-MFIA[J]. 楊鵬坤,彭慧,周曉鋒,孫玉慶. 計(jì)算機(jī)應(yīng)用. 2015(03)
[2]基于多維關(guān)聯(lián)規(guī)則興趣度的問卷調(diào)查規(guī)則提取[J]. 焦民政,曾廣平,許佳男,賈斌,趙云梅. 軟件. 2014(09)
[3]基于布爾向量內(nèi)積的最大頻繁項(xiàng)集算法研究[J]. 閆喜亮,孫濱. 計(jì)算機(jī)與數(shù)字工程. 2014(05)
[4]一種改進(jìn)的數(shù)據(jù)流最大頻繁項(xiàng)集挖掘算法[J]. 胡健,吳毛毛. 計(jì)算機(jī)工程與科學(xué). 2014(05)
[5]數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[J]. 楊澤民. 軟件. 2013(11)
[6]分布式全局最大頻繁項(xiàng)集更新挖掘算法[J]. 楊君銳,楊莉. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(12)
[7]用有序FP-tree挖掘最大頻繁項(xiàng)集[J]. 于紅,王秀坤,孟軍. 控制與決策. 2007(05)
[8]基于FP-Tree有效挖掘最大頻繁項(xiàng)集[J]. 顏躍進(jìn),李舟軍,陳火旺. 軟件學(xué)報(bào). 2005(02)
[9]基于FP-Tree的最大頻繁項(xiàng)目集挖掘及更新算法[J]. 宋余慶,朱玉全,孫志揮,陳耿. 軟件學(xué)報(bào). 2003(09)
[10]多媒體數(shù)據(jù)挖掘的體系結(jié)構(gòu)和方法[J]. 胡軍濤,武德峰,李國輝,甘亞莉. 計(jì)算機(jī)工程. 2003(09)
本文編號(hào):3047755
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【圖文】:
圖1-1常用數(shù)據(jù)挖掘技術(shù)使用狀況的調(diào)查表??圖1-1為當(dāng)前常用的數(shù)據(jù)挖掘技術(shù)及算法的一個(gè)使用情況的調(diào)查表,該數(shù)據(jù)??
從頻繁項(xiàng)目樹的葉節(jié)點(diǎn)開始a開始,掃描事務(wù)數(shù)據(jù)庫找出所有以a結(jié)??尾的頻繁項(xiàng)目集的集合。調(diào)用函數(shù),然后判斷T包含路徑的個(gè)數(shù),??由表3-1可知,T包含多個(gè)路徑,算法執(zhí)行至else部分,從圖3-1所示項(xiàng)目頭表??//7^/e中選擇單個(gè)項(xiàng)集a,運(yùn)算crUm///后其結(jié)果不變。然后通過Z/raWe中項(xiàng)??目鏈找出a的同名節(jié)點(diǎn)鏈,由T找出g每一個(gè)同名節(jié)點(diǎn)鏈的前綴路徑,修改路徑??中節(jié)點(diǎn)計(jì)數(shù),將所有找出前綴路徑中節(jié)點(diǎn)的計(jì)數(shù)修改為項(xiàng)目a的計(jì)數(shù),即得到??alj皿//的條件模式基:R/:l,c:l,d:l),(c:l,Z):l,e:l)},由條件模式基生成條件??模式樹乃={(c:?2)丨。再次調(diào)用MF7P?-Max?(7b,A/F/P,,同理調(diào)用尸-Mcc??函數(shù)時(shí)判斷參數(shù)7;只包含單個(gè)路徑,取出該路徑與a合并,得到結(jié)果該??路徑中c的支持度數(shù)為2,則設(shè)置的支持?jǐn)?shù)記為2。之后判斷是否為??中某項(xiàng)目集的子集
4.2.1在Mushroom數(shù)據(jù)庫上的測試分析??Mushroom數(shù)據(jù)庫的TID平均長度為23,則出現(xiàn)較多長頻繁模式(頻繁模式??的長度大于10)的可能性較大。由圖4-1可知MFIP-Miner算法在Mushroom數(shù)??據(jù)庫上運(yùn)行時(shí)間在給定的不同最小支持度(minSup)下均小于FP-growth和Mafia??算法,即可得出結(jié)論:MFIP-Mi?ner的挖掘效率高于Mafi?a算法和FP-growth算法。??同時(shí),結(jié)合圖4-2可知,長頻繁模式較少(長度不大于5的頻繁模式占多數(shù))的情??況下,在支持度范圍內(nèi),兩種經(jīng)典算法的效率低于改進(jìn)算法。??90?80?70?60?50?40?30??minSup?(%)??圖4-1不同支持度下三種算法在Mushroom數(shù)據(jù)庫上運(yùn)行時(shí)間的比較??24??
【參考文獻(xiàn)】:
期刊論文
[1]改進(jìn)的基于頻繁模式樹的最大頻繁項(xiàng)集挖掘算法——FP-MFIA[J]. 楊鵬坤,彭慧,周曉鋒,孫玉慶. 計(jì)算機(jī)應(yīng)用. 2015(03)
[2]基于多維關(guān)聯(lián)規(guī)則興趣度的問卷調(diào)查規(guī)則提取[J]. 焦民政,曾廣平,許佳男,賈斌,趙云梅. 軟件. 2014(09)
[3]基于布爾向量內(nèi)積的最大頻繁項(xiàng)集算法研究[J]. 閆喜亮,孫濱. 計(jì)算機(jī)與數(shù)字工程. 2014(05)
[4]一種改進(jìn)的數(shù)據(jù)流最大頻繁項(xiàng)集挖掘算法[J]. 胡健,吳毛毛. 計(jì)算機(jī)工程與科學(xué). 2014(05)
[5]數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[J]. 楊澤民. 軟件. 2013(11)
[6]分布式全局最大頻繁項(xiàng)集更新挖掘算法[J]. 楊君銳,楊莉. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(12)
[7]用有序FP-tree挖掘最大頻繁項(xiàng)集[J]. 于紅,王秀坤,孟軍. 控制與決策. 2007(05)
[8]基于FP-Tree有效挖掘最大頻繁項(xiàng)集[J]. 顏躍進(jìn),李舟軍,陳火旺. 軟件學(xué)報(bào). 2005(02)
[9]基于FP-Tree的最大頻繁項(xiàng)目集挖掘及更新算法[J]. 宋余慶,朱玉全,孫志揮,陳耿. 軟件學(xué)報(bào). 2003(09)
[10]多媒體數(shù)據(jù)挖掘的體系結(jié)構(gòu)和方法[J]. 胡軍濤,武德峰,李國輝,甘亞莉. 計(jì)算機(jī)工程. 2003(09)
本文編號(hào):3047755
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3047755.html
最近更新
教材專著