基于H-struct的最大頻繁項集挖掘算法研究
發(fā)布時間:2021-05-20 16:55
最大頻繁項集挖掘是數(shù)據(jù)挖掘重要研究方向,它以頻繁項集簇的最簡集合形式反映事務(wù)數(shù)據(jù)集項間的關(guān)聯(lián)關(guān)系,具有重要的理論研究價值與應(yīng)用前景。然而,大多數(shù)現(xiàn)有最大頻繁項集挖掘算法更適于稠密數(shù)據(jù)集。但實際應(yīng)用中,存在著大量的事務(wù)模式差異度大、項分布零散的稀疏數(shù)據(jù)集,設(shè)計適于稀疏數(shù)據(jù)集的最大頻繁項集挖掘算法具有重要意義。本文從數(shù)據(jù)存儲結(jié)構(gòu)、算法搜索方式和優(yōu)化剪枝策略等層面對經(jīng)典的最大頻繁項集挖掘算法進(jìn)行了討論與分析,發(fā)現(xiàn)現(xiàn)有最大頻繁項集挖掘算法一般基于模式增長,對稀疏數(shù)據(jù)集挖掘效率低。實際上,稀疏度是反映數(shù)據(jù)集疏密程度的本質(zhì)特征之一,我們可以利用稀疏度對數(shù)據(jù)集分類,并圍繞最大頻繁項集挖掘算法對不同稀疏度的數(shù)據(jù)集進(jìn)行適應(yīng)性研究,取得的具體成果如下:(1)針對傳統(tǒng)稀疏度度量不準(zhǔn)確問題,本文提出了基于鄰接矩陣的有序存儲稀疏度度量方法SMMAM(Sparsity Measurement Method of Adjacency Matrix)。該方法將事務(wù)數(shù)據(jù)集壓縮成有序鄰接矩陣形式,從而度量其稀疏度。實驗結(jié)果表明,相比于傳統(tǒng)稀疏度度量方法,SMMAM能更準(zhǔn)確地反映特別稠密或稀疏的事務(wù)數(shù)據(jù)集的疏密程度。(2)...
【文章來源】:四川師范大學(xué)四川省
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 研究的背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文主要研究內(nèi)容
1.4 論文的組織結(jié)構(gòu)
2 最大頻繁項集相關(guān)理論研究
2.1 頻繁項集基礎(chǔ)理論
2.2 最大頻繁項集壓縮理論
2.2.1 基于有序頻繁的壓縮
2.2.2 基于FP-tree的有序存儲壓縮
2.2.3 基于PPC-tree的有序存儲壓縮
2.2.4 基于鄰接矩陣的有序存儲壓縮
2.2.5 基于集合枚舉樹的壓縮
2.2.6 基于H-struct的壓縮
2.3 最大頻繁項集搜索理論
2.3.1 廣度優(yōu)先搜索
2.3.2 深度優(yōu)先搜索
2.4 最大頻繁項集剪枝理論
2.4.1 基于廣度優(yōu)先搜索的剪枝
2.4.2 基于深度優(yōu)先搜索的剪枝
2.5 本章小結(jié)
3 數(shù)據(jù)集稀疏度度量方法研究
3.1 引言
3.2 現(xiàn)有稀疏度度量方法研究
3.2.1 傳統(tǒng)稀疏度度量方法
3.2.2 基于FP-tree結(jié)點數(shù)的稀疏度度量方法
3.2.3 基于事務(wù)最大共同項數(shù)差異度的稀疏度度量方法
3.3 基于鄰接矩陣的有序存儲稀疏度度量方法研究
3.4 實驗對比研究
3.4.1 不同特征數(shù)據(jù)集稀疏度度量結(jié)果及分析
3.4.2 不同特征數(shù)據(jù)集稀疏度下的MFI挖掘效率分析
3.5 本章小結(jié)
4 基于H-struct的最大頻繁項集挖掘改進(jìn)算法HMFI
4.1 引言
4.2 現(xiàn)有最大頻繁項集挖掘算法
4.3 HMFI算法的設(shè)計
4.3.1 基于改進(jìn)H-struct的深度優(yōu)先搜索
4.3.2 父等價優(yōu)化剪枝策略
4.3.3 HMFI時間復(fù)雜度計算及分析
4.4 實驗對比研究
4.4.1 HMFI運行效率分析
4.4.2 不同特征數(shù)據(jù)集稀疏度下的HMFI挖掘效率分析
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 工作總結(jié)
5.2 展望
參考文獻(xiàn)
致謝
在校期間的科研成果
【參考文獻(xiàn)】:
期刊論文
[1]一種基于鄰接表的最大頻繁項集挖掘算法[J]. 殷茗,王文杰,張煊宇,姜繼嬌. 電子與信息學(xué)報. 2019(08)
[2]稀疏數(shù)據(jù)頻繁項集挖掘算法研究綜述[J]. 肖文,胡娟. 計算機(jī)工程與科學(xué). 2019(05)
[3]不平衡數(shù)據(jù)挖掘方法綜述[J]. 向鴻鑫,楊云. 計算機(jī)工程與應(yīng)用. 2019(04)
[4]基于興趣度關(guān)聯(lián)規(guī)則的海洋氣象數(shù)據(jù)質(zhì)控算法[J]. 李濤,張燦,張帥弛,陸正邦. 現(xiàn)代電子技術(shù). 2018(22)
[5]基于DiffNodeset結(jié)構(gòu)的最大頻繁項集挖掘算法[J]. 尹遠(yuǎn),張昌,文凱,鄭云俊. 計算機(jī)應(yīng)用. 2018(12)
[6]基于數(shù)據(jù)集稀疏度的頻繁項集挖掘算法性能分析[J]. 肖文,胡娟. 計算機(jī)應(yīng)用. 2018(04)
[7]基于B-list的最大頻繁項集挖掘算法[J]. 張昌,文凱,鄭云俊. 計算機(jī)應(yīng)用研究. 2019(02)
[8]正負(fù)關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法[J]. 陳柳,馮山. 計算機(jī)應(yīng)用. 2018(05)
[9]基于Nodeset的最大頻繁項集挖掘算法[J]. 林晨,顧君忠. 計算機(jī)工程. 2016(12)
[10]NB-MAFIA:基于N-List的最長頻繁項集挖掘算法[J]. 沈戈暉,劉沛東,鄧志鴻. 北京大學(xué)學(xué)報(自然科學(xué)版). 2016(02)
博士論文
[1]基于視覺認(rèn)知的自然圖像目標(biāo)識別研究[D]. 李作進(jìn).重慶大學(xué) 2010
[2]最大頻繁項集挖掘算法及應(yīng)用研究[D]. 王卉.華中科技大學(xué) 2004
本文編號:3198105
【文章來源】:四川師范大學(xué)四川省
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 研究的背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文主要研究內(nèi)容
1.4 論文的組織結(jié)構(gòu)
2 最大頻繁項集相關(guān)理論研究
2.1 頻繁項集基礎(chǔ)理論
2.2 最大頻繁項集壓縮理論
2.2.1 基于有序頻繁的壓縮
2.2.2 基于FP-tree的有序存儲壓縮
2.2.3 基于PPC-tree的有序存儲壓縮
2.2.4 基于鄰接矩陣的有序存儲壓縮
2.2.5 基于集合枚舉樹的壓縮
2.2.6 基于H-struct的壓縮
2.3 最大頻繁項集搜索理論
2.3.1 廣度優(yōu)先搜索
2.3.2 深度優(yōu)先搜索
2.4 最大頻繁項集剪枝理論
2.4.1 基于廣度優(yōu)先搜索的剪枝
2.4.2 基于深度優(yōu)先搜索的剪枝
2.5 本章小結(jié)
3 數(shù)據(jù)集稀疏度度量方法研究
3.1 引言
3.2 現(xiàn)有稀疏度度量方法研究
3.2.1 傳統(tǒng)稀疏度度量方法
3.2.2 基于FP-tree結(jié)點數(shù)的稀疏度度量方法
3.2.3 基于事務(wù)最大共同項數(shù)差異度的稀疏度度量方法
3.3 基于鄰接矩陣的有序存儲稀疏度度量方法研究
3.4 實驗對比研究
3.4.1 不同特征數(shù)據(jù)集稀疏度度量結(jié)果及分析
3.4.2 不同特征數(shù)據(jù)集稀疏度下的MFI挖掘效率分析
3.5 本章小結(jié)
4 基于H-struct的最大頻繁項集挖掘改進(jìn)算法HMFI
4.1 引言
4.2 現(xiàn)有最大頻繁項集挖掘算法
4.3 HMFI算法的設(shè)計
4.3.1 基于改進(jìn)H-struct的深度優(yōu)先搜索
4.3.2 父等價優(yōu)化剪枝策略
4.3.3 HMFI時間復(fù)雜度計算及分析
4.4 實驗對比研究
4.4.1 HMFI運行效率分析
4.4.2 不同特征數(shù)據(jù)集稀疏度下的HMFI挖掘效率分析
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 工作總結(jié)
5.2 展望
參考文獻(xiàn)
致謝
在校期間的科研成果
【參考文獻(xiàn)】:
期刊論文
[1]一種基于鄰接表的最大頻繁項集挖掘算法[J]. 殷茗,王文杰,張煊宇,姜繼嬌. 電子與信息學(xué)報. 2019(08)
[2]稀疏數(shù)據(jù)頻繁項集挖掘算法研究綜述[J]. 肖文,胡娟. 計算機(jī)工程與科學(xué). 2019(05)
[3]不平衡數(shù)據(jù)挖掘方法綜述[J]. 向鴻鑫,楊云. 計算機(jī)工程與應(yīng)用. 2019(04)
[4]基于興趣度關(guān)聯(lián)規(guī)則的海洋氣象數(shù)據(jù)質(zhì)控算法[J]. 李濤,張燦,張帥弛,陸正邦. 現(xiàn)代電子技術(shù). 2018(22)
[5]基于DiffNodeset結(jié)構(gòu)的最大頻繁項集挖掘算法[J]. 尹遠(yuǎn),張昌,文凱,鄭云俊. 計算機(jī)應(yīng)用. 2018(12)
[6]基于數(shù)據(jù)集稀疏度的頻繁項集挖掘算法性能分析[J]. 肖文,胡娟. 計算機(jī)應(yīng)用. 2018(04)
[7]基于B-list的最大頻繁項集挖掘算法[J]. 張昌,文凱,鄭云俊. 計算機(jī)應(yīng)用研究. 2019(02)
[8]正負(fù)關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法[J]. 陳柳,馮山. 計算機(jī)應(yīng)用. 2018(05)
[9]基于Nodeset的最大頻繁項集挖掘算法[J]. 林晨,顧君忠. 計算機(jī)工程. 2016(12)
[10]NB-MAFIA:基于N-List的最長頻繁項集挖掘算法[J]. 沈戈暉,劉沛東,鄧志鴻. 北京大學(xué)學(xué)報(自然科學(xué)版). 2016(02)
博士論文
[1]基于視覺認(rèn)知的自然圖像目標(biāo)識別研究[D]. 李作進(jìn).重慶大學(xué) 2010
[2]最大頻繁項集挖掘算法及應(yīng)用研究[D]. 王卉.華中科技大學(xué) 2004
本文編號:3198105
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3198105.html
最近更新
教材專著