基于多效用閾值的分布式高效用序列模式挖掘
發(fā)布時(shí)間:2023-04-09 01:50
針對(duì)序列模式的高效用模式挖掘過(guò)程中搜索空間大、計(jì)算復(fù)雜度高的問(wèn)題,提出一種基于多效用閾值的分布式高效用序列模式挖掘算法。采用數(shù)組結(jié)構(gòu)保存模式的效用信息,解決效用矩陣導(dǎo)致的內(nèi)存消耗大的缺點(diǎn)。設(shè)計(jì)1-項(xiàng)集與2-項(xiàng)集的深度剪枝策略,深入地縮小候選模式的搜索空間,減少搜索時(shí)間成本與緩存成本。提出挖掘算法的分布式實(shí)現(xiàn)方案,通過(guò)并行處理進(jìn)一步降低模式挖掘的時(shí)間;谥械纫(guī)模與大規(guī)模的序列數(shù)據(jù)集分別進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該算法有效減少了候選模式的數(shù)量,降低了挖掘的時(shí)間成本與存儲(chǔ)成本,對(duì)于大數(shù)據(jù)集表現(xiàn)出較好的可擴(kuò)展能力與穩(wěn)定性。
【文章頁(yè)數(shù)】:9 頁(yè)
【文章目錄】:
0 引言
1 問(wèn)題模型
2 數(shù)據(jù)結(jié)構(gòu)與算法設(shè)計(jì)
2.1 會(huì)話序列的字典樹(shù)(前綴樹(shù))結(jié)構(gòu)
2.2 基于數(shù)組的低內(nèi)存快速挖掘策略
2.3 索引效用列表
2.4 生成序列的iulist
2.5 效用上限與初步剪枝策略
2.6 串型高效用模式挖掘算法(string high efficient pattern mining algorithm,SHEPMA)
3 分布式高效用模式挖掘算法(distributed high efficient pattern mining algorithm,SHEMA)
3.1 分布式效用列表設(shè)計(jì)
3.2 分布式多閾值挖掘的深度剪枝屬性
3.3 SHEMA算法
3.4 SHEMA的分布式實(shí)現(xiàn)方案
3.5 算例
4 實(shí)驗(yàn)結(jié)果與分析
4.1 實(shí)驗(yàn)數(shù)據(jù)集
4.2 剪枝策略的性能
4.3 挖掘算法的挖掘時(shí)間
4.4 挖掘算法的擴(kuò)展性性能
4.5挖掘算法消耗的內(nèi)存
5 結(jié)束語(yǔ)
本文編號(hào):3786844
【文章頁(yè)數(shù)】:9 頁(yè)
【文章目錄】:
0 引言
1 問(wèn)題模型
2 數(shù)據(jù)結(jié)構(gòu)與算法設(shè)計(jì)
2.1 會(huì)話序列的字典樹(shù)(前綴樹(shù))結(jié)構(gòu)
2.2 基于數(shù)組的低內(nèi)存快速挖掘策略
2.3 索引效用列表
2.4 生成序列的iulist
2.5 效用上限與初步剪枝策略
2.6 串型高效用模式挖掘算法(string high efficient pattern mining algorithm,SHEPMA)
3 分布式高效用模式挖掘算法(distributed high efficient pattern mining algorithm,SHEMA)
3.1 分布式效用列表設(shè)計(jì)
3.2 分布式多閾值挖掘的深度剪枝屬性
3.3 SHEMA算法
3.4 SHEMA的分布式實(shí)現(xiàn)方案
3.5 算例
4 實(shí)驗(yàn)結(jié)果與分析
4.1 實(shí)驗(yàn)數(shù)據(jù)集
4.2 剪枝策略的性能
4.3 挖掘算法的挖掘時(shí)間
4.4 挖掘算法的擴(kuò)展性性能
4.5挖掘算法消耗的內(nèi)存
5 結(jié)束語(yǔ)
本文編號(hào):3786844
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3786844.html
最近更新
教材專(zhuān)著