面向大數(shù)據(jù)的高效用模式挖掘方法研究
本文關(guān)鍵詞:面向大數(shù)據(jù)的高效用模式挖掘方法研究
更多相關(guān)文章: 大數(shù)據(jù) Hadoop MapReduce框架 頻繁模式挖掘 高效用項(xiàng)集
【摘要】:隨著各行業(yè)對(duì)數(shù)據(jù)越來越重視和信息技術(shù)的快速發(fā)展,產(chǎn)生的數(shù)據(jù)越來越全面,同時(shí)數(shù)據(jù)量也在快速的增長(zhǎng),并且各行業(yè)又要求能及時(shí)對(duì)已產(chǎn)生的數(shù)據(jù)進(jìn)行挖掘和分析,這使得高效用的模式挖掘技術(shù)愈發(fā)重要。由于大數(shù)據(jù)具有海量性、實(shí)時(shí)性和動(dòng)態(tài)變化性的特點(diǎn),這就要求挖掘算法有較高的時(shí)空效率。盡管模式數(shù)據(jù)挖掘技術(shù)取得了一定的進(jìn)展,但是挖掘算法的效率仍然是當(dāng)前數(shù)據(jù)挖掘領(lǐng)域中的研究焦點(diǎn)之一。提出了一種基于包含索引的高效用項(xiàng)集挖掘算法IHUI-Mine;诎饕Y(jié)構(gòu),不但可以快速發(fā)現(xiàn)共同出現(xiàn)的項(xiàng)目,而且還有利于搜索空間的快速剪枝。此外,算法基于二進(jìn)制位圖來表示數(shù)據(jù)庫(kù),不但能夠節(jié)省存儲(chǔ)空間,而且還可以充分利用位運(yùn)算來提高算法的效率。實(shí)驗(yàn)結(jié)果表明,算法的挖掘效率高,存儲(chǔ)開銷小,可擴(kuò)展性好。對(duì)高效用模式挖掘方法進(jìn)行了研究。根據(jù)大數(shù)據(jù)的特點(diǎn),以及典型挖掘算法在大數(shù)據(jù)中面臨的問題,提出了一種面向大數(shù)據(jù)的高效用模式挖掘算法,該算法采用滑動(dòng)窗口的方法來維護(hù)數(shù)據(jù)流中當(dāng)前被關(guān)注的數(shù)據(jù),并給出一種圖形化的數(shù)據(jù)結(jié)構(gòu)和一個(gè)表結(jié)構(gòu)來維護(hù)當(dāng)前窗口中的數(shù)據(jù),使該結(jié)構(gòu)可以用來挖掘當(dāng)前窗口中高效用項(xiàng)集,同時(shí)也不會(huì)丟失數(shù)據(jù)影響下一個(gè)窗口中數(shù)據(jù)的完整性。
【關(guān)鍵詞】:大數(shù)據(jù) Hadoop MapReduce框架 頻繁模式挖掘 高效用項(xiàng)集
【學(xué)位授予單位】:北方工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13
【目錄】:
- 摘要3-4
- ABSTRACT4-8
- 第一章 緒論8-12
- 1.1 研究背景8
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀8-10
- 1.3 主要研究?jī)?nèi)容10
- 1.4 論文組織結(jié)構(gòu)10-12
- 第二章 相關(guān)理論與技術(shù)分析12-18
- 2.1 大數(shù)據(jù)概述12-13
- 2.2 云計(jì)算平臺(tái)HADOOP13-14
- 2.3 MAPREDUCE框架14-17
- 2.4 本章小結(jié)17-18
- 第三章 頻繁模式挖掘算法分析18-25
- 3.1 頻繁模式挖掘相關(guān)定義18-19
- 3.2 頻繁模式挖掘的典型算法19-22
- 3.3 典型算法在大數(shù)據(jù)中的問題22-24
- 3.4 本章小結(jié)24-25
- 第四章 基于包含索引的高效用項(xiàng)集挖掘算法研究25-35
- 4.1 高效用項(xiàng)集定義25-26
- 4.2 基于包含索引的高效用項(xiàng)集挖掘算法提出依據(jù)26-27
- 4.3 基于包含索引的高效用項(xiàng)集挖掘算法設(shè)計(jì)思想27-31
- 4.3.1 包含索引結(jié)構(gòu)27-28
- 4.3.2 枚舉與剪枝策略28-29
- 4.3.3 算法描述29-31
- 4.4 算法驗(yàn)證31-35
- 4.4.1 真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果32-33
- 4.4.2 可擴(kuò)展性測(cè)試實(shí)驗(yàn)結(jié)果33-35
- 第五章 大數(shù)據(jù)上的高效用項(xiàng)集挖掘算法35-45
- 5.1 算法設(shè)計(jì)思想35-37
- 5.2 面向大數(shù)據(jù)的高效用模式挖掘算法37-40
- 5.3 仿真實(shí)驗(yàn)與結(jié)果分析40-44
- 5.4 本章小結(jié)44-45
- 第六章 結(jié)論與展望45-47
- 6.1 結(jié)論45
- 6.2 展望45-47
- 參考文獻(xiàn)47-51
- 在學(xué)期間的研究成果51-52
- 致謝52
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 燕彩蓉;孫圭寧;高念高;;基于擴(kuò)展樹狀知識(shí)庫(kù)的海量數(shù)據(jù)清洗算法[J];計(jì)算機(jī)工程與應(yīng)用;2010年28期
2 華銓平;;面向數(shù)據(jù)特征的分布式數(shù)據(jù)挖掘研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年06期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前6條
1 封俊;基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn)[D];太原理工大學(xué);2010年
2 李軍華;云計(jì)算及若干數(shù)據(jù)挖掘算法的MapReduce化研究[D];電子科技大學(xué);2010年
3 劉洋;基于MapReduce的中醫(yī)藥并行數(shù)據(jù)挖掘服務(wù)[D];浙江大學(xué);2010年
4 紀(jì)俊;一種基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)[D];青島大學(xué);2009年
5 鄧自立;云計(jì)算中的網(wǎng)絡(luò)拓?fù)湓O(shè)計(jì)和Hadoop平臺(tái)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2009年
6 朱珠;基于Hadoop的海量數(shù)據(jù)處理模型研究和應(yīng)用[D];北京郵電大學(xué);2008年
,本文編號(hào):603439
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/603439.html