基于Hadoop多維時態(tài)數(shù)據(jù)挖掘模型的研究與應(yīng)用
本文關(guān)鍵詞:基于Hadoop多維時態(tài)數(shù)據(jù)挖掘模型的研究與應(yīng)用
更多相關(guān)文章: 多維時態(tài)數(shù)據(jù)挖掘 Hadoop系統(tǒng) FPCpb-Growth算法 并行化編程
【摘要】:隨著信息技術(shù)與互聯(lián)網(wǎng)技術(shù)的深入發(fā)展,全球數(shù)據(jù)量呈現(xiàn)出爆炸式增長。大規(guī)模數(shù)據(jù)集不僅具有時間特性,隨著社會生活資料和生產(chǎn)資料日益繁雜,還具有明顯的多維屬性。如何真實的反應(yīng)出現(xiàn)實世界中事物和事物之間、事物的不同屬性之間以及不同事物的不同屬性之間的聯(lián)系,從而挖掘出有效的、新穎的、潛在可用的模式和規(guī)則,具有重要的研究意義。數(shù)據(jù)挖掘是從規(guī)模龐大的、有噪聲的數(shù)據(jù)中提取出數(shù)據(jù)內(nèi)部規(guī)律的表現(xiàn)特征的方法和技術(shù)。面對海量的多維時態(tài)數(shù)據(jù),傳統(tǒng)的存儲系統(tǒng)以及數(shù)據(jù)挖掘模式已經(jīng)不能勝任其所面臨的在效率、擴展性和成本等方面的挑戰(zhàn)。云計算技術(shù),特別是Hadoop平臺以其擴展性強、性價比高、容錯性好等優(yōu)勢給出了解決大數(shù)據(jù)挖掘的方案。結(jié)合Hadoop云計算平臺,實現(xiàn)大規(guī)模多維時態(tài)數(shù)據(jù)的挖掘是本論文要進(jìn)行研究的。首先,從時態(tài)數(shù)據(jù)入手,構(gòu)造出多維時態(tài)數(shù)據(jù)SDTE模型?偨Y(jié)歸納了時間相關(guān)的概念,以時間特性為中心,討論了時態(tài)數(shù)據(jù)的多維性。從現(xiàn)實世界和數(shù)據(jù)庫系統(tǒng)角度出發(fā),結(jié)合時態(tài)數(shù)據(jù)的數(shù)值型序列、事務(wù)型序列以及事件性序列挖掘的研究,提出了并建立了統(tǒng)一規(guī)范的多維時態(tài)數(shù)據(jù)SDTE模型。其次,結(jié)合大規(guī)模數(shù)據(jù)挖掘和Hadoop技術(shù)平臺,架構(gòu)出基于Hadoop技術(shù)框架的大規(guī)模多維時態(tài)數(shù)據(jù)挖掘模型。模型采用分布式文件系統(tǒng)實現(xiàn)超大文件數(shù)據(jù)的存儲和容錯,同時使用MapReduce的編程模式進(jìn)行并行計算。自頂向下分層分為動態(tài)交互層、業(yè)務(wù)應(yīng)用層、數(shù)據(jù)挖掘?qū)雍头植际狡脚_層。著重對數(shù)據(jù)挖掘?qū)拥臄?shù)據(jù)管理模塊和并行化編程模塊進(jìn)了整合和優(yōu)化。提出了Hive-HBase集成模型對HDFS進(jìn)行操作,構(gòu)建了通用性的并行化編程模型。然后,基于模型改進(jìn)了關(guān)聯(lián)規(guī)則FP-Growth算法并進(jìn)行實驗;趯Χ嗑S關(guān)聯(lián)規(guī)則概念的研究,在FP-Growth算法的基礎(chǔ)上對影響算法效率較大的求子條件模式基的算法進(jìn)行改進(jìn),提出了FPCpb算法。并對FPCpb算法進(jìn)行并行化。最后,搭建實驗環(huán)境進(jìn)行實驗,依據(jù)評估標(biāo)準(zhǔn)對數(shù)據(jù)進(jìn)行分析,驗證了Hadoop多維時態(tài)數(shù)據(jù)挖掘模型的可行性以及FPCpb-Growth算法的高效性。
【關(guān)鍵詞】:多維時態(tài)數(shù)據(jù)挖掘 Hadoop系統(tǒng) FPCpb-Growth算法 并行化編程
【學(xué)位授予單位】:浙江理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 緒論9-15
- 1.1 選題背景與意義9-10
- 1.2 研究現(xiàn)狀10-12
- 1.2.1 基于Hadoop大規(guī)模數(shù)據(jù)挖掘研究現(xiàn)狀10-11
- 1.2.2 時態(tài)數(shù)據(jù)與多維數(shù)據(jù)挖掘現(xiàn)狀研究11-12
- 1.3 本文主要研究內(nèi)容12
- 1.4 論文組織結(jié)構(gòu)12-15
- 第二章 多維時態(tài)數(shù)據(jù)模型構(gòu)造15-23
- 2.1 時間相關(guān)的概念與時間特征提取15-18
- 2.2 時態(tài)數(shù)據(jù)的多維性18-20
- 2.3 多維時態(tài)數(shù)據(jù)模型研究20-21
- 2.4 建立多維時態(tài)數(shù)據(jù)SDTE模型21-22
- 2.5 本章小結(jié)22-23
- 第三章 基于Hadoop技術(shù)框架的大規(guī)模多維時態(tài)數(shù)據(jù)挖掘模型研究23-36
- 3.1 基于Hadoop技術(shù)框架的研究23-26
- 3.1.1 Hadoop平臺系統(tǒng)結(jié)構(gòu)簡介23-24
- 3.1.2 MapReduce計算模式24
- 3.1.3 Hadoop數(shù)據(jù)管理24-26
- 3.2 大規(guī)模數(shù)據(jù)挖掘過程研究26-27
- 3.3 基于Hadoop技術(shù)框架的大規(guī)模多維時態(tài)數(shù)據(jù)挖掘模型總體架構(gòu)27-29
- 3.4 大規(guī)模多維時態(tài)數(shù)據(jù)管理優(yōu)化29-32
- 3.5 MapReduce并行編程模型研究32-35
- 3.6 本章小結(jié)35-36
- 第四章 多維時態(tài)關(guān)聯(lián)規(guī)則算法的并行化改進(jìn)36-47
- 4.1 關(guān)聯(lián)規(guī)則挖掘技術(shù)36-42
- 4.1.1 關(guān)聯(lián)規(guī)則的基本概念36-38
- 4.1.2 關(guān)聯(lián)規(guī)則的分類與拓展38-40
- 4.1.3 關(guān)聯(lián)規(guī)則的算法描述40-42
- 4.2 基于多維時態(tài)數(shù)據(jù)的關(guān)聯(lián)規(guī)則算法改進(jìn)42-44
- 4.2.1 多維事件時態(tài)關(guān)聯(lián)規(guī)則模型42-43
- 4.2.2 多維時態(tài)關(guān)聯(lián)規(guī)則算法改進(jìn)43-44
- 4.3 多維時態(tài)關(guān)聯(lián)規(guī)則算法的并行化改進(jìn)44-46
- 4.4 本章小結(jié)46-47
- 第五章 實驗與分析47-58
- 5.1 實驗平臺的搭建47-52
- 5.1.1 實驗環(huán)境47
- 5.1.2 搭建Hadoop集群47-51
- 5.1.3 HBase分布式數(shù)據(jù)庫的配置與運行51
- 5.1.4 Hive數(shù)據(jù)倉庫分析工具的配置與運行51-52
- 5.2 數(shù)據(jù)與數(shù)據(jù)預(yù)處理52-55
- 5.3 多維時態(tài)關(guān)聯(lián)規(guī)則算法改進(jìn)算法FPCpb-Growth實驗55-56
- 5.4 基于Hadoop多維時態(tài)數(shù)據(jù)挖掘模型的并行FPCpb-Growth算法實驗56-57
- 5.5 本章小結(jié)57-58
- 第六章 總結(jié)與展望58-60
- 6.1 論文總結(jié)58-59
- 6.2 進(jìn)一步工作展望59-60
- 參考文獻(xiàn)60-65
- 致謝65-66
- 攻讀學(xué)位期間的研究成果66
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 魏檳澤;;相似發(fā)現(xiàn)技術(shù)在時態(tài)數(shù)據(jù)挖掘中的應(yīng)用[J];硅谷;2012年10期
2 劉念祖;時態(tài)數(shù)據(jù)挖掘的探討[J];上海第二工業(yè)大學(xué)學(xué)報;2001年02期
3 陳海慶 ,趙峰 ,金莉 ,方新城;時態(tài)數(shù)據(jù)的一種挖掘算法[J];計算機與數(shù)字工程;2003年02期
4 江蘭;方思行;;電子病歷管理系統(tǒng)中的時態(tài)數(shù)據(jù)處理[J];微計算機信息;2006年09期
5 丁國芳;湯庸;章云;;基于時態(tài)數(shù)據(jù)類型的時態(tài)數(shù)據(jù)索引方法[J];計算機工程;2006年19期
6 吳遠(yuǎn)紅;陳愛萍;;共享數(shù)據(jù)庫平臺中的時態(tài)數(shù)據(jù)處理研究[J];電腦知識與技術(shù);2006年32期
7 潘定;沈鈞毅;;持續(xù)時態(tài)數(shù)據(jù)挖掘的研究[J];控制與決策;2007年03期
8 潘定;沈鈞毅;;時態(tài)數(shù)據(jù)挖掘的相似性發(fā)現(xiàn)技術(shù)[J];軟件學(xué)報;2007年02期
9 莊彬;孟志青;;基于支持向量機的時態(tài)數(shù)據(jù)預(yù)測方法[J];計算機工程與應(yīng)用;2007年19期
10 莊彬;孟志青;周曉昕;;基于支持向量回歸機的時態(tài)數(shù)據(jù)預(yù)測研究[J];溫州大學(xué)學(xué)報(自然科學(xué)版);2007年05期
中國重要會議論文全文數(shù)據(jù)庫 前7條
1 蔡智;岳麗華;蔡慶生;;時態(tài)數(shù)據(jù)的一種周期函數(shù)模式發(fā)現(xiàn)研究[A];第十六屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集[C];1999年
2 金文;洪潤秋;陳鋼;王能斌;;一個時態(tài)數(shù)據(jù)模型[A];第十一屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集[C];1993年
3 姚小巍;陳瀅;冒志鴻;董逸生;;一個支持模式演變的時態(tài)數(shù)據(jù)模型[A];第十二屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集[C];1994年
4 湯庸;劉海;郭歡;葉小平;;TempDB:時態(tài)數(shù)據(jù)管理系統(tǒng)[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年
5 黃亞靜;鄭振楣;石樹剛;;面向?qū)嶓w的時態(tài)數(shù)據(jù)模型EOTDM[A];第十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集[C];1992年
6 孟志青;萬天明;楊斌;;數(shù)據(jù)倉庫的時態(tài)數(shù)據(jù)采掘形式化研究[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2001年
7 冒志鴻;邵勃;姚小巍;董逸生;;ETSQL:一個基于模式演變時態(tài)數(shù)據(jù)模型的查詢語言[A];第十二屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集[C];1994年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 任淑霞;基于概率的不確定時態(tài)數(shù)據(jù)建模與挖掘問題的研究[D];天津大學(xué);2013年
2 陳填銳;確定學(xué)習(xí)理論與智能振動故障診斷[D];華南理工大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 張云龍;基于Hadoop多維時態(tài)數(shù)據(jù)挖掘模型的研究與應(yīng)用[D];浙江理工大學(xué);2016年
2 龔冰;多粒度雙時態(tài)數(shù)據(jù)模型的研究與應(yīng)用[D];燕山大學(xué);2006年
3 來升強;時態(tài)數(shù)據(jù)挖掘及其應(yīng)用[D];廈門大學(xué);2006年
4 彭慧麗;支持時間不確定性的時態(tài)數(shù)據(jù)模型研究[D];燕山大學(xué);2006年
5 張潔;電子病歷的時態(tài)數(shù)據(jù)研究[D];中南大學(xué);2008年
6 梁曉蕾;關(guān)于時態(tài)數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的研究[D];山東大學(xué);2008年
7 程昱;時態(tài)數(shù)據(jù)周期挖掘理論與算法的研究[D];湘潭大學(xué);2005年
8 張慶文;應(yīng)急系統(tǒng)中時態(tài)數(shù)據(jù)的本體表示與檢索研究[D];太原理工大學(xué);2008年
9 羅來鵬;關(guān)于時態(tài)數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘研究[D];西南交通大學(xué);2004年
10 張錫琴;時態(tài)數(shù)據(jù)流的增量聚類算法研究及其應(yīng)用[D];浙江工業(yè)大學(xué);2009年
,本文編號:664548
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/664548.html