天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

大數(shù)據(jù)環(huán)境下的關(guān)聯(lián)規(guī)則提取算法研究

發(fā)布時(shí)間:2017-04-27 00:07

  本文關(guān)鍵詞:大數(shù)據(jù)環(huán)境下的關(guān)聯(lián)規(guī)則提取算法研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)、信息技術(shù)以及云計(jì)算的高速發(fā)展,當(dāng)今社會(huì)已進(jìn)入了海量數(shù)據(jù)的時(shí)代,進(jìn)一步將大數(shù)據(jù)推生為IT產(chǎn)業(yè)又一次顛覆性的技術(shù)變革。不管是移動(dòng)通信、電商金融還是物聯(lián)網(wǎng)等各個(gè)領(lǐng)域,每天都會(huì)產(chǎn)生巨量的各種不同類(lèi)型的數(shù)據(jù)。如何從這些龐大的、結(jié)構(gòu)各異的、而又摻雜著大量噪聲的數(shù)據(jù)中提取出隱含在其中的具有一定意義的知識(shí)或規(guī)則,正是關(guān)聯(lián)規(guī)則提取的研究?jī)?nèi)容。在大數(shù)據(jù)環(huán)境下,選取什么樣的平臺(tái)工具或算法可以對(duì)數(shù)據(jù)進(jìn)行快速的挖掘分析,看清數(shù)據(jù)的本質(zhì),找到其中的商機(jī),是人們亟待解決的一個(gè)問(wèn)題。針對(duì)蘊(yùn)含關(guān)聯(lián)規(guī)則提取問(wèn)題,給出了一種新的關(guān)聯(lián)規(guī)則生成形式——蘊(yùn)含關(guān)聯(lián)規(guī)則,提出了蘊(yùn)含關(guān)聯(lián)規(guī)則的提取方法。針對(duì)如何提取有效關(guān)聯(lián)規(guī)則的問(wèn)題,應(yīng)用了蘊(yùn)含強(qiáng)度作為規(guī)則提取的度量,提取出真正具有蘊(yùn)含關(guān)系的規(guī)則,并且能夠分析規(guī)則中所涉及的規(guī)則前件與規(guī)則后件相關(guān)性的正負(fù)。引入啟發(fā)性信息,使得關(guān)聯(lián)規(guī)則的提取更具有針對(duì)性,避免了大部分用戶(hù)不感興趣的、冗余的規(guī)則。實(shí)驗(yàn)結(jié)論證明該關(guān)聯(lián)規(guī)則形式及算法的有效性及效率。在大數(shù)據(jù)環(huán)境下,針對(duì)FP-Growth算法無(wú)法將整棵FP-tree一次性加載到內(nèi)存,很大程度上影響了FP-Growth算法效率的問(wèn)題,提出了OPFP-Growth算法,在Hadoop平臺(tái)應(yīng)用MapReduce將傳統(tǒng)的FP-Growth算法進(jìn)行并行化。針對(duì)MapReduce并行算法的負(fù)載初始化不均衡及頻繁項(xiàng)集約簡(jiǎn)的問(wèn)題,引入了權(quán)重輪循負(fù)載均衡及頻繁閉項(xiàng)集的方法。使得各個(gè)數(shù)據(jù)節(jié)點(diǎn)的數(shù)據(jù)分配及處理能力更趨于均衡,并減少了FP-tree在迭代的數(shù)據(jù)挖掘過(guò)程中輸出冗余的中間結(jié)果。同時(shí)應(yīng)用Hive對(duì)數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)進(jìn)行相應(yīng)的調(diào)整,提高了HDFS的空間利用率,實(shí)驗(yàn)驗(yàn)證了算法的有效性及效率。實(shí)驗(yàn)采用NCDC的氣象數(shù)據(jù),應(yīng)用并行的OPFP-Growth算法到氣象數(shù)據(jù)關(guān)聯(lián)因素分析中,可以分析出氣象信息中相關(guān)因素的關(guān)聯(lián)性,為天氣預(yù)報(bào)、防災(zāi)減災(zāi)提供決策依據(jù)。
【關(guān)鍵詞】:關(guān)聯(lián)規(guī)則 大數(shù)據(jù) Hadoop OPFP-Growth Hive 氣象分析
【學(xué)位授予單位】:遼寧工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP311.13
【目錄】:
  • 摘要5-6
  • Abstract6-9
  • 1 緒論9-13
  • 1.1 論文的研究背景與選題意義9-10
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-11
  • 1.2.1 傳統(tǒng)關(guān)聯(lián)規(guī)則的研究現(xiàn)狀10-11
  • 1.2.2 大數(shù)據(jù)環(huán)境下的關(guān)聯(lián)規(guī)則研究現(xiàn)狀11
  • 1.3 本文的主要工作11-12
  • 1.4 論文的主要內(nèi)容及結(jié)構(gòu)安排12-13
  • 2 分布式并行系統(tǒng)基礎(chǔ)架構(gòu)相關(guān)知識(shí)13-23
  • 2.1 Hadoop簡(jiǎn)介13-15
  • 2.2 分布式文件系統(tǒng)HDFS15-17
  • 2.2.1 HDFS的體系結(jié)構(gòu)15-17
  • 2.2.2 HDFS的讀寫(xiě)原理17
  • 2.3 編程模型MapReduce17-19
  • 2.3.1 MapReduce的體系結(jié)構(gòu)17-18
  • 2.3.2 MapReduce的工作流程18-19
  • 2.4 機(jī)器學(xué)習(xí)類(lèi)庫(kù)Mahout19-20
  • 2.5 數(shù)據(jù)倉(cāng)庫(kù)Hive20-21
  • 2.6 Hadoop大數(shù)據(jù)處理架構(gòu)21-22
  • 2.7 本章小節(jié)22-23
  • 3 關(guān)聯(lián)規(guī)則相關(guān)算法研究23-35
  • 3.1 關(guān)聯(lián)規(guī)則23-24
  • 3.2 Apriori算法24
  • 3.2.1 Apriori算法的原理24
  • 3.2.2 Apriori算法的分析24
  • 3.3 蘊(yùn)含關(guān)聯(lián)規(guī)則提取算法24-32
  • 3.3.1 蘊(yùn)含關(guān)聯(lián)規(guī)則26-28
  • 3.3.2 蘊(yùn)含關(guān)聯(lián)規(guī)則的提取方法28-30
  • 3.3.3 蘊(yùn)含關(guān)聯(lián)規(guī)則的應(yīng)用30-32
  • 3.4 PF-Growth算法32-34
  • 3.4.1 PF-Growth算法原理32-34
  • 3.4.2 FP-Growth算法的缺陷34
  • 3.4.3 FP-Growth算法的并行化34
  • 3.5 本章小結(jié)34-35
  • 4 OPFP-Growth算法的研究與應(yīng)用35-44
  • 4.1 OPFP-Growth算法研究35-37
  • 4.1.1 負(fù)載均衡35-36
  • 4.1.2 引入頻繁閉項(xiàng)集36
  • 4.1.3 Hive分析優(yōu)化36-37
  • 4.2 OPFP-Growth算法流程37-39
  • 4.3 OPFP-Growth算法的應(yīng)用39-43
  • 4.3.1 氣象數(shù)據(jù)挖掘分析39-40
  • 4.3.2 數(shù)據(jù)收集源40-41
  • 4.3.3 數(shù)據(jù)預(yù)處理41-43
  • 4.4 本章小結(jié)43-44
  • 5 實(shí)驗(yàn)環(huán)境與結(jié)果44-55
  • 5.1 Hadoop/Hive環(huán)境配置44-50
  • 5.1.1 JDK的安裝配置44-45
  • 5.1.2 Hadoop的安裝配置45-48
  • 5.1.3 Hive的安裝配置48-50
  • 5.2 性能測(cè)試50-53
  • 5.2.1 負(fù)載均衡50-52
  • 5.2.2 執(zhí)行時(shí)間52-53
  • 5.3 結(jié)果分析53-54
  • 5.4 本章小結(jié)54-55
  • 6 結(jié)論和展望55-56
  • 6.1 結(jié)論55
  • 6.2 展望55-56
  • 參考文獻(xiàn)56-58
  • 攻讀碩士期間發(fā)表學(xué)術(shù)論文情況58-59
  • 致謝59

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 肖基毅,鄒臘梅,劉豐;頻繁項(xiàng)集挖掘算法研究[J];情報(bào)雜志;2005年11期

2 蔡進(jìn);薛永生;張東站;;基于分區(qū)分類(lèi)法快速更新頻繁項(xiàng)集[J];計(jì)算機(jī)工程與應(yīng)用;2007年09期

3 胡學(xué)鋼;徐勇;王德興;張晶;;基于多剪枝格的頻繁項(xiàng)集表示與挖掘[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年04期

4 胡學(xué)鋼;劉衛(wèi);王德興;;基于剪枝概念格模型的頻繁項(xiàng)集表示及挖掘[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年09期

5 欒鸞;李云;盛艷;;多關(guān)系頻繁項(xiàng)集的并行獲取[J];微電子學(xué)與計(jì)算機(jī);2008年10期

6 李彥偉;戴月明;王金鑫;;一種挖掘加權(quán)頻繁項(xiàng)集的改進(jìn)算法[J];計(jì)算機(jī)工程與應(yīng)用;2011年15期

7 陳立潮,張建華,劉玉樹(shù);提高頻繁項(xiàng)集挖掘算法效率的方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2002年10期

8 朱玉全,孫志揮,趙傳申;快速更新頻繁項(xiàng)集[J];計(jì)算機(jī)研究與發(fā)展;2003年01期

9 宋寶莉;張幫華;何炎祥;朱驍峰;;帶有多個(gè)可轉(zhuǎn)化約束的頻繁項(xiàng)集挖掘算法[J];計(jì)算機(jī)科學(xué);2003年12期

10 王自強(qiáng),馮博琴;頻繁項(xiàng)集的簡(jiǎn)潔表示方法研究[J];系統(tǒng)工程理論與實(shí)踐;2004年07期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 欒鸞;李云;盛艷;;多關(guān)系頻繁項(xiàng)集的并行獲取[A];2008年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2008年

2 楊曉明;王晨;汪衛(wèi);張守志;施伯樂(lè);;頻繁項(xiàng)集的精簡(jiǎn)表達(dá)與還原問(wèn)題研究[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年

3 鄧傳國(guó);;頻繁項(xiàng)集挖掘與學(xué)生素質(zhì)測(cè)評(píng)應(yīng)用研究[A];2007系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2007年

4 李彤巖;李興明;;基于分布式關(guān)聯(lián)規(guī)則挖掘的告警相關(guān)性研究[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2007年

5 王洪利;馮玉強(qiáng);;頻繁項(xiàng)集挖掘算法Apriori的改進(jìn)研究[A];全國(guó)第九屆企業(yè)信息化與工業(yè)工程學(xué)術(shù)會(huì)議論文集[C];2005年

6 陳曉云;李龍杰;馬志新;白伸伸;王磊;;AFP-Miner:一種新高效的頻繁項(xiàng)集挖掘算法[A];2006年全國(guó)理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會(huì)論文集[C];2006年

7 李坤;王永炎;王宏安;;一種基于樂(lè)觀裁剪策略的挖掘數(shù)據(jù)流滑動(dòng)窗口上閉合頻繁項(xiàng)集的算法[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年

8 鄒遠(yuǎn)婭;周皓峰;王晨;汪衛(wèi);施伯樂(lè);;FSC——利用頻繁項(xiàng)集挖掘估算視圖大小[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年

9 楊曉雪;衡紅軍;;一種對(duì)XML數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘的方法研究[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年

10 謝志軍;陳紅;;EFIM——數(shù)據(jù)流上頻繁項(xiàng)集挖掘的高性能算法[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條

1 溫磊;基于有向項(xiàng)集圖的關(guān)聯(lián)規(guī)則挖掘算法研究與應(yīng)用[D];天津大學(xué);2004年

2 董杰;基于位表的關(guān)聯(lián)規(guī)則挖掘及關(guān)聯(lián)分類(lèi)研究[D];大連理工大學(xué);2009年

3 賈彩燕;關(guān)聯(lián)規(guī)則挖掘的取樣復(fù)雜性分析[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2004年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 王立俊;基于多重最小支持度的氋效用頻繁項(xiàng)集挖掘算法研究[D];廣西大學(xué);2015年

2 陳國(guó)俊;基于Hadoop的云存儲(chǔ)系統(tǒng)的研究與應(yīng)用[D];電子科技大學(xué);2014年

3 尹艷紅;基于Apriori算法的增量式關(guān)聯(lián)規(guī)則控制研究[D];大連理工大學(xué);2015年

4 田苗鳳;大數(shù)據(jù)背景下并行動(dòng)態(tài)關(guān)聯(lián)規(guī)則挖掘研究[D];蘭州交通大學(xué);2015年

5 李雪迪;基于本體論的精細(xì)化數(shù)據(jù)分析[D];南京郵電大學(xué);2015年

6 許靜文;基于模糊等價(jià)類(lèi)的頻繁項(xiàng)集精簡(jiǎn)表示算法研究[D];合肥工業(yè)大學(xué);2015年

7 王大偉;大數(shù)據(jù)環(huán)境下的關(guān)聯(lián)規(guī)則提取算法研究[D];遼寧工業(yè)大學(xué);2016年

8 郭靜;最大和最長(zhǎng)頻繁項(xiàng)集增量更新研究[D];燕山大學(xué);2010年

9 劉衛(wèi);基于剪枝概念格模型的頻繁項(xiàng)集表示及挖掘研究[D];合肥工業(yè)大學(xué);2007年

10 王洪波;基于矩陣的頻繁項(xiàng)集挖掘算法研究[D];蘭州大學(xué);2007年


  本文關(guān)鍵詞:大數(shù)據(jù)環(huán)境下的關(guān)聯(lián)規(guī)則提取算法研究,,由筆耕文化傳播整理發(fā)布。



本文編號(hào):329505

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/329505.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)ac3c5***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com