天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Hadoop的數(shù)據(jù)挖掘算法并行化研究

發(fā)布時間:2017-05-18 04:00

  本文關鍵詞:基于Hadoop的數(shù)據(jù)挖掘算法并行化研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著社會互聯(lián)網技術和計算機技術的蓬勃發(fā)展,大量的數(shù)據(jù)信息被保留下來,各種各樣的信息呈現(xiàn)出了爆炸式的增長。面對這樣海量的數(shù)據(jù),如何高效可行的進行數(shù)據(jù)挖掘是當下社會面對的一個棘手的問題。傳統(tǒng)可靠準確的串行數(shù)據(jù)挖掘算法可以處理小規(guī)模數(shù)據(jù),但不一定適合處理大規(guī)模數(shù)據(jù)。在這樣的要求下,并行數(shù)據(jù)挖掘算法應運而生,作為并行計算的一個重要技術工具Hadoop并行框架越來越引起商業(yè)界和學術界的重視,利用Hadoop并行框架研究數(shù)據(jù)挖掘算法也是學術界的一個熱點問題。Apriori算法做為最典型的關聯(lián)規(guī)則挖掘算法,在大規(guī)模數(shù)據(jù)下挖掘時主要面臨的技術瓶頸是龐大的數(shù)據(jù)量多次遍歷導致I/O瓶頸,進而導致計算時間大量增加。而針對Aprior算法的優(yōu)化算法目前已有很多,主要的并行算法包括CD(count distribution)、 DD(data distribution), CaD(candidate distribution)算法等。PageRank算法作為商業(yè)搜索引擎的核心算法,在面臨數(shù)量飛漲的網頁數(shù)據(jù)時,也難以避免處理多輪迭代和遍歷網頁的耗時開銷。就PageRank算法處理大規(guī)模數(shù)據(jù)時的問題,學者已有的成果也很多,例如將PageRank算法直接移植到Hadoop平臺之上,但是MapReduce自有其分布式計算的特點,單純套用可以實現(xiàn)并行,但是不一定達到效果最佳。本文重點在于對Apriori算法和PageRank算法在Hadoop平臺下的移植和優(yōu)化做了深入的研究:Apriori算法結合Hadoop平臺MapReduce框架實現(xiàn)分布式計算,在每一輪迭代時,利用DataJoin并行連接和剪枝運算實現(xiàn)下一輪候選集的產生。使得Apriori算法產生頻繁項集的整個過程并行化,并行化粒度得到提高。本文將PageRank算法的輸入做了處理,從之前單個網頁輸入變?yōu)橐粋網站輸入,處理過程引入了三個層次的數(shù)據(jù)壓縮方法,從而減小數(shù)據(jù)通信量和存儲量。針對以上提出的優(yōu)化算法,本文還利用不同的數(shù)據(jù)集和不同的分布式集群試驗了算法的性能,并將之前的算法與本文提出的算法做了比較。實驗表明,本文提出的算法在數(shù)據(jù)適應性和算法效率上都有提高,縮減了算法執(zhí)行時間,有一定的實際意義。
【關鍵詞】:Hadoop MapReduee 數(shù)據(jù)挖掘 Apriori算法 PageRank算法
【學位授予單位】:廣東工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP311.13
【目錄】:
  • 摘要4-5
  • ABSTRACT5-7
  • 目錄7-9
  • CONTENTS9-11
  • 第一章 緒論11-16
  • 1.1 課題背景及意義11-12
  • 1.2 國內外研究現(xiàn)狀12-14
  • 1.3 本文主要工作14
  • 1.4 本文組織結構14-16
  • 第二章 Hadoop并行框架研究16-25
  • 2.1 Hadoop技術構架16-18
  • 2.2 HDFS分布式文件系統(tǒng)18-21
  • 2.2.1 HDFS基礎概念18-19
  • 2.2.2 文件系統(tǒng)命名空間映像文件19-20
  • 2.2.3 HDFS體系架構20-21
  • 2.3 MapReduce并行編程模型21-25
  • 2.3.1 MapReduce編程模型原理21-23
  • 2.3.2 MapReduce執(zhí)行過程23-25
  • 第三章 Apriori算法以及并行化25-40
  • 3.1 關聯(lián)規(guī)則25-28
  • 3.1.1 關聯(lián)規(guī)則的定義25-26
  • 3.1.2 關聯(lián)規(guī)則的分類26-27
  • 3.1.3 關聯(lián)規(guī)則的過程27-28
  • 3.2 Apriori算法概述28-31
  • 3.3 Apriori算法的并行化31-36
  • 3.3.1 基于劃分的Apriori并行算法31-32
  • 3.3.2 傳統(tǒng)基于MapReduce的Apriori算法32-33
  • 3.3.3 基于Hadoop生態(tài)系統(tǒng)的Apriori算法——Hapriori的設計33-35
  • 3.3.4 基于Hadoop生態(tài)系統(tǒng)的Apriori算法——Hapriori的實現(xiàn)35-36
  • 3.4 實驗設計及結果分析36-39
  • 3.5 本章小結39-40
  • 第四章 PageRank算法以及并行化40-53
  • 4.1 PageRank概述40-41
  • 4.2 PageRank算法原理41-42
  • 4.3 PageRank算法計算公式42-43
  • 4.3.1 PageRank算法基本公式42
  • 4.3.2 PageRank公式的修正42-43
  • 4.4 并行化的PageRank LCPR43-49
  • 4.4.1 并行PageRank算法的背景43-45
  • 4.4.2 LCPR并行算法的設計45-49
  • 4.4.3 三層數(shù)據(jù)壓縮49
  • 4.5 實驗設計及結果分析49-52
  • 4.6 本章小結52-53
  • 總結53-55
  • 本文總結53-54
  • 后繼工作54-55
  • 參考文獻55-60
  • 攻讀學位期間發(fā)表的論文60-63
  • 致謝#@@

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 文俊浩,胡顯芝,何光輝,徐玲;小波在數(shù)據(jù)挖掘算法中的運用[J];重慶大學學報(自然科學版);2004年12期

2 鄒志文,朱金偉;數(shù)據(jù)挖掘算法研究與綜述[J];計算機工程與設計;2005年09期

3 趙澤茂,何坤金,胡友進;基于距離的異常數(shù)據(jù)挖掘算法及其應用[J];計算機應用與軟件;2005年09期

4 胡作霆;董蘭芳;王洵;;圖的數(shù)據(jù)挖掘算法研究[J];計算機工程;2006年03期

5 宋中山;吳立鋒;;增量數(shù)據(jù)挖掘算法在區(qū)域交通管理中的應用[J];武漢理工大學學報(交通科學與工程版);2006年03期

6 哈金才;;數(shù)據(jù)挖掘算法的評價標準與方法[J];微電子學與計算機;2006年12期

7 修雅慧;鄧文新;;數(shù)據(jù)挖掘算法評分函數(shù)研究[J];計算機與現(xiàn)代化;2008年09期

8 張美虎;;神經網絡數(shù)據(jù)挖掘算法的研究與應用[J];揚州職業(yè)大學學報;2009年02期

9 李春生;單繼輝;楊冬黎;;基于規(guī)則的數(shù)據(jù)挖掘算法選擇機制研究[J];長江大學學報(自然科學版)理工卷;2009年03期

10 喻云峰;;數(shù)據(jù)挖掘算法的分析與研究[J];科技廣場;2010年09期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 賀煒;邢春曉;潘泉;;因果不完備條件下的數(shù)據(jù)挖掘算法[A];第二十二屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2005年

2 劉玲;張興會;;基于神經網絡的數(shù)據(jù)挖掘算法研究[A];全國第二屆信號處理與應用學術會議?痆C];2008年

3 陳曦;曾凡鋒;;數(shù)據(jù)挖掘算法在風險評估中的應用[A];2007通信理論與技術新發(fā)展——第十二屆全國青年通信學術會議論文集(上冊)[C];2007年

4 郭新宇;梁循;;大型數(shù)據(jù)庫中數(shù)據(jù)挖掘算法SLIQ的研究及仿真[A];2004年中國管理科學學術會議論文集[C];2004年

5 張沫;欒媛媛;秦培玉;羅丹;;基于聚類算法的多維客戶行為細分模型研究與實現(xiàn)[A];2011年通信與信息技術新進展——第八屆中國通信學會學術年會論文集[C];2011年

6 潘國林;楊帆;;數(shù)據(jù)挖掘算法在保險客戶分析中的應用[A];全國第20屆計算機技術與應用學術會議(CACIS·2009)暨全國第1屆安全關鍵技術與應用學術會議論文集(上冊)[C];2009年

7 張乃岳;張力;張學燕;;基于字段匹配的CRM數(shù)據(jù)挖掘算法與應用[A];邏輯學及其應用研究——第四屆全國邏輯系統(tǒng)、智能科學與信息科學學術會議論文集[C];2008年

8 祖巧紅;陳定方;胡吉全;;客戶分析中的數(shù)據(jù)挖掘算法比較研究[A];12省區(qū)市機械工程學會2006年學術年會湖北省論文集[C];2006年

9 李怡凌;馬亨冰;;一種基于本體的關聯(lián)規(guī)則挖掘算法[A];全國第19屆計算機技術與應用(CACIS)學術會議論文集(下冊)[C];2008年

10 盛立;劉希玉;高明;;基于粗糙集理論的數(shù)據(jù)挖掘算法研究[A];山東省計算機學會2005年信息技術與信息化研討會論文集(二)[C];2005年

中國重要報紙全文數(shù)據(jù)庫 前1條

1 ;選擇合適的數(shù)據(jù)挖掘算法[N];計算機世界;2007年

中國博士學位論文全文數(shù)據(jù)庫 前4條

1 陳云開;基于粗糙集和聚類的數(shù)據(jù)挖掘算法及其在反洗錢中的應用研究[D];華中科技大學;2007年

2 張靜;基于粗糙集理論的數(shù)據(jù)挖掘算法研究[D];西北工業(yè)大學;2006年

3 沙朝鋒;基于信息論的數(shù)據(jù)挖掘算法[D];復旦大學;2008年

4 梁瑾;模糊粗糙單調數(shù)據(jù)挖掘算法及在污水處理中應用研究[D];華南理工大學;2011年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 孫孝萍;基于聚類分析的數(shù)據(jù)挖掘算法研究[D];西南石油學院;2002年

2 亢建波;數(shù)據(jù)挖掘算法在電力生產決策中的研究與應用[D];華北電力大學(河北);2005年

3 阿斯力別克(Kutlumuratov Assylbek);流數(shù)據(jù)挖掘算法在金融領域的應用研究[D];華南理工大學;2012年

4 國琳;基于云數(shù)據(jù)庫的幾種數(shù)據(jù)挖掘算法研究與實現(xiàn)[D];吉林大學;2013年

5 程建星;數(shù)據(jù)挖掘算法的改進及其在入侵檢測中的應用[D];暨南大學;2008年

6 黎敏;數(shù)據(jù)挖掘算法研究與應用[D];大連理工大學;2004年

7 曹聰;云計算支持下的數(shù)據(jù)挖掘算法及其應用[D];廣州大學;2012年

8 曹潔;基于案例推理的數(shù)據(jù)挖掘算法搜索策略的研究[D];太原理工大學;2007年

9 顏巍;基于云平臺的數(shù)據(jù)挖掘算法的研究與實現(xiàn)[D];電子科技大學;2013年

10 秦海翔;云計算環(huán)境下的數(shù)據(jù)挖掘算法研究[D];陜西師范大學;2014年


  本文關鍵詞:基于Hadoop的數(shù)據(jù)挖掘算法并行化研究,由筆耕文化傳播整理發(fā)布。



本文編號:375040

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/375040.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶8bf34***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com