基于Hadoop的并行化算法實(shí)現(xiàn)及GPS數(shù)據(jù)實(shí)例分析
本文關(guān)鍵詞:基于Hadoop的并行化算法實(shí)現(xiàn)及GPS數(shù)據(jù)實(shí)例分析
更多相關(guān)文章: 大數(shù)據(jù) MapReduce 小文件 并行化 交通流預(yù)測(cè)
【摘要】:隨著云計(jì)算、物聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,大數(shù)據(jù)正成為信息技術(shù)的新熱點(diǎn),產(chǎn)業(yè)發(fā)展的新方向,對(duì)人類的生產(chǎn)與生活產(chǎn)生巨大影響。大數(shù)據(jù)來(lái)源于互聯(lián)網(wǎng)、企業(yè)系統(tǒng)和物聯(lián)網(wǎng)等信息系統(tǒng),經(jīng)過(guò)大數(shù)據(jù)處理平臺(tái)的分析與挖掘,產(chǎn)生新的知識(shí)用以支撐決策或業(yè)務(wù)智能化運(yùn)轉(zhuǎn),大數(shù)據(jù)時(shí)代的到來(lái)給數(shù)據(jù)管理與分析提出了新的挑戰(zhàn),數(shù)據(jù)處理方法的合理性和時(shí)效性成為了大數(shù)據(jù)統(tǒng)計(jì)分析的研究熱點(diǎn)。近年來(lái),基于數(shù)據(jù)挖掘算法的大數(shù)據(jù)分析是研究的重要方向,但大都是以傳統(tǒng)單機(jī)環(huán)境下數(shù)據(jù)挖掘算法改進(jìn)為主,由于受內(nèi)存、擴(kuò)展性等限制,不能有效滿足激增的海量數(shù)據(jù)處理需求,為此本文研究傳統(tǒng)數(shù)據(jù)挖掘算法在MapReduce并行編程環(huán)境下的實(shí)現(xiàn)方法,同時(shí),針對(duì)大數(shù)據(jù)時(shí)代海量數(shù)據(jù)的存在形式及Hadoop平臺(tái)處理海量小文件數(shù)據(jù)時(shí)的性能瓶頸,提出海量小文件處理策略,最后,以出租車GPS數(shù)據(jù)為實(shí)例,對(duì)MapReduce實(shí)現(xiàn)短時(shí)交通路預(yù)測(cè)的高效性進(jìn)行驗(yàn)證,在Hadoop環(huán)境下,改進(jìn)基于MapReduce的K近鄰短時(shí)交通流預(yù)測(cè)算法,以提高預(yù)測(cè)準(zhǔn)確性。基于以上情況,本文具體做了以下三項(xiàng)工作:(1)針對(duì)單機(jī)環(huán)境下傳統(tǒng)數(shù)據(jù)挖掘算法在對(duì)大規(guī)模數(shù)據(jù)分析時(shí)存在“內(nèi)存消耗高、計(jì)算性能低、擴(kuò)展性差和可靠性弱”等問(wèn)題,提出MapReduce并行環(huán)境下KNN、Apriori和K-Means算法的實(shí)現(xiàn)方法,并以“可行性、加速比和擴(kuò)展性”為指標(biāo),采用不同大小的真實(shí)數(shù)據(jù)集,在由不同節(jié)點(diǎn)組成的集群中進(jìn)行實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,該實(shí)現(xiàn)方法是可行和有效的,能提高KNN、Apriori和K-Means算法的整體性能和挖掘效率,以滿足大規(guī)模數(shù)據(jù)挖掘的需要。(2)分析了Hadoop平臺(tái)的設(shè)計(jì)初衷是專門處理流式大文件,而現(xiàn)實(shí)環(huán)境中大部分?jǐn)?shù)據(jù)是以海量小文件形式存在,針對(duì)Hadoop在處理海量小文件時(shí),存在“內(nèi)存消耗高、處理效率低”等固有缺陷,本文中實(shí)現(xiàn)了CombineFileInputFormat(CFIF)、Hadoop Archive(HA)、Sequence File(SF)等三種處理海量小文件的有效方法,并結(jié)合不同用戶的實(shí)際需求,提出了相應(yīng)的處理策略,以"Namenode內(nèi)存消耗、MapReduce運(yùn)行速度”為指標(biāo),驗(yàn)證策略選擇的合理性和有效性。實(shí)驗(yàn)結(jié)果表明,所實(shí)現(xiàn)的處理方法和提出的策略選擇,能最大化地發(fā)揮Hadoop的整體性能,提高海量小文件的處理效率。(3)以海量出租車GPS數(shù)據(jù)為研究實(shí)例,一是利用(1)所述基于MapReduce的并行化K近鄰算法解決海量GPS數(shù)據(jù)預(yù)測(cè)短時(shí)交通流時(shí)效率低的問(wèn)題;二是在短時(shí)交通流預(yù)測(cè)前,引入(2)所述小文件處理方法和策略,對(duì)大量出租車GPS數(shù)據(jù)小文件進(jìn)行預(yù)處理,彌補(bǔ)海量小文件讀寫速度慢、處理效率低等缺陷:三是在MapReduce環(huán)境下,對(duì)K近鄰短時(shí)交通流預(yù)測(cè)算法的狀態(tài)向量和距離向量進(jìn)行改進(jìn),解決短時(shí)交通流預(yù)測(cè)準(zhǔn)確性問(wèn)題。通過(guò)本文的理論研究、實(shí)驗(yàn)驗(yàn)證及實(shí)例分析,希望為基于Hadoop平臺(tái)的大數(shù)據(jù)分析提供有價(jià)值參考,有效解決大數(shù)據(jù)時(shí)代海量數(shù)據(jù)挖掘與分析問(wèn)題。
【關(guān)鍵詞】:大數(shù)據(jù) MapReduce 小文件 并行化 交通流預(yù)測(cè)
【學(xué)位授予單位】:西南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.13;P228.4
【目錄】:
- 摘要5-7
- Abstract7-9
- 第1章 緒論9-15
- 1.1 課題背景9-10
- 1.2 研究現(xiàn)狀10-11
- 1.3 研究?jī)?nèi)容11-12
- 1.4 研究目的及意義12-13
- 1.5 論文組織結(jié)構(gòu)13-15
- 第2章 相關(guān)介紹、問(wèn)題定義及環(huán)境搭建15-27
- 2.1 Hadoop概述15-20
- 2.1.1 MapReduce并行計(jì)算框架15-16
- 2.1.2 HDFS分布式文件系統(tǒng)16-20
- 2.1.3 Hadoop特性20
- 2.1.4 其它組件20
- 2.2 Hadoop處理海量小文件問(wèn)題20-21
- 2.3 海量出租車GPS數(shù)據(jù)短時(shí)交通流預(yù)測(cè)問(wèn)題21-23
- 2.4 Hadoop集群搭建23-25
- 2.5 本章小結(jié)25-27
- 第3章 基于MapReduce的并行化算法實(shí)現(xiàn)及實(shí)驗(yàn)分析27-39
- 3.1 KNN算法MapReduce并行化實(shí)現(xiàn)27-29
- 3.2 Apriori算法MapReduce并行化實(shí)現(xiàn)29-31
- 3.3 K-Means算法MapReduce并行化實(shí)現(xiàn)31-34
- 3.4 實(shí)驗(yàn)及結(jié)果分析34-37
- 3.4.1 實(shí)驗(yàn)環(huán)境、數(shù)據(jù)及評(píng)價(jià)指標(biāo)34
- 3.4.2 實(shí)驗(yàn)測(cè)試及結(jié)果分析34-37
- 3.5 本章小結(jié)37-39
- 第4章 基于Hadoop的海量小文件處理的有效方法和策略39-45
- 4.1 小文件處理實(shí)現(xiàn)方法39-40
- 4.1.1 Hadoop Archive方法39
- 4.1.2 Sequence File方法39-40
- 4.1.3 CombineFileInputFormat方法40
- 4.2 小文件處理策略分析40-41
- 4.2.1 分析“Namenode內(nèi)存消耗”40-41
- 4.2.2 分析“MapReduce運(yùn)行速度”41
- 4.3 實(shí)驗(yàn)評(píng)估41-43
- 4.3.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集41-42
- 4.3.2 實(shí)驗(yàn)及結(jié)果分析42-43
- 4.4 本章小結(jié)43-45
- 第5章 出租車GPS數(shù)據(jù)實(shí)例分析45-59
- 5.1 K近鄰非參數(shù)回歸短時(shí)交通流預(yù)測(cè)建模及改進(jìn)45-48
- 5.1.1 狀態(tài)向量模型45-47
- 5.1.2 距離向量模型47
- 5.1.3 預(yù)測(cè)函數(shù)47-48
- 5.1.4 K值個(gè)數(shù)48
- 5.2 基于MapReduce的KNN短時(shí)交通流預(yù)測(cè)算法48-52
- 5.2.1 Map函數(shù)設(shè)計(jì)及實(shí)現(xiàn)49-50
- 5.2.2 Combine函數(shù)設(shè)計(jì)及實(shí)現(xiàn)50-51
- 5.2.3 Reduce函數(shù)設(shè)計(jì)及實(shí)現(xiàn)51-52
- 5.3 歷史樣本數(shù)據(jù)庫(kù)建立52-54
- 5.3.1 路段選擇及校準(zhǔn)52-53
- 5.3.2 數(shù)據(jù)采集及處理53-54
- 5.3.3 評(píng)估指標(biāo)54
- 5.4 實(shí)驗(yàn)測(cè)試及結(jié)果討論54-57
- 5.4.1 實(shí)驗(yàn)環(huán)境54
- 5.4.2 不同K值對(duì)實(shí)驗(yàn)結(jié)果影響54-55
- 5.4.3 不同距離向量對(duì)實(shí)驗(yàn)結(jié)果影響55-56
- 5.4.4 不同狀態(tài)向量對(duì)結(jié)果影響56-57
- 5.5 本章小結(jié)57-59
- 第6章 總結(jié)與展望59-61
- 6.1 總結(jié)59
- 6.2 展望59-61
- 參考文獻(xiàn)61-65
- 致謝65-67
- 碩士期間發(fā)表的論文和參與的課題67
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前6條
1 干宏程;汪晴;范炳全;;基于宏觀交通流模型的行程時(shí)間預(yù)測(cè)[J];上海理工大學(xué)學(xué)報(bào);2008年05期
2 張建民;姚亮;胡學(xué)鋼;;一種面向數(shù)據(jù)缺失問(wèn)題的K-means改進(jìn)算法[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年09期
3 王振華;侯忠生;高穎;;布爾序列的一種KNN改進(jìn)算法[J];模式識(shí)別與人工智能;2009年02期
4 曾志勇;楊輝;余建坤;;基于HMT和哈希樹(shù)的Apriori并行算法研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2012年01期
5 秦鈺;荊繼武;向繼;張愛(ài)華;;基于優(yōu)化初始類中心點(diǎn)的K-means改進(jìn)算法[J];中國(guó)科學(xué)院研究生院學(xué)報(bào);2007年06期
6 許朝陽(yáng);;基于多標(biāo)記文本分類的ML-KNN改進(jìn)算法[J];江蘇師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年03期
,本文編號(hào):1050218
本文鏈接:http://sikaile.net/kejilunwen/dizhicehuilunwen/1050218.html