基于大數(shù)據(jù)Hadoop平臺(tái)的出租車載客熱點(diǎn)區(qū)域挖掘研究
本文關(guān)鍵詞:基于大數(shù)據(jù)Hadoop平臺(tái)的出租車載客熱點(diǎn)區(qū)域挖掘研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著國(guó)民經(jīng)濟(jì)的發(fā)展以及城市化進(jìn)程的推進(jìn),作為城市公共交通重要方式之一的出租車數(shù)量在不斷地增長(zhǎng)。由于出租車上都安裝有GPS終端,這些裝置會(huì)定時(shí)向出租車調(diào)度中心發(fā)送實(shí)時(shí)狀態(tài)信息,如車輛經(jīng)緯度信息、速度、載客狀態(tài)等。隨時(shí)間的積累,調(diào)度中心采集并保存了龐大的出租車數(shù)據(jù),如何從這些出租車數(shù)據(jù)中挖掘出有用信息成為當(dāng)前一個(gè)熱門的研究領(lǐng)域。通過(guò)對(duì)出租車數(shù)據(jù)進(jìn)行處理和聚類挖掘,充分挖掘出租車載客熱點(diǎn)區(qū)域,可以為出租車的調(diào)度和管理提供信息輔助和決策支持,提高出租車的利用率。傳統(tǒng)意義上的出租車數(shù)據(jù)處理及載客熱點(diǎn)挖掘都是基于單臺(tái)計(jì)算機(jī)的基礎(chǔ)上進(jìn)行的,受限于單臺(tái)計(jì)算機(jī)的配置及性能,處理的出租車數(shù)量和運(yùn)算速度有限。大數(shù)據(jù)Hadoop技術(shù)的出現(xiàn)解決了大量數(shù)據(jù)的存儲(chǔ)和計(jì)算瓶頸,從而使大量出租車數(shù)據(jù)的處理及挖掘成為可能。本文依托于大數(shù)據(jù)Hadoop平臺(tái)研究出租車載客熱點(diǎn)區(qū)域,主要工作如下:第一,在實(shí)驗(yàn)室條件下搭建完全分布模式的Hadoop集群實(shí)驗(yàn)平臺(tái),包括硬件環(huán)境和軟件環(huán)境部署。設(shè)計(jì)了排序和檢索兩個(gè)實(shí)驗(yàn)測(cè)試了該集群與單機(jī)的性能,驗(yàn)證了該集群比單機(jī)更加適合出租車大數(shù)據(jù)的海量分析處理,數(shù)據(jù)量越大,優(yōu)勢(shì)越明顯。第二,出租車數(shù)據(jù)含有大量的異常數(shù)據(jù),而且數(shù)據(jù)雜亂,必須對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。針對(duì)北京市1.4萬(wàn)輛出租車產(chǎn)生的500G數(shù)據(jù),本文利用實(shí)驗(yàn)室搭建的Hadoop集群平臺(tái)對(duì)該出租車數(shù)據(jù)進(jìn)行預(yù)處理操作,首先實(shí)現(xiàn)了原始出租車數(shù)據(jù)上傳到Hadoop集群平臺(tái)、進(jìn)而設(shè)計(jì)了基于Hadoop的MapReduce計(jì)算框架的處理程序完成對(duì)出租車數(shù)據(jù)的清洗、按車輛編號(hào)和時(shí)間進(jìn)行的二次排序以及載客點(diǎn)經(jīng)緯度坐標(biāo)提取等操作。第三,研究了大數(shù)據(jù)平臺(tái)下的K-Means聚類算法,設(shè)計(jì)了一種改進(jìn)的基于MapReduce計(jì)算框架的并行K-Means聚類算法,并通過(guò)加速比、擴(kuò)展率和數(shù)據(jù)伸縮率三個(gè)實(shí)驗(yàn)分析驗(yàn)證了所設(shè)計(jì)的算法具有良好的并行性能,適合對(duì)大量出租車載客點(diǎn)進(jìn)行聚類挖掘。然后利用該設(shè)計(jì)的算法對(duì)提取到的載客點(diǎn)進(jìn)行聚類以挖掘出租車載客熱點(diǎn)區(qū)域。最后利用ArcGIS軟件實(shí)現(xiàn)了載客熱點(diǎn)區(qū)域的可視化,并結(jié)合北京實(shí)景地圖完成對(duì)載客熱點(diǎn)區(qū)域的分析。
【關(guān)鍵詞】:出租車 大數(shù)據(jù)Hadoop 載客熱點(diǎn) 并行K-Means聚類
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13
【目錄】:
- 致謝5-6
- 摘要6-7
- ABSTRACT7-11
- 1 引言11-18
- 1.1 研究背景及目的11-12
- 1.2 研究現(xiàn)狀12-15
- 1.2.1 大數(shù)據(jù)研究現(xiàn)狀12-14
- 1.2.2 出租車數(shù)據(jù)應(yīng)用研究現(xiàn)狀14-15
- 1.3 論文內(nèi)容15-16
- 1.4 論文結(jié)構(gòu)16-18
- 2 數(shù)據(jù)挖掘及聚類算法18-29
- 2.1 數(shù)據(jù)挖掘18-22
- 2.1.1 數(shù)據(jù)挖掘概念及分類18
- 2.1.2 數(shù)據(jù)挖掘的過(guò)程18-21
- 2.1.3 數(shù)據(jù)挖掘的主要功能21-22
- 2.2 聚類算法22-28
- 2.2.1 聚類算法概述22-23
- 2.2.2 聚類算法主要分類23-25
- 2.2.3 K-Means聚類算法25-28
- 2.3 本章小結(jié)28-29
- 3 大數(shù)據(jù)平臺(tái)搭建29-42
- 3.1 大數(shù)據(jù)平臺(tái)-Hadoop29-36
- 3.1.1 Hadoop概述29-31
- 3.1.2 分布式文件系統(tǒng)HDFS31-33
- 3.1.3 并行計(jì)算架構(gòu)MapReduce33-36
- 3.2 實(shí)驗(yàn)室環(huán)境下Hadoop集群搭建36-39
- 3.2.1 Hadoop硬件環(huán)境部署36-37
- 3.2.2 Hadoop軟件環(huán)境部署37-39
- 3.3 系統(tǒng)性能分析測(cè)試39-41
- 3.3.1 排序?qū)嶒?yàn)40
- 3.3.2 檢索實(shí)驗(yàn)40-41
- 3.4 本章小結(jié)41-42
- 4 出租車大數(shù)據(jù)的預(yù)處理42-52
- 4.1 北京市出租車數(shù)據(jù)格式介紹42-43
- 4.2 北京市出租車數(shù)據(jù)預(yù)處理43-51
- 4.2.1 出租車原始數(shù)據(jù)上傳44-46
- 4.2.2 出租車原始數(shù)據(jù)清洗46-48
- 4.2.3 出租車數(shù)據(jù)二次排序處理48-51
- 4.3 本章小結(jié)51-52
- 5 基于Hadoop平臺(tái)的熱點(diǎn)區(qū)域挖掘及可視化52-65
- 5.1 基于Hadoop平臺(tái)的聚類算法實(shí)現(xiàn)和熱點(diǎn)區(qū)域挖掘52-60
- 5.1.1 K-Means算法的MapReduce并行化設(shè)計(jì)實(shí)現(xiàn)52-56
- 5.1.2 算法并行性能分析56-58
- 5.1.3 出租車載客熱點(diǎn)區(qū)域挖掘58-60
- 5.2 ArcGIS出租車載客熱點(diǎn)區(qū)域可視化60-64
- 5.2.1 ArcGIS電子地圖平臺(tái)60
- 5.2.2 載客熱點(diǎn)的可視化及分析60-64
- 5.3 本章小結(jié)64-65
- 6 總結(jié)與展望65-67
- 6.1 總結(jié)65
- 6.2 展望65-67
- 參考文獻(xiàn)67-70
- 作者簡(jiǎn)歷70-72
- 學(xué)位論文數(shù)據(jù)集72
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 逄利華;張錦春;;基于Hadoop的分布式數(shù)據(jù)庫(kù)系統(tǒng)[J];辦公自動(dòng)化;2014年05期
2 鄭瑋;;Hadoop釋放大數(shù)據(jù)潛能[J];軟件和信息服務(wù);2012年10期
3 劉爾凱;崔振東;;基于HADOOP技術(shù) 實(shí)現(xiàn)銀行歷史數(shù)據(jù)線上化研究[J];金融電子化;2014年01期
4 鄒群;;一種基于Hadoop的數(shù)字圖書(shū)存儲(chǔ)系統(tǒng)設(shè)計(jì)方案[J];黑龍江史志;2014年01期
5 諶章義;畢偉;向萬(wàn)紅;王國(guó)安;吳愛(ài)國(guó);;基于Hadoop的海量電費(fèi)數(shù)據(jù)處理模型[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2014年05期
6 ;大數(shù)據(jù)不等于Hadoop[J];辦公自動(dòng)化;2014年06期
7 ;保障Hadoop數(shù)據(jù)安全的十大措施[J];計(jì)算機(jī)與網(wǎng)絡(luò);2013年08期
8 王峰;雷葆華;;Hadoop分布式文件系統(tǒng)的模型分析[J];電信科學(xué);2010年12期
9 蘇小會(huì);何婧媛;;Hadoop中任務(wù)調(diào)度算法的改進(jìn)[J];電子設(shè)計(jì)工程;2012年22期
10 林偉偉;;一種改進(jìn)的Hadoop數(shù)據(jù)放置策略[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年01期
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前8條
1 本報(bào)記者 郭濤;機(jī)器大數(shù)據(jù)也離不開(kāi)Hadoop[N];中國(guó)計(jì)算機(jī)報(bào);2013年
2 本報(bào)記者 王星;Hadoop引發(fā)大數(shù)據(jù)之戰(zhàn)[N];電腦報(bào);2012年
3 本報(bào)記者 鄒大斌;Hadoop一體機(jī)降低大數(shù)據(jù)門檻[N];計(jì)算機(jī)世界;2012年
4 孫定;云計(jì)算、大數(shù)據(jù)與Hadoop[N];計(jì)算機(jī)世界;2011年
5 樂(lè)天 編譯;Hadoop:打開(kāi)大數(shù)據(jù)之門的金鑰匙[N];計(jì)算機(jī)世界;2012年
6 范范 編譯;Hadoop用戶可以使用多種搜索引擎[N];網(wǎng)絡(luò)世界;2013年
7 波波 編譯;Hadoop、Web 2.0為磁帶帶來(lái)新商機(jī)[N];網(wǎng)絡(luò)世界;2013年
8 本報(bào)記者 郭濤;讓更多人能夠使用Hadoop[N];中國(guó)計(jì)算機(jī)報(bào);2012年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 劉君;基于Hadoop技術(shù)的氣象數(shù)據(jù)采集及數(shù)據(jù)挖掘平臺(tái)的研究[D];天津理工大學(xué);2015年
2 譚旭;基于物流數(shù)據(jù)的快遞網(wǎng)絡(luò)分析與建模[D];浙江大學(xué);2015年
3 趙偉;基于Hadoop的數(shù)據(jù)挖掘算法并行化研究[D];西南交通大學(xué);2015年
4 趙振崇;基于Hadoop的決策樹(shù)挖掘算法的研究[D];蘭州大學(xué);2015年
5 郭凱振;基于Hadoop的分布式計(jì)算系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連海事大學(xué);2015年
6 白亮;基于Hadoop的民航高價(jià)值旅客發(fā)現(xiàn)方法研究[D];中國(guó)民航大學(xué);2015年
7 席屏;基于Hadoop的視頻大數(shù)據(jù)智能預(yù)警系統(tǒng)應(yīng)用研究[D];江蘇科技大學(xué);2015年
8 董立明;基于HADOOP的分布式推薦引擎[D];復(fù)旦大學(xué);2013年
9 陸藝達(dá);基于Hadoop分布式計(jì)算框架的垃圾短信群發(fā)檢測(cè)系統(tǒng)[D];復(fù)旦大學(xué);2013年
10 沈德利;基于Hadoop的密文檢索關(guān)鍵技術(shù)研究[D];西安電子科技大學(xué);2014年
本文關(guān)鍵詞:基于大數(shù)據(jù)Hadoop平臺(tái)的出租車載客熱點(diǎn)區(qū)域挖掘研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):352206
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/352206.html