基于大數(shù)據(jù)Hadoop平臺的出租車載客熱點區(qū)域挖掘研究
本文關鍵詞:基于大數(shù)據(jù)Hadoop平臺的出租車載客熱點區(qū)域挖掘研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著國民經(jīng)濟的發(fā)展以及城市化進程的推進,作為城市公共交通重要方式之一的出租車數(shù)量在不斷地增長。由于出租車上都安裝有GPS終端,這些裝置會定時向出租車調(diào)度中心發(fā)送實時狀態(tài)信息,如車輛經(jīng)緯度信息、速度、載客狀態(tài)等。隨時間的積累,調(diào)度中心采集并保存了龐大的出租車數(shù)據(jù),如何從這些出租車數(shù)據(jù)中挖掘出有用信息成為當前一個熱門的研究領域。通過對出租車數(shù)據(jù)進行處理和聚類挖掘,充分挖掘出租車載客熱點區(qū)域,可以為出租車的調(diào)度和管理提供信息輔助和決策支持,提高出租車的利用率。傳統(tǒng)意義上的出租車數(shù)據(jù)處理及載客熱點挖掘都是基于單臺計算機的基礎上進行的,受限于單臺計算機的配置及性能,處理的出租車數(shù)量和運算速度有限。大數(shù)據(jù)Hadoop技術的出現(xiàn)解決了大量數(shù)據(jù)的存儲和計算瓶頸,從而使大量出租車數(shù)據(jù)的處理及挖掘成為可能。本文依托于大數(shù)據(jù)Hadoop平臺研究出租車載客熱點區(qū)域,主要工作如下:第一,在實驗室條件下搭建完全分布模式的Hadoop集群實驗平臺,包括硬件環(huán)境和軟件環(huán)境部署。設計了排序和檢索兩個實驗測試了該集群與單機的性能,驗證了該集群比單機更加適合出租車大數(shù)據(jù)的海量分析處理,數(shù)據(jù)量越大,優(yōu)勢越明顯。第二,出租車數(shù)據(jù)含有大量的異常數(shù)據(jù),而且數(shù)據(jù)雜亂,必須對數(shù)據(jù)進行預處理。針對北京市1.4萬輛出租車產(chǎn)生的500G數(shù)據(jù),本文利用實驗室搭建的Hadoop集群平臺對該出租車數(shù)據(jù)進行預處理操作,首先實現(xiàn)了原始出租車數(shù)據(jù)上傳到Hadoop集群平臺、進而設計了基于Hadoop的MapReduce計算框架的處理程序完成對出租車數(shù)據(jù)的清洗、按車輛編號和時間進行的二次排序以及載客點經(jīng)緯度坐標提取等操作。第三,研究了大數(shù)據(jù)平臺下的K-Means聚類算法,設計了一種改進的基于MapReduce計算框架的并行K-Means聚類算法,并通過加速比、擴展率和數(shù)據(jù)伸縮率三個實驗分析驗證了所設計的算法具有良好的并行性能,適合對大量出租車載客點進行聚類挖掘。然后利用該設計的算法對提取到的載客點進行聚類以挖掘出租車載客熱點區(qū)域。最后利用ArcGIS軟件實現(xiàn)了載客熱點區(qū)域的可視化,并結(jié)合北京實景地圖完成對載客熱點區(qū)域的分析。
【關鍵詞】:出租車 大數(shù)據(jù)Hadoop 載客熱點 并行K-Means聚類
【學位授予單位】:北京交通大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 致謝5-6
- 摘要6-7
- ABSTRACT7-11
- 1 引言11-18
- 1.1 研究背景及目的11-12
- 1.2 研究現(xiàn)狀12-15
- 1.2.1 大數(shù)據(jù)研究現(xiàn)狀12-14
- 1.2.2 出租車數(shù)據(jù)應用研究現(xiàn)狀14-15
- 1.3 論文內(nèi)容15-16
- 1.4 論文結(jié)構16-18
- 2 數(shù)據(jù)挖掘及聚類算法18-29
- 2.1 數(shù)據(jù)挖掘18-22
- 2.1.1 數(shù)據(jù)挖掘概念及分類18
- 2.1.2 數(shù)據(jù)挖掘的過程18-21
- 2.1.3 數(shù)據(jù)挖掘的主要功能21-22
- 2.2 聚類算法22-28
- 2.2.1 聚類算法概述22-23
- 2.2.2 聚類算法主要分類23-25
- 2.2.3 K-Means聚類算法25-28
- 2.3 本章小結(jié)28-29
- 3 大數(shù)據(jù)平臺搭建29-42
- 3.1 大數(shù)據(jù)平臺-Hadoop29-36
- 3.1.1 Hadoop概述29-31
- 3.1.2 分布式文件系統(tǒng)HDFS31-33
- 3.1.3 并行計算架構MapReduce33-36
- 3.2 實驗室環(huán)境下Hadoop集群搭建36-39
- 3.2.1 Hadoop硬件環(huán)境部署36-37
- 3.2.2 Hadoop軟件環(huán)境部署37-39
- 3.3 系統(tǒng)性能分析測試39-41
- 3.3.1 排序?qū)嶒?/span>40
- 3.3.2 檢索實驗40-41
- 3.4 本章小結(jié)41-42
- 4 出租車大數(shù)據(jù)的預處理42-52
- 4.1 北京市出租車數(shù)據(jù)格式介紹42-43
- 4.2 北京市出租車數(shù)據(jù)預處理43-51
- 4.2.1 出租車原始數(shù)據(jù)上傳44-46
- 4.2.2 出租車原始數(shù)據(jù)清洗46-48
- 4.2.3 出租車數(shù)據(jù)二次排序處理48-51
- 4.3 本章小結(jié)51-52
- 5 基于Hadoop平臺的熱點區(qū)域挖掘及可視化52-65
- 5.1 基于Hadoop平臺的聚類算法實現(xiàn)和熱點區(qū)域挖掘52-60
- 5.1.1 K-Means算法的MapReduce并行化設計實現(xiàn)52-56
- 5.1.2 算法并行性能分析56-58
- 5.1.3 出租車載客熱點區(qū)域挖掘58-60
- 5.2 ArcGIS出租車載客熱點區(qū)域可視化60-64
- 5.2.1 ArcGIS電子地圖平臺60
- 5.2.2 載客熱點的可視化及分析60-64
- 5.3 本章小結(jié)64-65
- 6 總結(jié)與展望65-67
- 6.1 總結(jié)65
- 6.2 展望65-67
- 參考文獻67-70
- 作者簡歷70-72
- 學位論文數(shù)據(jù)集72
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 逄利華;張錦春;;基于Hadoop的分布式數(shù)據(jù)庫系統(tǒng)[J];辦公自動化;2014年05期
2 鄭瑋;;Hadoop釋放大數(shù)據(jù)潛能[J];軟件和信息服務;2012年10期
3 劉爾凱;崔振東;;基于HADOOP技術 實現(xiàn)銀行歷史數(shù)據(jù)線上化研究[J];金融電子化;2014年01期
4 鄒群;;一種基于Hadoop的數(shù)字圖書存儲系統(tǒng)設計方案[J];黑龍江史志;2014年01期
5 諶章義;畢偉;向萬紅;王國安;吳愛國;;基于Hadoop的海量電費數(shù)據(jù)處理模型[J];計算機系統(tǒng)應用;2014年05期
6 ;大數(shù)據(jù)不等于Hadoop[J];辦公自動化;2014年06期
7 ;保障Hadoop數(shù)據(jù)安全的十大措施[J];計算機與網(wǎng)絡;2013年08期
8 王峰;雷葆華;;Hadoop分布式文件系統(tǒng)的模型分析[J];電信科學;2010年12期
9 蘇小會;何婧媛;;Hadoop中任務調(diào)度算法的改進[J];電子設計工程;2012年22期
10 林偉偉;;一種改進的Hadoop數(shù)據(jù)放置策略[J];華南理工大學學報(自然科學版);2012年01期
中國重要報紙全文數(shù)據(jù)庫 前8條
1 本報記者 郭濤;機器大數(shù)據(jù)也離不開Hadoop[N];中國計算機報;2013年
2 本報記者 王星;Hadoop引發(fā)大數(shù)據(jù)之戰(zhàn)[N];電腦報;2012年
3 本報記者 鄒大斌;Hadoop一體機降低大數(shù)據(jù)門檻[N];計算機世界;2012年
4 孫定;云計算、大數(shù)據(jù)與Hadoop[N];計算機世界;2011年
5 樂天 編譯;Hadoop:打開大數(shù)據(jù)之門的金鑰匙[N];計算機世界;2012年
6 范范 編譯;Hadoop用戶可以使用多種搜索引擎[N];網(wǎng)絡世界;2013年
7 波波 編譯;Hadoop、Web 2.0為磁帶帶來新商機[N];網(wǎng)絡世界;2013年
8 本報記者 郭濤;讓更多人能夠使用Hadoop[N];中國計算機報;2012年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 劉君;基于Hadoop技術的氣象數(shù)據(jù)采集及數(shù)據(jù)挖掘平臺的研究[D];天津理工大學;2015年
2 譚旭;基于物流數(shù)據(jù)的快遞網(wǎng)絡分析與建模[D];浙江大學;2015年
3 趙偉;基于Hadoop的數(shù)據(jù)挖掘算法并行化研究[D];西南交通大學;2015年
4 趙振崇;基于Hadoop的決策樹挖掘算法的研究[D];蘭州大學;2015年
5 郭凱振;基于Hadoop的分布式計算系統(tǒng)的設計與實現(xiàn)[D];大連海事大學;2015年
6 白亮;基于Hadoop的民航高價值旅客發(fā)現(xiàn)方法研究[D];中國民航大學;2015年
7 席屏;基于Hadoop的視頻大數(shù)據(jù)智能預警系統(tǒng)應用研究[D];江蘇科技大學;2015年
8 董立明;基于HADOOP的分布式推薦引擎[D];復旦大學;2013年
9 陸藝達;基于Hadoop分布式計算框架的垃圾短信群發(fā)檢測系統(tǒng)[D];復旦大學;2013年
10 沈德利;基于Hadoop的密文檢索關鍵技術研究[D];西安電子科技大學;2014年
本文關鍵詞:基于大數(shù)據(jù)Hadoop平臺的出租車載客熱點區(qū)域挖掘研究,由筆耕文化傳播整理發(fā)布。
本文編號:352206
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/352206.html