基于Spark平臺的共享單車騎行分析
發(fā)布時間:2022-12-18 18:13
共享單車的快速發(fā)展為人們短途出行提供了一種便捷的方式,它是實現(xiàn)“網絡交通”的方式之一,也是城市短距離交通系統(tǒng)的一種創(chuàng)新模式。它具有方便快捷、低碳環(huán)保等特點,有效解決人們出行的“最后一公里”問題。并影響著城市居民的日常出行方式,也緩慢地改變著城市的空間格局。然而,隨著共享單車產業(yè)的快速發(fā)展,也帶來了亂停放現(xiàn)象嚴重、資源配置失衡等粗放式運營問題。如何精細化運營共享單車,實現(xiàn)資源動態(tài)調度已成為共享單車發(fā)展中的一個重要問題。本文使用Python網絡爬蟲獲取天津市區(qū)的摩拜單車數(shù)據(jù),結合Apache Spark大數(shù)據(jù)平臺研究騎行行為的時空間特征,并對結果可視化分析。本文研究內容如下:(1)結合大數(shù)據(jù)技術搭建了以Spark為核心的共享單車騎行分析的大數(shù)據(jù)處理平臺,并使用BDP個人版體現(xiàn)數(shù)據(jù)的靈活性。(2)使用Python網絡爬蟲的形式獲取天津市區(qū)的摩拜單車的數(shù)據(jù)集,并結合編程語言Python和Spark SQL對爬蟲數(shù)據(jù)做數(shù)據(jù)預處理,并把經過數(shù)據(jù)清洗后的數(shù)據(jù)存儲在HDFS上。(3)利用Spark SQL分析天津市區(qū)2017年8月的摩拜單車總量和摩拜單車利用率;分別從摩拜單車的騎行距離,騎行次數(shù)以及熱...
【文章頁數(shù)】:58 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內外研究現(xiàn)狀
1.3 論文的主要內容及安排
1.3.1 論文的創(chuàng)新點和特色
1.3.2 論文結構安排
第二章 相關知識和技術簡介
2.1 大數(shù)據(jù)技術
2.1.1 分布式數(shù)據(jù)存儲
2.1.2 Spark大數(shù)據(jù)技術
2.1.3 BDP個人版可視化工具
2.2 平臺搭建
2.2.1 安裝環(huán)境
2.2.2 環(huán)境搭建
2.3 相關算法介紹
2.4 本章小結
第三章 數(shù)據(jù)獲取和預處理
3.1 數(shù)據(jù)獲取
3.1.1 爬蟲簡介
3.1.2 IP代理池設計
3.1.3 爬蟲過程
3.2 數(shù)據(jù)預處理
3.2.1 格式處理
3.2.2 噪聲處理
3.3 本章小結
第四章 單車使用特征分析
4.1 共享單車概述
4.2 單車騎行特征分析
4.2.1 單車騎行距離分析
4.2.2 單車騎行次數(shù)分析
4.2.3 單車區(qū)域分布情況
4.3 時間特征分析
4.4 本章小結
第五章 共享單車需求量分析
5.1 實驗數(shù)據(jù)與評估方法
5.1.1 數(shù)據(jù)簡介
5.1.2 評估方法
5.2 實驗建模與評估
5.2.1 實驗建模
5.2.2 模型評估
5.3 騎行需求分析
5.3.1 聚類點需求分析
5.3.2 時間點需求分析
5.4 本章小結
第六章 總結與展望
6.1 總結
6.2 展望
參考文獻
致謝
【參考文獻】:
期刊論文
[1]關于共享單車的時空分布研究與分析[J]. 劉碩秋,葉國清,鄔博文,周素素. 中國高新區(qū). 2018(04)
[2]基于聚類分析的共享單車時空分布模型[J]. 陶啟萌. 中國戰(zhàn)略新興產業(yè). 2018(04)
[3]共享單車最優(yōu)選址問題的研究[J]. 肖磊,崔悅琪,鐘麗,黃薰好. 中國商論. 2018(02)
[4]基于騎行時空數(shù)據(jù)的共享單車設施規(guī)劃研究[J]. 鄧力凡,謝永紅,黃鼎曦. 規(guī)劃師. 2017(10)
[5]十部委共推《關于鼓勵和規(guī)范互聯(lián)網租賃自行車發(fā)展的指導意見》[J]. 曹磊. 計算機與網絡. 2017(17)
[6]趣說共享單車[J]. 李霄. 標準生活. 2017(07)
[7]分布式網絡爬蟲設計[J]. 郭丙琴,陳愛武. 湖南科技學院學報. 2017(06)
[8]共享單車與城市可持續(xù)發(fā)展——中國城市交通發(fā)展論壇2017年第一次專題研討會[J]. 城市交通. 2017(03)
[9]BP算法建模在共享單車出行博弈中的運用[J]. 溫有棟,黃婷. 科技廣場. 2017(04)
[10]K-means聚類算法在高壓開關設備機械狀態(tài)評估中的應用[J]. 于維娟,張文濤,陳瀟楠,畢迎華. 智能電網. 2015(07)
博士論文
[1]針對含有概念漂移問題的增量學習算法研究[D]. 孫宇.中國科學技術大學 2017
碩士論文
[1]基于分布式計算的多點地質統(tǒng)計方法研究[D]. 冀乾宇.西安石油大學 2016
[2]基于Spark的社交主題分析與應用[D]. 彭中正.電子科技大學 2016
[3]基于Spark的Relion分布式實現(xiàn)[D]. 趙先陽.華中科技大學 2016
[4]基于受限玻爾茲曼機的推薦算法研究[D]. 馬貝.東南大學 2015
[5]基于Spark的數(shù)據(jù)處理分析系統(tǒng)的設計與實現(xiàn)[D]. 李爽.北京交通大學 2015
[6]基于MapReduce的聚類算法并行化研究[D]. 王愷.南京師范大學 2014
[7]基于Hadoop的海量期貨數(shù)據(jù)的分布式存儲和算法分析[D]. 李勇君.天津大學 2012
[8]Android平臺下基于SQLite數(shù)據(jù)庫的手機游戲設計與研究[D]. 周巍.昆明理工大學 2011
[9]數(shù)據(jù)挖掘中數(shù)據(jù)預處理的方法研究[D]. 方洪鷹.西南大學 2009
[10]機器學習在模擬電路故障診斷中的應用研究[D]. 謝薇薇.中國海洋大學 2009
本文編號:3722526
【文章頁數(shù)】:58 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內外研究現(xiàn)狀
1.3 論文的主要內容及安排
1.3.1 論文的創(chuàng)新點和特色
1.3.2 論文結構安排
第二章 相關知識和技術簡介
2.1 大數(shù)據(jù)技術
2.1.1 分布式數(shù)據(jù)存儲
2.1.2 Spark大數(shù)據(jù)技術
2.1.3 BDP個人版可視化工具
2.2 平臺搭建
2.2.1 安裝環(huán)境
2.2.2 環(huán)境搭建
2.3 相關算法介紹
2.4 本章小結
第三章 數(shù)據(jù)獲取和預處理
3.1 數(shù)據(jù)獲取
3.1.1 爬蟲簡介
3.1.2 IP代理池設計
3.1.3 爬蟲過程
3.2 數(shù)據(jù)預處理
3.2.1 格式處理
3.2.2 噪聲處理
3.3 本章小結
第四章 單車使用特征分析
4.1 共享單車概述
4.2 單車騎行特征分析
4.2.1 單車騎行距離分析
4.2.2 單車騎行次數(shù)分析
4.2.3 單車區(qū)域分布情況
4.3 時間特征分析
4.4 本章小結
第五章 共享單車需求量分析
5.1 實驗數(shù)據(jù)與評估方法
5.1.1 數(shù)據(jù)簡介
5.1.2 評估方法
5.2 實驗建模與評估
5.2.1 實驗建模
5.2.2 模型評估
5.3 騎行需求分析
5.3.1 聚類點需求分析
5.3.2 時間點需求分析
5.4 本章小結
第六章 總結與展望
6.1 總結
6.2 展望
參考文獻
致謝
【參考文獻】:
期刊論文
[1]關于共享單車的時空分布研究與分析[J]. 劉碩秋,葉國清,鄔博文,周素素. 中國高新區(qū). 2018(04)
[2]基于聚類分析的共享單車時空分布模型[J]. 陶啟萌. 中國戰(zhàn)略新興產業(yè). 2018(04)
[3]共享單車最優(yōu)選址問題的研究[J]. 肖磊,崔悅琪,鐘麗,黃薰好. 中國商論. 2018(02)
[4]基于騎行時空數(shù)據(jù)的共享單車設施規(guī)劃研究[J]. 鄧力凡,謝永紅,黃鼎曦. 規(guī)劃師. 2017(10)
[5]十部委共推《關于鼓勵和規(guī)范互聯(lián)網租賃自行車發(fā)展的指導意見》[J]. 曹磊. 計算機與網絡. 2017(17)
[6]趣說共享單車[J]. 李霄. 標準生活. 2017(07)
[7]分布式網絡爬蟲設計[J]. 郭丙琴,陳愛武. 湖南科技學院學報. 2017(06)
[8]共享單車與城市可持續(xù)發(fā)展——中國城市交通發(fā)展論壇2017年第一次專題研討會[J]. 城市交通. 2017(03)
[9]BP算法建模在共享單車出行博弈中的運用[J]. 溫有棟,黃婷. 科技廣場. 2017(04)
[10]K-means聚類算法在高壓開關設備機械狀態(tài)評估中的應用[J]. 于維娟,張文濤,陳瀟楠,畢迎華. 智能電網. 2015(07)
博士論文
[1]針對含有概念漂移問題的增量學習算法研究[D]. 孫宇.中國科學技術大學 2017
碩士論文
[1]基于分布式計算的多點地質統(tǒng)計方法研究[D]. 冀乾宇.西安石油大學 2016
[2]基于Spark的社交主題分析與應用[D]. 彭中正.電子科技大學 2016
[3]基于Spark的Relion分布式實現(xiàn)[D]. 趙先陽.華中科技大學 2016
[4]基于受限玻爾茲曼機的推薦算法研究[D]. 馬貝.東南大學 2015
[5]基于Spark的數(shù)據(jù)處理分析系統(tǒng)的設計與實現(xiàn)[D]. 李爽.北京交通大學 2015
[6]基于MapReduce的聚類算法并行化研究[D]. 王愷.南京師范大學 2014
[7]基于Hadoop的海量期貨數(shù)據(jù)的分布式存儲和算法分析[D]. 李勇君.天津大學 2012
[8]Android平臺下基于SQLite數(shù)據(jù)庫的手機游戲設計與研究[D]. 周巍.昆明理工大學 2011
[9]數(shù)據(jù)挖掘中數(shù)據(jù)預處理的方法研究[D]. 方洪鷹.西南大學 2009
[10]機器學習在模擬電路故障診斷中的應用研究[D]. 謝薇薇.中國海洋大學 2009
本文編號:3722526
本文鏈接:http://sikaile.net/kejilunwen/jiaotonggongchenglunwen/3722526.html