基于數(shù)據(jù)挖掘的共享單車平衡預(yù)測(cè)研究 ——以太原市摩拜單車為例
發(fā)布時(shí)間:2021-06-25 02:27
共享單車歷經(jīng)兩年多的飛速發(fā)展,在帶給市民便捷服務(wù)的同時(shí)暴露出了很多運(yùn)營問題:單車亂停亂放、某些區(qū)域某些時(shí)刻一車難求、共享單車“百年墳場(chǎng)”等等。針對(duì)現(xiàn)有問題,從源頭上控制運(yùn)營,高效合理的單車投放水平能有效降低運(yùn)營成本、減少新車的無序投放、單車分布不均衡等問題。共享單車各區(qū)域平衡預(yù)測(cè)問題包含2個(gè)部分:時(shí)間平衡和地理平衡。本文以太原市摩拜單車為例主要根據(jù)異常檢測(cè)和聚類分析,研究發(fā)現(xiàn)太原市摩拜單車投放問題,并作預(yù)測(cè)建模。使用Python網(wǎng)絡(luò)爬蟲獲取太原市區(qū)的摩拜單車地理位置信息數(shù)據(jù),并對(duì)數(shù)據(jù)可視化分析,結(jié)合機(jī)器學(xué)習(xí)方法預(yù)測(cè)太原市摩拜單車區(qū)域平衡,為企業(yè)的精細(xì)化運(yùn)營、共享單車的投放做好基礎(chǔ)。本文研究內(nèi)容如下:(1)使用Python網(wǎng)絡(luò)爬蟲獲取摩拜單車數(shù)據(jù)集,并結(jié)合Python語言中的strip、split函數(shù)對(duì)數(shù)據(jù)集提取,存儲(chǔ)在MySQL數(shù)據(jù)庫中,結(jié)合MySQL數(shù)據(jù)庫特性對(duì)數(shù)據(jù)集去重。(2)結(jié)合高德地圖API對(duì)摩拜單車數(shù)據(jù)進(jìn)行可視化操作,分析太原市摩拜單車區(qū)域分布熱力圖、隨著時(shí)間變化的使用率以及使用量、騎行車輛距離分布。(3)使用數(shù)據(jù)挖掘中的聚類算法對(duì)太原市摩拜單車區(qū)域劃分。結(jié)合摩拜單車區(qū)域與附...
【文章來源】:中北大學(xué)山西省
【文章頁數(shù)】:89 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
高德地圖開放平臺(tái)認(rèn)證前調(diào)用量
中北大學(xué)學(xué)位論文28圖3.7 高德地圖開放平臺(tái)實(shí)名認(rèn)證后調(diào)用量3.3.4 爬蟲過程界定摩拜單車爬取范圍,以經(jīng)緯度逐步移動(dòng) 0.001步長,實(shí)際距離為經(jīng)緯度以 100米為方格計(jì)算,爬取摩拜單車經(jīng)緯度數(shù)據(jù)。本文爬取太原市范圍為經(jīng)緯度[112.397233,38.042581]至經(jīng)緯度[112.69159,37.728167],劃分太原市為方格 100*100的網(wǎng)狀型,獲取每個(gè)方格點(diǎn)附近單車位置數(shù)據(jù)。設(shè)置爬蟲范圍 確認(rèn)所需字段 創(chuàng)建表爬蟲調(diào)用mobike API圖3.8 爬蟲流程圖圖 3.9 表示是爬蟲程序運(yùn)行后得到的數(shù)據(jù),數(shù)據(jù)來源于太原市 2018 年 6 月 21 日到2018 年 8 月 27 日的摩拜單車騎行數(shù)據(jù),包含太原市 6 個(gè)行政區(qū),數(shù)據(jù)量總共 158 個(gè)表。
中北大學(xué)學(xué)位論文29圖3.9 爬蟲數(shù)據(jù)3.4 MySQL數(shù)據(jù)整理數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘非常重要的一部分。數(shù)據(jù)挖掘有兩個(gè)方向,一個(gè)是不斷改進(jìn)算法;另一個(gè)不斷改進(jìn)數(shù)據(jù)質(zhì)量。往往數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘中最耗精力的部分。如上一小節(jié),本文在爬取的太原市區(qū)范圍內(nèi),以 100 * 100劃分太原市為眾多方格,爬取每個(gè)方格點(diǎn)附近單車數(shù)量,不可避免的同一個(gè)單車位置可能被多個(gè)方格點(diǎn)附近爬取。爬蟲爬取初始源數(shù)據(jù)特征如下:①大量的重復(fù)項(xiàng),加大程序的無效運(yùn)行時(shí)間;②儲(chǔ)存格式非程序能有效識(shí)別,在程序讀取中需要進(jìn)行格式統(tǒng)一化處理;③數(shù)據(jù)中含有眾多異常值,需要剔除,否則影響結(jié)果輸出;數(shù)據(jù)預(yù)處理已成為實(shí)施數(shù)據(jù)分析系統(tǒng)的關(guān)鍵部分
本文編號(hào):3248304
【文章來源】:中北大學(xué)山西省
【文章頁數(shù)】:89 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
高德地圖開放平臺(tái)認(rèn)證前調(diào)用量
中北大學(xué)學(xué)位論文28圖3.7 高德地圖開放平臺(tái)實(shí)名認(rèn)證后調(diào)用量3.3.4 爬蟲過程界定摩拜單車爬取范圍,以經(jīng)緯度逐步移動(dòng) 0.001步長,實(shí)際距離為經(jīng)緯度以 100米為方格計(jì)算,爬取摩拜單車經(jīng)緯度數(shù)據(jù)。本文爬取太原市范圍為經(jīng)緯度[112.397233,38.042581]至經(jīng)緯度[112.69159,37.728167],劃分太原市為方格 100*100的網(wǎng)狀型,獲取每個(gè)方格點(diǎn)附近單車位置數(shù)據(jù)。設(shè)置爬蟲范圍 確認(rèn)所需字段 創(chuàng)建表爬蟲調(diào)用mobike API圖3.8 爬蟲流程圖圖 3.9 表示是爬蟲程序運(yùn)行后得到的數(shù)據(jù),數(shù)據(jù)來源于太原市 2018 年 6 月 21 日到2018 年 8 月 27 日的摩拜單車騎行數(shù)據(jù),包含太原市 6 個(gè)行政區(qū),數(shù)據(jù)量總共 158 個(gè)表。
中北大學(xué)學(xué)位論文29圖3.9 爬蟲數(shù)據(jù)3.4 MySQL數(shù)據(jù)整理數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘非常重要的一部分。數(shù)據(jù)挖掘有兩個(gè)方向,一個(gè)是不斷改進(jìn)算法;另一個(gè)不斷改進(jìn)數(shù)據(jù)質(zhì)量。往往數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘中最耗精力的部分。如上一小節(jié),本文在爬取的太原市區(qū)范圍內(nèi),以 100 * 100劃分太原市為眾多方格,爬取每個(gè)方格點(diǎn)附近單車數(shù)量,不可避免的同一個(gè)單車位置可能被多個(gè)方格點(diǎn)附近爬取。爬蟲爬取初始源數(shù)據(jù)特征如下:①大量的重復(fù)項(xiàng),加大程序的無效運(yùn)行時(shí)間;②儲(chǔ)存格式非程序能有效識(shí)別,在程序讀取中需要進(jìn)行格式統(tǒng)一化處理;③數(shù)據(jù)中含有眾多異常值,需要剔除,否則影響結(jié)果輸出;數(shù)據(jù)預(yù)處理已成為實(shí)施數(shù)據(jù)分析系統(tǒng)的關(guān)鍵部分
本文編號(hào):3248304
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/3248304.html
最近更新
教材專著