基于Spark的上車點(diǎn)推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時間:2020-06-11 18:43
【摘要】:隨著“互聯(lián)網(wǎng)+”時代的到來,互聯(lián)網(wǎng)+交通在近幾年得到了快速發(fā)展。D公司作為一家快速成長的互聯(lián)網(wǎng)科技公司,它的產(chǎn)品改變了人們傳統(tǒng)的出行方式,極大提高城市交通效率。當(dāng)網(wǎng)約車已經(jīng)成為一種普遍現(xiàn)象,用戶出行數(shù)據(jù)便呈爆炸式增長;交通數(shù)據(jù)的積累與大數(shù)據(jù)處理技術(shù)的日漸成熟,為基于交通大數(shù)據(jù)的深度學(xué)習(xí)、機(jī)器學(xué)習(xí)應(yīng)用提供了可能。通過對訂單的分析,本文發(fā)現(xiàn)當(dāng)用戶通過D公司的應(yīng)用軟件叫車后,一般需要與網(wǎng)約車司機(jī)經(jīng)過一次或者多次電話溝通才能確定上車位置。為了減少司機(jī)與乘客的溝通成本、降低接駕時長,對用戶網(wǎng)約車行為數(shù)據(jù)進(jìn)行了深入的調(diào)研分析,旨在通過表面的現(xiàn)象挖掘出目前產(chǎn)品的真正問題和痛點(diǎn)。通過對大量數(shù)據(jù)的分析,發(fā)現(xiàn)目前的產(chǎn)品存在繞路、溝通修改上車位置、修改發(fā)單位置等三種不同嚴(yán)重程度的用戶體驗(yàn)問題。為了改善網(wǎng)約車接駕的用戶體驗(yàn),可以借助更多訂單過程中的信息綜合推薦上車點(diǎn),比如司機(jī)接單時的定位位置、訂單終點(diǎn)位置以及用戶歷史打車行為等。上車點(diǎn)推薦的策略優(yōu)化能夠減少司機(jī)與乘客溝通成本;對于司機(jī)而言,上車點(diǎn)推薦的優(yōu)化可以提高整個行程的性價(jià)比,獲得更好的利潤;從企業(yè)角度,上車點(diǎn)推薦的精準(zhǔn)能夠提高接駕效率,同時增加用戶的粘性。本文通過分析訂單中司機(jī)與乘客的軌跡數(shù)據(jù)、用戶位置信息、訂單基礎(chǔ)信息,設(shè)計(jì)并實(shí)現(xiàn)了一個基于Spark框架的上車點(diǎn)推薦系統(tǒng),該系統(tǒng)包括基礎(chǔ)上車點(diǎn)挖掘、日志解析整合模塊、訂單抽取模塊、特征提取模塊、樣本標(biāo)注模塊、模型訓(xùn)練以及離線效果評估模塊。該上車點(diǎn)推薦系統(tǒng)采用機(jī)器學(xué)習(xí)方法解決上車點(diǎn)推薦的排序問題;A(chǔ)上車點(diǎn)挖掘是指為每個訂單挖掘出乘客的真實(shí)上車位置;日志解析整合模塊是將訂單的相關(guān)數(shù)據(jù)進(jìn)行解析整合,以便進(jìn)行訂單抽取;訂單數(shù)據(jù)抽取模塊基于日志解析整合模塊的輸出結(jié)果進(jìn)行訂單隨機(jī)采樣,是構(gòu)建訓(xùn)練數(shù)據(jù)的基礎(chǔ)模塊;特征提取模塊對每一個候選上車點(diǎn)提取特征向量;樣本標(biāo)注模塊可以靈活的針對不同建模思路進(jìn)行標(biāo)注;模型訓(xùn)練模塊采用Spark MLlib和LightGBM框架,對上車點(diǎn)推薦問題抽象為“二分類問題”或者“排序問題”進(jìn)行模型訓(xùn)練;離線效果評估模塊評估模型在預(yù)測集上的表現(xiàn),業(yè)務(wù)評價(jià)指標(biāo)為離線定點(diǎn)率!俺蓡魏蟆鄙宪圏c(diǎn)推薦系統(tǒng)通過對用戶場景的進(jìn)一步理解,改善了上車點(diǎn)推薦的用戶體驗(yàn)問題,同時增強(qiáng)了推薦結(jié)果的可解釋性。本文通過切分流量進(jìn)行AB Test方法對新的推薦模型與線上已有的基線模型對比,模型效果觀察期間模型分支的訂單定點(diǎn)率相比基線分支的定點(diǎn)率提升將近2個百分點(diǎn)。
【圖文】:
Apache邋Hadoop是一個可以進(jìn)行大規(guī)模數(shù)據(jù)處理、分布式文件存儲的開源軟件逡逑框架。Apache邋Hadoop的核心組件是分布式文件存儲系統(tǒng)HDFS和MapReduce計(jì)逡逑算框架。Hadoop生態(tài)系統(tǒng)的結(jié)構(gòu)如圖2-1所示[3]。逡逑藏=,二=媝 逡逑.邐L邐t邋.逡逑Hive邋pjg邋Mahout邋Awo邋Sqoop逡逑(SQLi邋iDaiaFlw)邋Wad,ne邋<肌.(RDBMS邋Data邋Access逡逑(bUL)邋^uaiahiow)邋i#幔潁睿輳睿紓輳rP櫻澹潁恚耄怛幔歟恚,
本文編號:2708300
【圖文】:
Apache邋Hadoop是一個可以進(jìn)行大規(guī)模數(shù)據(jù)處理、分布式文件存儲的開源軟件逡逑框架。Apache邋Hadoop的核心組件是分布式文件存儲系統(tǒng)HDFS和MapReduce計(jì)逡逑算框架。Hadoop生態(tài)系統(tǒng)的結(jié)構(gòu)如圖2-1所示[3]。逡逑藏=,二=媝 逡逑.邐L邐t邋.逡逑Hive邋pjg邋Mahout邋Awo邋Sqoop逡逑(SQLi邋iDaiaFlw)邋Wad,ne邋<肌.(RDBMS邋Data邋Access逡逑(bUL)邋^uaiahiow)邋i#幔潁睿輳睿紓輳rP櫻澹潁恚耄怛幔歟恚,
本文編號:2708300
本文鏈接:http://sikaile.net/kejilunwen/jiaotonggongchenglunwen/2708300.html
最近更新
教材專著