基于改進(jìn)的GBDT算法的乘客出行預(yù)測研究
發(fā)布時間:2017-08-20 12:25
本文關(guān)鍵詞:基于改進(jìn)的GBDT算法的乘客出行預(yù)測研究
更多相關(guān)文章: 推薦預(yù)測 代價敏感學(xué)習(xí) 隨機(jī)梯度提升算法 決策樹 不平衡數(shù)據(jù)
【摘要】:隨著大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,從復(fù)雜無序的大數(shù)據(jù)中,給用戶推薦用戶自身感興趣的信息,推薦系統(tǒng)已經(jīng)成為解決信息過載的關(guān)鍵工具。首先根據(jù)用戶的歷史行為的記錄,構(gòu)建相應(yīng)的特征工程,利用特征工程來進(jìn)行建模,然后預(yù)測未來用戶的興趣,最終推薦相應(yīng)的物品給用戶。但現(xiàn)在推薦還是面對許多困難和挑戰(zhàn),例如如何選擇適當(dāng)?shù)耐扑]算法來提升正樣本(小類樣本)預(yù)測的準(zhǔn)確性,提高用戶感興趣物品的準(zhǔn)確度等。為了更好的處理上述問題,研究人員繼續(xù)開發(fā)出更高效的推薦算法。本文的研究主要面對的是在公共交通大數(shù)據(jù)情況下,乘客與線路之間顯性關(guān)系信息缺少,隱形關(guān)系信息巨大,和同時乘客是否出行問題可以轉(zhuǎn)化為二分類問題,并且乘客未來選擇出行的數(shù)目遠(yuǎn)遠(yuǎn)小于不出行的特點,從而本文主要關(guān)注如何構(gòu)建有效的特征工程和如何解決不平衡分類問題來提升正樣本(小類樣本)分類準(zhǔn)確性;谝陨蠁栴},本文提出了一種基于代價敏感學(xué)習(xí)和隨機(jī)梯度提升的算法融合思想,從而使預(yù)測乘客是否出行更加準(zhǔn)確。首先,采用廣州省公共交通數(shù)據(jù)集,來構(gòu)建用戶乘車習(xí)慣相應(yīng)的特征工程,本文主要從乘客,線路和乘客線路交互三個方向來進(jìn)行構(gòu)建特征工程。構(gòu)建的角度主要從時間,天氣,頻率等。其次,對新的特征工程進(jìn)行優(yōu)化,利用隨機(jī)森林對特征進(jìn)行重要性評估,然后將特征變量按照變量重要性降序排序,刪除不重要的特征,得到新的特征集,重復(fù)上述過程,從而得到模型精度最高時候的特征變量。最后,提出了基于代價敏感學(xué)習(xí)隨機(jī)梯度提升算法,從而更好適應(yīng)不平衡分類數(shù)據(jù)集,從而能夠很好預(yù)測乘客未來是否出行。由于基礎(chǔ)算法隨機(jī)提升算法本身就不容易過擬合,泛化能力好,非線性等優(yōu)點,所以改進(jìn)的算法就很好的處理本文所構(gòu)建的特征工程。首先改進(jìn)的算法在公共不平衡數(shù)據(jù)集上進(jìn)行訓(xùn)練,和其他分類算法進(jìn)行對比,用AUC評價指標(biāo)對算法模型進(jìn)行評估。然后再采用廣東市乘客刷卡記錄數(shù)據(jù)集,通過多次實驗選擇合適的參數(shù),分別用隨機(jī)梯度算法和基于代價敏感學(xué)習(xí)隨機(jī)梯度提升算法對數(shù)據(jù)集進(jìn)行訓(xùn)練,然后通過評價指標(biāo)AUC和F1來比較兩個算法模型的性能。
【關(guān)鍵詞】:推薦預(yù)測 代價敏感學(xué)習(xí) 隨機(jī)梯度提升算法 決策樹 不平衡數(shù)據(jù)
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:U491.17
【目錄】:
- 摘要4-5
- Abstract5-9
- 1 緒論9-15
- 1.1 研究背景與研究意義9-10
- 1.1.1 基于乘客乘車行為預(yù)測推薦算法問題研究背景與意義9-10
- 1.1.2 類別不平衡問題研究背景與意義10
- 1.2 研究現(xiàn)狀10-13
- 1.2.1 推薦算法的研究現(xiàn)狀10-11
- 1.2.2 不平衡分類問題的研究現(xiàn)狀11-13
- 1.3 本文主要工作13-14
- 1.4 本文組織結(jié)構(gòu)14-15
- 2 數(shù)據(jù)預(yù)處理和構(gòu)建特征工程15-21
- 2.1 數(shù)據(jù)預(yù)處理15-17
- 2.1.1 數(shù)據(jù)清理15-16
- 2.1.2 數(shù)據(jù)聚集16
- 2.1.3 數(shù)據(jù)集成16-17
- 2.2 特征工程選擇和設(shè)計17-18
- 2.3 基于乘客維度的特征選取介紹18
- 2.4 基于線路的特征選擇介紹18-19
- 2.5 基于乘客線路交互行為的特征選擇介紹19-20
- 2.6 本章小結(jié)20-21
- 3 隨機(jī)梯度提升決策樹算法和代價敏感學(xué)習(xí)的研究與介紹21-35
- 3.1 決策樹算法的基本思想21-22
- 3.2 Boosting基本思想22-23
- 3.3 隨機(jī)梯度提升算法的基本思想23-30
- 3.4 代價敏感學(xué)習(xí)的介紹30-34
- 3.4.1 AdaBoost算法31-32
- 3.4.2 基于代價敏感學(xué)習(xí)決策樹32
- 3.4.3 基于代價敏感學(xué)習(xí)人工神經(jīng)網(wǎng)絡(luò)32-33
- 3.4.4 代價敏感學(xué)習(xí)框架33-34
- 3.4.5 基于代價敏感學(xué)習(xí)SVM34
- 3.4.6 基于代價敏感的集成學(xué)習(xí)34
- 3.5 本章小結(jié)34-35
- 4 代價敏感學(xué)習(xí)下的隨機(jī)梯度提升算法及應(yīng)用35-48
- 4.1 實驗平臺和工具介紹35
- 4.2 廣東市乘客出行數(shù)據(jù)集分析及其處理35-36
- 4.3 不平衡分類數(shù)據(jù)評價標(biāo)準(zhǔn)36-38
- 4.3.1 分類的準(zhǔn)確性36-37
- 4.3.2 F1-value37
- 4.3.3 AUC性能指標(biāo)37-38
- 4.4 特征的選取及其分析38-39
- 4.5 基于代價敏感學(xué)習(xí)隨機(jī)梯度提升算法實現(xiàn)和分析39-40
- 4.6 公共不平衡分類數(shù)據(jù)集實驗結(jié)果40-43
- 4.6.1 不平衡分類公共數(shù)據(jù)集40-41
- 4.6.2 實驗設(shè)置41
- 4.6.3 實驗結(jié)果及其對比分析41-43
- 4.7 廣東市乘客是否乘坐公交的實驗結(jié)果43-47
- 4.7.1 算法模型各個參數(shù)的對比和分析43-45
- 4.7.2 實驗結(jié)果分析和對比45-47
- 4.8 本章總結(jié)47-48
- 結(jié)論48-50
- 參考文獻(xiàn)50-53
- 致謝53-54
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李智;基于蟻群算法的煤炭運(yùn)輸優(yōu)化方法[J];中國鐵道科學(xué);2004年03期
2 齊悅;于彥偉;鄺俊;何杰;王沁;;一種實時有效的蜂群模式挖掘算法[J];北京科技大學(xué)學(xué)報;2012年01期
3 顧華璽;劉增基;邱智亮;康國昌;;太比特路由器內(nèi)部交換網(wǎng)絡(luò)的服務(wù)質(zhì)量尋徑算法[J];中北大學(xué)學(xué)報(自然科學(xué)版);2006年03期
4 俞露;;基于Prim算法的管道鋪設(shè)方案設(shè)計[J];電腦編程技巧與維護(hù);2013年14期
5 蔡巧珍;譚瑛;王艷;;基于非支配排序的多目標(biāo)擬態(tài)物理學(xué)優(yōu)化算法[J];太原科技大學(xué)學(xué)報;2013年01期
6 黎志鵬;分組排隊算法(續(xù))[J];廣東水電科技;1985年01期
7 易s,
本文編號:706634
本文鏈接:http://sikaile.net/kejilunwen/daoluqiaoliang/706634.html
教材專著