基于XGBoost集成學(xué)習(xí)算法的電動(dòng)汽車價(jià)格預(yù)測(cè)
發(fā)布時(shí)間:2021-03-27 00:20
針對(duì)電動(dòng)汽車屬性及價(jià)格的數(shù)據(jù)集,采用XGBoost集成學(xué)習(xí)算法進(jìn)行電動(dòng)汽車價(jià)格的分類和預(yù)測(cè)。首先,在Matlab和Python環(huán)境中,使用經(jīng)過(guò)預(yù)處理的訓(xùn)練數(shù)據(jù)訓(xùn)練得到XGBoost分類和預(yù)測(cè)模型。然后,用訓(xùn)練所得XGBoost模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行價(jià)格預(yù)測(cè),在準(zhǔn)確率、召回率、F-score和混淆矩陣等方面對(duì)XGBoost算法進(jìn)行測(cè)試,并與支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)等算法做了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果證明,三種預(yù)測(cè)模型預(yù)測(cè)準(zhǔn)確率均在95%以上,XGBoost算法的預(yù)測(cè)效果最佳。最后,結(jié)合各預(yù)測(cè)模型的原理,對(duì)XGBoost預(yù)測(cè)模型的優(yōu)缺點(diǎn)進(jìn)行分析,并提出了模型的改進(jìn)方向。
【文章來(lái)源】:江蘇理工學(xué)院學(xué)報(bào). 2020,26(06)
【文章頁(yè)數(shù)】:11 頁(yè)
【部分圖文】:
箱型圖檢測(cè)異常值結(jié)果
第6期蔡秋茹:基于XGBoost集成學(xué)習(xí)算法的電動(dòng)汽車價(jià)格預(yù)測(cè)3711.3.2相關(guān)性分析首先,通過(guò)繪制散點(diǎn)圖的方式,直觀地判斷兩個(gè)變量是否具有線性相關(guān)關(guān)系。電動(dòng)汽車屬性散點(diǎn)圖如圖3所示。觀察圖3可知,這些屬性兩兩之間不具有線性相關(guān)關(guān)系。(a)電池可以一次性存儲(chǔ)的總能量/mAh(b)微處理器執(zhí)行指令的速度(c)前置攝像頭百萬(wàn)像素(d)內(nèi)存/GB(e)移動(dòng)深度/cm(f)重量/g圖2電動(dòng)汽車屬性定量變量分布圖5506507508509501050115012501350145015501650175018501950
第6期蔡秋茹:基于XGBoost集成學(xué)習(xí)算法的電動(dòng)汽車價(jià)格預(yù)測(cè)39組,一部分作為訓(xùn)練集,另一部分作為驗(yàn)證集。先用訓(xùn)練集對(duì)分類器進(jìn)行訓(xùn)練,再用驗(yàn)證集測(cè)試訓(xùn)練得到的模型,以此作為評(píng)價(jià)分類器性能的指標(biāo)。本文采用5折交叉驗(yàn)證法,可以在樣本數(shù)據(jù)量不足的情況下充分利用所有樣本挖掘出數(shù)據(jù)中的有用信息。圖4分類模型的實(shí)現(xiàn)步驟22.1.3多分類問(wèn)題的求解思路(1)OvO策略對(duì)4種類型的樣本進(jìn)行分類時(shí),分別取一種樣本作為一類,將剩余所有類型的樣本看作另一類,這樣就形成了4個(gè)二分類問(wèn)題。使用二分類算法對(duì)4個(gè)數(shù)據(jù)集訓(xùn)練出4個(gè)模型,將待預(yù)測(cè)的樣本傳入這4個(gè)模型中,所得概率最高的那個(gè)模型對(duì)應(yīng)的樣本類型即為該預(yù)測(cè)樣本的類型,OvO策略示意圖如圖5所示。圖5OvO策略示意圖(2)OvR策略對(duì)4種類型的樣本進(jìn)行分類時(shí),每次挑出2種類型兩兩結(jié)合,共有C24=6種二分類情況。用這6種模型預(yù)測(cè)樣本類型,得到6個(gè)預(yù)測(cè)結(jié)果,種類最多的樣本類型即為該樣本最終的預(yù)測(cè)類型。OvR策略示意圖如圖6所示。圖6OvR策略示意圖
本文編號(hào):3102511
【文章來(lái)源】:江蘇理工學(xué)院學(xué)報(bào). 2020,26(06)
【文章頁(yè)數(shù)】:11 頁(yè)
【部分圖文】:
箱型圖檢測(cè)異常值結(jié)果
第6期蔡秋茹:基于XGBoost集成學(xué)習(xí)算法的電動(dòng)汽車價(jià)格預(yù)測(cè)3711.3.2相關(guān)性分析首先,通過(guò)繪制散點(diǎn)圖的方式,直觀地判斷兩個(gè)變量是否具有線性相關(guān)關(guān)系。電動(dòng)汽車屬性散點(diǎn)圖如圖3所示。觀察圖3可知,這些屬性兩兩之間不具有線性相關(guān)關(guān)系。(a)電池可以一次性存儲(chǔ)的總能量/mAh(b)微處理器執(zhí)行指令的速度(c)前置攝像頭百萬(wàn)像素(d)內(nèi)存/GB(e)移動(dòng)深度/cm(f)重量/g圖2電動(dòng)汽車屬性定量變量分布圖5506507508509501050115012501350145015501650175018501950
第6期蔡秋茹:基于XGBoost集成學(xué)習(xí)算法的電動(dòng)汽車價(jià)格預(yù)測(cè)39組,一部分作為訓(xùn)練集,另一部分作為驗(yàn)證集。先用訓(xùn)練集對(duì)分類器進(jìn)行訓(xùn)練,再用驗(yàn)證集測(cè)試訓(xùn)練得到的模型,以此作為評(píng)價(jià)分類器性能的指標(biāo)。本文采用5折交叉驗(yàn)證法,可以在樣本數(shù)據(jù)量不足的情況下充分利用所有樣本挖掘出數(shù)據(jù)中的有用信息。圖4分類模型的實(shí)現(xiàn)步驟22.1.3多分類問(wèn)題的求解思路(1)OvO策略對(duì)4種類型的樣本進(jìn)行分類時(shí),分別取一種樣本作為一類,將剩余所有類型的樣本看作另一類,這樣就形成了4個(gè)二分類問(wèn)題。使用二分類算法對(duì)4個(gè)數(shù)據(jù)集訓(xùn)練出4個(gè)模型,將待預(yù)測(cè)的樣本傳入這4個(gè)模型中,所得概率最高的那個(gè)模型對(duì)應(yīng)的樣本類型即為該預(yù)測(cè)樣本的類型,OvO策略示意圖如圖5所示。圖5OvO策略示意圖(2)OvR策略對(duì)4種類型的樣本進(jìn)行分類時(shí),每次挑出2種類型兩兩結(jié)合,共有C24=6種二分類情況。用這6種模型預(yù)測(cè)樣本類型,得到6個(gè)預(yù)測(cè)結(jié)果,種類最多的樣本類型即為該樣本最終的預(yù)測(cè)類型。OvR策略示意圖如圖6所示。圖6OvR策略示意圖
本文編號(hào):3102511
本文鏈接:http://sikaile.net/kejilunwen/qiche/3102511.html
最近更新
教材專著