機(jī)器學(xué)習(xí)算法在房屋總量及分類統(tǒng)計中的應(yīng)用
發(fā)布時間:2022-04-25 20:11
在當(dāng)前網(wǎng)絡(luò)互聯(lián)時代,軟件和硬件條件日趨成熟的情形下,各個領(lǐng)域的數(shù)據(jù)收集及信息存儲能力大幅度增強(qiáng),但這對于信息梳理與挖掘的要求進(jìn)一步提高,各行業(yè)都渴望能有更多樣、更高效的數(shù)據(jù)挖掘方法來處理、分析行業(yè)數(shù)據(jù),輔助行業(yè)進(jìn)行更高效、更精準(zhǔn)的決策產(chǎn)出。為滿足大數(shù)據(jù)的處理需求,數(shù)據(jù)挖掘算法領(lǐng)域蓬勃發(fā)展,相關(guān)的算法創(chuàng)新與改進(jìn)成果不斷誕生,并且也逐步展現(xiàn)了算法應(yīng)用的兼容性,應(yīng)用領(lǐng)域不斷拓展。本文則主要介紹了決策樹算法、logistic回歸算法、組合算法隨機(jī)森林以及支持向量機(jī)算法(SVM)這四種算法,并將其應(yīng)用于房屋多分類問題上。通過R軟件優(yōu)化模型參數(shù),建立合適的模型,并對缺失數(shù)據(jù)完成預(yù)測。從模型分類正確率以及預(yù)測值與參考值的差異程度交叉評估算法應(yīng)用的優(yōu)劣,最后發(fā)現(xiàn)在當(dāng)前應(yīng)用場景下,決策樹算法的分類效果最佳,平均分類正確率達(dá)95.17%,預(yù)測值與參考值的結(jié)果也最為接近,標(biāo)準(zhǔn)差異指數(shù)僅10.24,而隨機(jī)森林算法在十折交叉驗證中的分類穩(wěn)定性最好,支持向量機(jī)預(yù)測穩(wěn)定性較差,但在特定的場景中會取得更為準(zhǔn)確的預(yù)測結(jié)果。
【文章頁數(shù)】:52 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3.1決策樹模型圖??圖中的node表示結(jié)點(diǎn)序號,split為拆分節(jié)點(diǎn)的變量名以及判別標(biāo)準(zhǔn)
I■馨I領(lǐng)士學(xué)位論文??V^i^7?MASTER'S?THESIS??個變量,其中房屋建筑占地面積、房屋建筑總建筑面積這兩個變量最為重要,其余??兩個變量的重要性較低。??Importance?of?Variable??g?-|?_???-??e-?ii??..??.??!??????i???????I???*??■■?—.???_....?????-?I??房屋建筑占地面積?房屋建氣總建琉面積?yaixs?xaixs??圖3.2決策樹模型重要性條形圖??3.2.4決策樹預(yù)測??>?prcb_flsal?<-?predict?:(ggf?new2)??;>?prob_f?in.al?Il':?I00?r?j??1?2?3?4??4001?0.9668241?0.0007886435?0.009516601?0.02287Q66??4002?0.966B241?0.0007886435?0.009516601?0.022S7Q££??4003?0.966B241?0.0007886435?0.009516601?0.022S7066??4004?0.9668241?0.0007S86435?0.009516601?0.022S7066??圖3.3決策樹預(yù)測結(jié)果部分輸出圖??根據(jù)建立的決策樹模型,對未調(diào)查落地的1000條記錄進(jìn)行預(yù)測,得出每一條??記錄的各類房屋用途占比,再將各自占比乘以房屋建筑總建筑面積就可以得出每種??房屋用途的面積。??匯總得到如下結(jié)果:???表3.?4決策樹模型預(yù)測結(jié)果匯總表???住宅面積總和辦公面積總和商業(yè)面積總和其
(|攀碩士學(xué)位論文??MASTER’S?THESIS??Err?vs?number?of?variable??,\??〇?\??\??s?I?_?\??I?\??\??S.????一一????°?、、、一一一?'\zZ??1?I?I?I?I?1???2?4?6?8?10?12??bdex??圖3.?6隨機(jī)森林變量數(shù)目決定圖??從3.6的折線圖可以發(fā)現(xiàn)平均誤差隨變量個數(shù)增多的變化趨勢是:先下降再上??下波動。由于變量總數(shù)為6個,而當(dāng)變量個數(shù)為6時,模型內(nèi)的平均誤差就達(dá)到了??第一個最低點(diǎn),所以這里確定mtry的值為6。??(2)選擇隨機(jī)森林ntree值:??而確定決策樹個數(shù)的方法類似于(1),也是以模型內(nèi)的平均誤差作為判別標(biāo)??準(zhǔn),不同的是這里鎖定mtry的值為6建立每一顆決策樹,同時不斷改變決策樹的數(shù)??量(這里選擇的是1-500),運(yùn)行程序得到圖3.7的結(jié)果:??Error?vs?number?of?trees??_?*? ̄?1?—?—??????….二“ww>?—?一.??-?-?—.?????...?????...?...??????'?二^?―__ ̄ ̄?'V\、,??????—??d??........,?......,????....??????'f?、*?^??<〇.??o??o??UJ??^?\??d_\??s-?\??W---?????_i?,?,?二_—?-?i??—??〇?100
【參考文獻(xiàn)】:
期刊論文
[1]人工智能——隨機(jī)森林技術(shù)分析[J]. 袁志聰. 科技創(chuàng)新與應(yīng)用. 2020(06)
[2]基于決策樹的股票多因子優(yōu)化模型策略研究[J]. 陳權(quán),龔軒濤. 信息技術(shù)與信息化. 2020(01)
[3]基于Cart決策樹與boosting方法的股票預(yù)測[J]. 王禹,陳德運(yùn),唐遠(yuǎn)新. 哈爾濱理工大學(xué)學(xué)報. 2019(06)
[4]基于改進(jìn)CART算法的降雨量預(yù)測模型[J]. 李正方,杜景林,周蕓. 現(xiàn)代電子技術(shù). 2020(02)
[5]基于logistic回歸的信用反欺詐預(yù)測模型[J]. 吳駿一. 價值工程. 2020(01)
[6]基于Logistic回歸的扶貧滿意度評價模型[J]. 蔡高成,趙海清,李光輝. 凱里學(xué)院學(xué)報. 2019(06)
[7]一種改進(jìn)的ID3決策算法及其應(yīng)用[J]. 圣文順,孫艷文. 計算機(jī)與數(shù)字工程. 2019(12)
[8]基于隨機(jī)森林的房地產(chǎn)項目風(fēng)險評價[J]. 李俠男,沈江. 工程管理學(xué)報. 2019(06)
[9]基于決策樹算法的電商化電力物資判別[J]. 張立,郭珊珊,姚楠,劉鴻洋,儲勝. 現(xiàn)代商貿(mào)工業(yè). 2020(01)
[10]基于C4.5決策樹分類算法的改進(jìn)與應(yīng)用[J]. 李春生,焦海濤,劉澎,劉小剛. 計算機(jī)技術(shù)與發(fā)展. 2020(05)
博士論文
[1]隨機(jī)森林算法優(yōu)化研究[D]. 曹正鳳.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2014
碩士論文
[1]機(jī)器學(xué)習(xí)算法在醫(yī)療數(shù)據(jù)分析中的應(yīng)用[D]. 葉雷.華中師范大學(xué) 2017
[2]基于決策樹的數(shù)據(jù)挖掘算法研究與應(yīng)用[D]. 盧東標(biāo).武漢理工大學(xué) 2008
本文編號:3648264
【文章頁數(shù)】:52 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3.1決策樹模型圖??圖中的node表示結(jié)點(diǎn)序號,split為拆分節(jié)點(diǎn)的變量名以及判別標(biāo)準(zhǔn)
I■馨I領(lǐng)士學(xué)位論文??V^i^7?MASTER'S?THESIS??個變量,其中房屋建筑占地面積、房屋建筑總建筑面積這兩個變量最為重要,其余??兩個變量的重要性較低。??Importance?of?Variable??g?-|?_???-??e-?ii??..??.??!??????i???????I???*??■■?—.???_....?????-?I??房屋建筑占地面積?房屋建氣總建琉面積?yaixs?xaixs??圖3.2決策樹模型重要性條形圖??3.2.4決策樹預(yù)測??>?prcb_flsal?<-?predict?:(ggf?new2)??;>?prob_f?in.al?Il':?I00?r?j??1?2?3?4??4001?0.9668241?0.0007886435?0.009516601?0.02287Q66??4002?0.966B241?0.0007886435?0.009516601?0.022S7Q££??4003?0.966B241?0.0007886435?0.009516601?0.022S7066??4004?0.9668241?0.0007S86435?0.009516601?0.022S7066??圖3.3決策樹預(yù)測結(jié)果部分輸出圖??根據(jù)建立的決策樹模型,對未調(diào)查落地的1000條記錄進(jìn)行預(yù)測,得出每一條??記錄的各類房屋用途占比,再將各自占比乘以房屋建筑總建筑面積就可以得出每種??房屋用途的面積。??匯總得到如下結(jié)果:???表3.?4決策樹模型預(yù)測結(jié)果匯總表???住宅面積總和辦公面積總和商業(yè)面積總和其
(|攀碩士學(xué)位論文??MASTER’S?THESIS??Err?vs?number?of?variable??,\??〇?\??\??s?I?_?\??I?\??\??S.????一一????°?、、、一一一?'\zZ??1?I?I?I?I?1???2?4?6?8?10?12??bdex??圖3.?6隨機(jī)森林變量數(shù)目決定圖??從3.6的折線圖可以發(fā)現(xiàn)平均誤差隨變量個數(shù)增多的變化趨勢是:先下降再上??下波動。由于變量總數(shù)為6個,而當(dāng)變量個數(shù)為6時,模型內(nèi)的平均誤差就達(dá)到了??第一個最低點(diǎn),所以這里確定mtry的值為6。??(2)選擇隨機(jī)森林ntree值:??而確定決策樹個數(shù)的方法類似于(1),也是以模型內(nèi)的平均誤差作為判別標(biāo)??準(zhǔn),不同的是這里鎖定mtry的值為6建立每一顆決策樹,同時不斷改變決策樹的數(shù)??量(這里選擇的是1-500),運(yùn)行程序得到圖3.7的結(jié)果:??Error?vs?number?of?trees??_?*? ̄?1?—?—??????….二“ww>?—?一.??-?-?—.?????...?????...?...??????'?二^?―__ ̄ ̄?'V\、,??????—??d??........,?......,????....??????'f?、*?^??<〇.??o??o??UJ??^?\??d_\??s-?\??W---?????_i?,?,?二_—?-?i??—??〇?100
【參考文獻(xiàn)】:
期刊論文
[1]人工智能——隨機(jī)森林技術(shù)分析[J]. 袁志聰. 科技創(chuàng)新與應(yīng)用. 2020(06)
[2]基于決策樹的股票多因子優(yōu)化模型策略研究[J]. 陳權(quán),龔軒濤. 信息技術(shù)與信息化. 2020(01)
[3]基于Cart決策樹與boosting方法的股票預(yù)測[J]. 王禹,陳德運(yùn),唐遠(yuǎn)新. 哈爾濱理工大學(xué)學(xué)報. 2019(06)
[4]基于改進(jìn)CART算法的降雨量預(yù)測模型[J]. 李正方,杜景林,周蕓. 現(xiàn)代電子技術(shù). 2020(02)
[5]基于logistic回歸的信用反欺詐預(yù)測模型[J]. 吳駿一. 價值工程. 2020(01)
[6]基于Logistic回歸的扶貧滿意度評價模型[J]. 蔡高成,趙海清,李光輝. 凱里學(xué)院學(xué)報. 2019(06)
[7]一種改進(jìn)的ID3決策算法及其應(yīng)用[J]. 圣文順,孫艷文. 計算機(jī)與數(shù)字工程. 2019(12)
[8]基于隨機(jī)森林的房地產(chǎn)項目風(fēng)險評價[J]. 李俠男,沈江. 工程管理學(xué)報. 2019(06)
[9]基于決策樹算法的電商化電力物資判別[J]. 張立,郭珊珊,姚楠,劉鴻洋,儲勝. 現(xiàn)代商貿(mào)工業(yè). 2020(01)
[10]基于C4.5決策樹分類算法的改進(jìn)與應(yīng)用[J]. 李春生,焦海濤,劉澎,劉小剛. 計算機(jī)技術(shù)與發(fā)展. 2020(05)
博士論文
[1]隨機(jī)森林算法優(yōu)化研究[D]. 曹正鳳.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2014
碩士論文
[1]機(jī)器學(xué)習(xí)算法在醫(yī)療數(shù)據(jù)分析中的應(yīng)用[D]. 葉雷.華中師范大學(xué) 2017
[2]基于決策樹的數(shù)據(jù)挖掘算法研究與應(yīng)用[D]. 盧東標(biāo).武漢理工大學(xué) 2008
本文編號:3648264
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3648264.html
最近更新
教材專著