基于回歸模型集成的精裝房房價(jià)預(yù)測
發(fā)布時(shí)間:2021-11-18 09:02
近年來,我國經(jīng)濟(jì)的快速發(fā)展,房地產(chǎn)行業(yè)迅速崛起.隨著人們生活節(jié)奏的加快,精裝房也越來越受到青睞,因此能夠快速準(zhǔn)確對多變量的精裝房進(jìn)行預(yù)測,對購房者或售房者都有重要指導(dǎo)意義.國內(nèi)關(guān)于精裝房的數(shù)據(jù)較少,本文便以Ames地區(qū)的精裝房作為研究對象.首先利用數(shù)據(jù)之間相關(guān)性進(jìn)行回歸模型插補(bǔ)以及基于分類變量的眾數(shù)或k-means插補(bǔ)進(jìn)行缺失值的填充,其次根據(jù)已經(jīng)記錄的特征變量構(gòu)造新的影響變量,并對數(shù)據(jù)進(jìn)行對數(shù)變換及標(biāo)準(zhǔn)化處理.隨后根據(jù)訓(xùn)練集建立單一預(yù)測模型,如線性回歸,Ridge回歸,Lasso回歸等.結(jié)果表明:Lasso回歸預(yù)測效果最好,均方根誤差=0.150578,2=0.926347.單一模型在每個(gè)樣本點(diǎn)上預(yù)測值不具有一致性,本文又建立權(quán)重組合模型及Stacking集成模型.權(quán)重組合模型中將六個(gè)單一模型:Ridge回歸模型,Lasso回歸模型,ElasticNet回歸,GradientBoosting回歸,XGBoost回歸,隨機(jī)森林回歸的預(yù)測方差轉(zhuǎn)化為權(quán)重進(jìn)行加權(quán)組合.對比于Lasso回歸模型,測試集上減少6.9%,2提高1%.Stacking集成...
【文章來源】:蘭州大學(xué)甘肅省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:53 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
隨機(jī)森林流程圖
蘭州大學(xué)碩士學(xué)位論文基于回歸模型集成的精裝房房價(jià)預(yù)測2.2Stacking模型集成1992年,Wolpert提出Stacking集成算法,也稱為Stackedgeneralization.Stack-ing算法的本質(zhì)思想也是通過組合多個(gè)預(yù)測結(jié)果較好的分類或回歸學(xué)習(xí)器來提高預(yù)測結(jié)果,但是與Boosting算法又有所不同.Stacking采用的元學(xué)習(xí)器是不同的,且可不需要多次迭代,圖2.2為兩層Stacking算法流程圖.圖2.2Stacking原理圖Stacking算法第一階段:選取多個(gè)不同的學(xué)習(xí)器Model1,Model2,···,Mod-eln.如在回歸預(yù)測問題中,可以選擇Lasso回歸作為Modell.然后將數(shù)據(jù)集分為兩部分:TrainingData,TestData.本文采用5折交叉驗(yàn)證劃分TrainingData,即每次實(shí)驗(yàn)時(shí),TrainingData中4/5的數(shù)據(jù)作為訓(xùn)練集進(jìn)行訓(xùn)練,1/5的數(shù)據(jù)作為測試集用作檢驗(yàn)?zāi)P偷恼`差及確定該模型的最佳參數(shù),并輸出測試集的預(yù)測值,我們記為a1.同時(shí)用得到的模型對TestData中的數(shù)據(jù)進(jìn)行預(yù)測,得到一列新的數(shù)據(jù),我們記為b1.這樣5次實(shí)驗(yàn)之后,我們將得到兩個(gè)矩陣(1,2,3,4,5)和(1,2,3,4,5).(1,2,3,4,5)為TrainingData基于5折交叉驗(yàn)證的預(yù)測結(jié)果,(1,2,3,4,5)是TestData的預(yù)測結(jié)果.緊接著將(1,2,3,4,5)合并為一列多行的數(shù)據(jù),記為1.將1,2,3,4,5對應(yīng)的數(shù)據(jù)相加求平均值,結(jié)果記為1.以上即為Stacking算法初級(jí)元學(xué)習(xí)器Moadel1結(jié)合5折交叉驗(yàn)證的實(shí)驗(yàn)流程,所得的1作為第二層學(xué)習(xí)器的15
蘭州大學(xué)碩士學(xué)位論文基于回歸模型集成的精裝房房價(jià)預(yù)測圖3.1MoSold對應(yīng)SalePrice中位數(shù)從圖3.1可以看出:SalePrice的高低并沒有隨著MoSold的增長呈現(xiàn)某種遞增或遞減的趨勢,SalePrice的大小看起來更像與季節(jié)因素相關(guān).因此本章將MoSold轉(zhuǎn)換為無序分類變量.同時(shí)本文也分析了YrSold,MSSubClass與SalePrice的關(guān)系,相應(yīng)的也需要將它們轉(zhuǎn)換成無序分類變量.2.3新變量的構(gòu)造本文用于預(yù)測Ames地區(qū)精裝房房價(jià)的原數(shù)據(jù)集中雖已有79個(gè)自變量,但并沒有描述房子年齡的變量.然而購房者在買房的時(shí)候,房齡,是否是當(dāng)年新建的,也會(huì)在一定程度上影響房子的售價(jià).YrSold:記錄房子銷售時(shí)的年份,YearRemodAdd:記錄房子重建日期(如果沒有重建,就默認(rèn)是新建時(shí)的日期),因此可以構(gòu)建一個(gè)用于描述房子在售出時(shí)年齡變量Age=YrSold–YearRemodAdd.下圖3.2是本文新構(gòu)造變量Age和SalePrice的線性擬合圖.從圖3.2可以看出Age和SalePrice呈負(fù)相關(guān)關(guān)系.經(jīng)過計(jì)算,(,)=0.5097058,說明特征變量Age和SalePrice呈負(fù)相關(guān).這也符合消費(fèi)者的心理,越老的房子可能設(shè)施,建造風(fēng)格沒有新建的好,也就沒有新建的房子售價(jià)更高.相應(yīng)的23
【參考文獻(xiàn)】:
期刊論文
[1]基于多元線性回歸模型及ARIMA模型的北京市房價(jià)預(yù)測[J]. 劉麗澤. 科技經(jīng)濟(jì)導(dǎo)刊. 2018(29)
[2]基于GM(1,1)模型的福州市房價(jià)預(yù)測[J]. 劉瓊芳. 福建金融管理干部學(xué)院學(xué)報(bào). 2018(01)
[3]基于FAHP的加權(quán)組合模型預(yù)測精度檢驗(yàn)與比較[J]. 于紅巖,季申佳. 統(tǒng)計(jì)與決策. 2017(23)
[4]基于集成學(xué)習(xí)的房價(jià)預(yù)測模型[J]. 楊博文,曹布陽. 電腦知識(shí)與技術(shù). 2017(29)
[5]多元線性回歸模型在房價(jià)走勢分析與預(yù)測中的應(yīng)用[J]. 鐘麗燕,高淑蘭. 科技創(chuàng)業(yè)月刊. 2017(09)
[6]組合模型對惡性腫瘤死亡率擬合度評(píng)價(jià)及預(yù)測方法的研究[J]. 曲紅梅,白亞娜,魁發(fā)瑞,胡曉斌,裴鴻波,任曉衛(wèi),申希平. 中華流行病學(xué)雜志. 2017 (01)
[7]基于不同權(quán)重法的回采工作面瓦斯涌出量組合預(yù)測[J]. 劉軍,姜波,劉杰剛,李駿,么玉鵬. 煤炭技術(shù). 2016(07)
[8]基于SVR的上海市商品房價(jià)格預(yù)測[J]. 袁秀芳,鄭伯川,焦偉超. 甘肅科學(xué)學(xué)報(bào). 2016(01)
[9]基于hedonic模型的南昌住宅價(jià)格影響因素分析[J]. 樂建明. 華東交通大學(xué)學(xué)報(bào). 2015(05)
[10]基于遺傳算法和BP神經(jīng)網(wǎng)絡(luò)的房價(jià)預(yù)測分析[J]. 高玉明,張仁津. 計(jì)算機(jī)工程. 2014(04)
碩士論文
[1]基于隨機(jī)森林理論的北京市二手房估價(jià)模型研究[D]. 陳奕佳.北京交通大學(xué) 2015
[2]缺失值處理統(tǒng)計(jì)方法的模擬比較研究及應(yīng)用[D]. 茅群霞.四川大學(xué) 2005
本文編號(hào):3502612
【文章來源】:蘭州大學(xué)甘肅省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:53 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
隨機(jī)森林流程圖
蘭州大學(xué)碩士學(xué)位論文基于回歸模型集成的精裝房房價(jià)預(yù)測2.2Stacking模型集成1992年,Wolpert提出Stacking集成算法,也稱為Stackedgeneralization.Stack-ing算法的本質(zhì)思想也是通過組合多個(gè)預(yù)測結(jié)果較好的分類或回歸學(xué)習(xí)器來提高預(yù)測結(jié)果,但是與Boosting算法又有所不同.Stacking采用的元學(xué)習(xí)器是不同的,且可不需要多次迭代,圖2.2為兩層Stacking算法流程圖.圖2.2Stacking原理圖Stacking算法第一階段:選取多個(gè)不同的學(xué)習(xí)器Model1,Model2,···,Mod-eln.如在回歸預(yù)測問題中,可以選擇Lasso回歸作為Modell.然后將數(shù)據(jù)集分為兩部分:TrainingData,TestData.本文采用5折交叉驗(yàn)證劃分TrainingData,即每次實(shí)驗(yàn)時(shí),TrainingData中4/5的數(shù)據(jù)作為訓(xùn)練集進(jìn)行訓(xùn)練,1/5的數(shù)據(jù)作為測試集用作檢驗(yàn)?zāi)P偷恼`差及確定該模型的最佳參數(shù),并輸出測試集的預(yù)測值,我們記為a1.同時(shí)用得到的模型對TestData中的數(shù)據(jù)進(jìn)行預(yù)測,得到一列新的數(shù)據(jù),我們記為b1.這樣5次實(shí)驗(yàn)之后,我們將得到兩個(gè)矩陣(1,2,3,4,5)和(1,2,3,4,5).(1,2,3,4,5)為TrainingData基于5折交叉驗(yàn)證的預(yù)測結(jié)果,(1,2,3,4,5)是TestData的預(yù)測結(jié)果.緊接著將(1,2,3,4,5)合并為一列多行的數(shù)據(jù),記為1.將1,2,3,4,5對應(yīng)的數(shù)據(jù)相加求平均值,結(jié)果記為1.以上即為Stacking算法初級(jí)元學(xué)習(xí)器Moadel1結(jié)合5折交叉驗(yàn)證的實(shí)驗(yàn)流程,所得的1作為第二層學(xué)習(xí)器的15
蘭州大學(xué)碩士學(xué)位論文基于回歸模型集成的精裝房房價(jià)預(yù)測圖3.1MoSold對應(yīng)SalePrice中位數(shù)從圖3.1可以看出:SalePrice的高低并沒有隨著MoSold的增長呈現(xiàn)某種遞增或遞減的趨勢,SalePrice的大小看起來更像與季節(jié)因素相關(guān).因此本章將MoSold轉(zhuǎn)換為無序分類變量.同時(shí)本文也分析了YrSold,MSSubClass與SalePrice的關(guān)系,相應(yīng)的也需要將它們轉(zhuǎn)換成無序分類變量.2.3新變量的構(gòu)造本文用于預(yù)測Ames地區(qū)精裝房房價(jià)的原數(shù)據(jù)集中雖已有79個(gè)自變量,但并沒有描述房子年齡的變量.然而購房者在買房的時(shí)候,房齡,是否是當(dāng)年新建的,也會(huì)在一定程度上影響房子的售價(jià).YrSold:記錄房子銷售時(shí)的年份,YearRemodAdd:記錄房子重建日期(如果沒有重建,就默認(rèn)是新建時(shí)的日期),因此可以構(gòu)建一個(gè)用于描述房子在售出時(shí)年齡變量Age=YrSold–YearRemodAdd.下圖3.2是本文新構(gòu)造變量Age和SalePrice的線性擬合圖.從圖3.2可以看出Age和SalePrice呈負(fù)相關(guān)關(guān)系.經(jīng)過計(jì)算,(,)=0.5097058,說明特征變量Age和SalePrice呈負(fù)相關(guān).這也符合消費(fèi)者的心理,越老的房子可能設(shè)施,建造風(fēng)格沒有新建的好,也就沒有新建的房子售價(jià)更高.相應(yīng)的23
【參考文獻(xiàn)】:
期刊論文
[1]基于多元線性回歸模型及ARIMA模型的北京市房價(jià)預(yù)測[J]. 劉麗澤. 科技經(jīng)濟(jì)導(dǎo)刊. 2018(29)
[2]基于GM(1,1)模型的福州市房價(jià)預(yù)測[J]. 劉瓊芳. 福建金融管理干部學(xué)院學(xué)報(bào). 2018(01)
[3]基于FAHP的加權(quán)組合模型預(yù)測精度檢驗(yàn)與比較[J]. 于紅巖,季申佳. 統(tǒng)計(jì)與決策. 2017(23)
[4]基于集成學(xué)習(xí)的房價(jià)預(yù)測模型[J]. 楊博文,曹布陽. 電腦知識(shí)與技術(shù). 2017(29)
[5]多元線性回歸模型在房價(jià)走勢分析與預(yù)測中的應(yīng)用[J]. 鐘麗燕,高淑蘭. 科技創(chuàng)業(yè)月刊. 2017(09)
[6]組合模型對惡性腫瘤死亡率擬合度評(píng)價(jià)及預(yù)測方法的研究[J]. 曲紅梅,白亞娜,魁發(fā)瑞,胡曉斌,裴鴻波,任曉衛(wèi),申希平. 中華流行病學(xué)雜志. 2017 (01)
[7]基于不同權(quán)重法的回采工作面瓦斯涌出量組合預(yù)測[J]. 劉軍,姜波,劉杰剛,李駿,么玉鵬. 煤炭技術(shù). 2016(07)
[8]基于SVR的上海市商品房價(jià)格預(yù)測[J]. 袁秀芳,鄭伯川,焦偉超. 甘肅科學(xué)學(xué)報(bào). 2016(01)
[9]基于hedonic模型的南昌住宅價(jià)格影響因素分析[J]. 樂建明. 華東交通大學(xué)學(xué)報(bào). 2015(05)
[10]基于遺傳算法和BP神經(jīng)網(wǎng)絡(luò)的房價(jià)預(yù)測分析[J]. 高玉明,張仁津. 計(jì)算機(jī)工程. 2014(04)
碩士論文
[1]基于隨機(jī)森林理論的北京市二手房估價(jià)模型研究[D]. 陳奕佳.北京交通大學(xué) 2015
[2]缺失值處理統(tǒng)計(jì)方法的模擬比較研究及應(yīng)用[D]. 茅群霞.四川大學(xué) 2005
本文編號(hào):3502612
本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/3502612.html
最近更新
教材專著