基于Stacking理論的北京二手房交易價格預(yù)測研究
發(fā)布時間:2021-05-21 18:21
隨著我國經(jīng)濟快速發(fā)展和城市化的不斷推進,我國房地產(chǎn)市場一片欣欣向榮,人們對房地產(chǎn)信息的關(guān)注度也越來越高了,然而在城市可供開發(fā)的土地越來越少,二手房的交易市場已經(jīng)逐漸成了房地產(chǎn)交易中的重要角色,快速精確的對二手房估價的需求也變得越來越大,快速對房價做出預(yù)估,可以讓政府通過制定精準的調(diào)控政策并監(jiān)督中介市場,可以讓中介緊跟房地產(chǎn)行業(yè)的發(fā)展趨勢,規(guī)范化自身服務(wù),可以讓購房者根據(jù)預(yù)估結(jié)果作為參考,避免中介欺詐買家等問題。我國在房地產(chǎn)估價采用的方法一般包括市場法、收益法、成本法,其中市場法應(yīng)用最為廣泛。然而運用市場法和評估者的經(jīng)驗有很大關(guān)系,且受主觀評估者主觀因素影響,近年來,國內(nèi)學者為了改善市場法的不足采用統(tǒng)計建模的方式進行房價預(yù)測,本文通過引入Stacking算法建立模型對二手房房價進行評估。本文通過網(wǎng)絡(luò)爬蟲抓取北京市鏈家網(wǎng)二手房網(wǎng)站2萬余條二手房信息,其特征包括二手房的房屋戶型、套內(nèi)面積等33個特征,經(jīng)過數(shù)據(jù)探索、數(shù)據(jù)清洗、數(shù)據(jù)變換,數(shù)據(jù)降維等過程建立了較優(yōu)的指標體系,并構(gòu)建了基于Stacking理論的北京二手房交易價格預(yù)測的模型,通過網(wǎng)格搜索調(diào)整參數(shù)對模型進行優(yōu)化,最后采用五折交叉驗證的方法,將SVR算法、GBDT回歸算法、隨機森林回歸算法、多層感知機回歸算法以及將將這四種算法融合的Stacking算法進行對比研究,最后通過實證得出Stacking算法比單個算法具有預(yù)測模型穩(wěn)定性好、預(yù)測誤差小的等優(yōu)點,值得在房地產(chǎn)價格預(yù)估行業(yè)中推廣和應(yīng)用。
【學位授予單位】:遼寧科技大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:F299.23;TP18
本文編號:2732826
【學位授予單位】:遼寧科技大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:F299.23;TP18
文章目錄
中文摘要
ABSTRACT
1.緒論
1.1 選題背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 房地產(chǎn)評估的發(fā)展概述
1.2.2 Stacking算法的應(yīng)用現(xiàn)狀
1.3 本文工作
1.4 論文框架
2.相關(guān)理論介紹
2.1 機器學習
2.2 數(shù)據(jù)預(yù)處理
2.2.1 缺失值處理
2.2.2 異常值處理
2.2.3 數(shù)據(jù)歸一化處理
2.2.4 特征選擇
2.2.5 特征降維
2.3 集成學習
2.3.1 Boosting算法
2.3.2 Bagging算法
2.3.3 Stacking框架
2.4 本章小結(jié)
3.北京二手房房價預(yù)測模型構(gòu)建
3.1 基學習器的選取和介紹
3.1.1 GBDT算法
3.1.2 隨機森林算法
3.1.3 SVR算法
3.1.4 人工神經(jīng)網(wǎng)絡(luò)算法
3.2 基于Stacking的二手房房價預(yù)測模型
3.2.1 Stacking方法簡介
3.2.2 Stacking模型融合
3.3 本章小結(jié)
4.構(gòu)建指標體系
4.1 數(shù)據(jù)的背景
4.2 數(shù)據(jù)的爬取
4.2.1 網(wǎng)絡(luò)爬蟲
4.2.2 爬蟲框架Scrapy
4.2.3 鏈家數(shù)據(jù)的獲取
4.3 數(shù)據(jù)探索與預(yù)處理
4.3.1 數(shù)據(jù)的基本統(tǒng)計
4.3.2 缺失值處理
4.3.3 異常值處理
4.3.4 數(shù)據(jù)分析和數(shù)據(jù)編碼
4.4 數(shù)據(jù)歸一化
4.5 特征選擇和降維處理
4.5.1 特征選擇
4.5.2 降維處理
4.6 本章小結(jié)
5.實驗分析
5.1 模型檢驗方法
5.1.1 交叉驗證
5.1.2 模型評價指標
5.2 機器學習模型的參數(shù)優(yōu)化
5.2.1 機器學習模型的參數(shù)
5.2.2 常用的模型調(diào)參方法
5.3 仿真實驗
5.3.1 支持向量機回歸(SVR)
5.3.2 梯度提升決策樹(GDBT)
5.3.3 隨機森林(Random forest)
5.3.4 神經(jīng)網(wǎng)絡(luò)(MLPRegressor)
5.3.5 模型融合(Stacking)
5.4 實驗結(jié)果分析
5.4.1 不同模型結(jié)果比較
5.4.2 Stacking算法預(yù)測結(jié)果分析
5.5 模型的穩(wěn)定性
5.6 本章小結(jié)
6.結(jié)論與展望
6.1 全文總結(jié)
6.2 策略建議
6.3 研究不足及展望
參考文獻
致謝
作者簡介
【參考文獻】
相關(guān)期刊論文 前2條
1 韋艷艷;李陶深;劉美玲;;融合DECORATE的異構(gòu)分類器集成算法[J];計算機應(yīng)用研究;2012年11期
2 胡六星;吳結(jié)飛;;基于灰色系統(tǒng)理論的兩種房價預(yù)測方法比較[J];統(tǒng)計與決策;2010年07期
相關(guān)碩士學位論文 前5條
1 時文靜;基于Lasso與數(shù)據(jù)挖掘方法的影響北京二手房價格的因素分析[D];北京工業(yè)大學;2017年
2 王燦強;基于異常值處理的隨機森林和kNN模型在EEG數(shù)據(jù)中的應(yīng)用[D];蘭州大學;2017年
3 陳文;中文短文本跨領(lǐng)域情感分類算法研究[D];重慶大學;2016年
4 馬忠臣;集成剪枝評估準則及PS-ELMs模型在時間序列預(yù)測中的應(yīng)用研究[D];南京航空航天大學;2014年
5 岳學杰;房地產(chǎn)估價理論實踐研究[D];鄭州大學;2007年
本文編號:2732826
本文鏈接:http://sikaile.net/jingjilunwen/hongguanjingjilunwen/2732826.html
最近更新
教材專著