基于集成學習的二手房產(chǎn)數(shù)據(jù)分類研究
發(fā)布時間:2021-04-18 13:05
隨著我國經(jīng)濟的發(fā)展,房產(chǎn)在人們的生活中的地位越來越重要。經(jīng)過了十幾年房價的迅速增長,如今房地產(chǎn)市場的熱度雖然不比之前,但是仍然保持著很高的關注度,尤其是二手房市場成為了關注的焦點。本文通過集成學習方法對二手房產(chǎn)數(shù)據(jù)進行了研究與分析,構(gòu)建出了準確有效的二手房產(chǎn)優(yōu)質(zhì)房分類模型,為普通居民在購房時、房地產(chǎn)商開發(fā)房地產(chǎn)時以及二手房中介在推廣房源時都能提供科學的評估依據(jù)。本文先對二手房數(shù)據(jù)運用多種方法進行預處理,包括重復數(shù)據(jù)清洗、缺失值填充、數(shù)據(jù)標準化以及數(shù)據(jù)降維,使之能夠在數(shù)據(jù)分析中直接使用。然后,本文基于集成學習,設計并構(gòu)建了三種二手房產(chǎn)優(yōu)質(zhì)房的分類模型。第一,從決策樹入手,從而構(gòu)建了決策樹集成的隨機森林模型;第二,通過AdaBoost方法,采用多層感知器神經(jīng)網(wǎng)絡構(gòu)建了神經(jīng)網(wǎng)絡集成模型;第三,采用最新提出的一種基于深度模型的深度森林算法,設計并改進了深度森林的實現(xiàn)方法,構(gòu)建了基于深度森林的二手房產(chǎn)優(yōu)質(zhì)房模型。在構(gòu)建出三種二手房產(chǎn)優(yōu)質(zhì)房模型之后,本文通過對比實驗,對這三種模型進行了分析與對比。最后,本文通過二手房產(chǎn)數(shù)據(jù)對三種模型分別做了優(yōu)質(zhì)房的分類實驗,并運用多種評價指標,對分類結(jié)果作了分析。...
【文章來源】:西南交通大學四川省 211工程院校 教育部直屬院校
【文章頁數(shù)】:70 頁
【學位級別】:碩士
【部分圖文】:
部分原始房產(chǎn)數(shù)據(jù)
圖 3-2 滑動窗口示意圖近鄰排序方法對數(shù)據(jù)進行重復檢測,包含以下三步:構(gòu)建排序關鍵字:通過抽取數(shù)據(jù)集中某些屬性值來組合生成關鍵排序:按照步驟(1)生成的關鍵字把整個數(shù)據(jù)集進行排序生成索合并:在已排序的數(shù)據(jù)集上,按照索引開始移動設定的滑動窗口 含個 m 記錄,滑動窗口內(nèi)每進來一條數(shù)據(jù),則與之前滑動窗口內(nèi)似性比對,如果檢測到重復數(shù)據(jù),就把該條數(shù)據(jù)進行標記。然后,把下一條記錄滑入窗口 W(i+1),繼續(xù)上述步驟,直到所有數(shù)據(jù)執(zhí)采用 Python3.5 對 SNM 方法進行編碼重寫,利用 python 處理數(shù)據(jù)達到重復數(shù)據(jù)檢測的目的,同時也能節(jié)省時間成本。其中,對二手strictName”、“EstateName”、“Floor”、“Square”、“Price”這 5 列進向量(其中的文本字符采用 Python 自帶庫的分詞工具類)。表 3-2 基本近鄰排序算法入:進行排序去重的數(shù)據(jù)集 T出:去重合并后的數(shù)據(jù)集 T’
if(n<|W|):新進入滑動窗口的數(shù)據(jù)與第 n-1 個數(shù)據(jù)比較;if(該記錄為相似重復記錄):對相似重復的記錄標記;執(zhí)行 n+1;向下滑動窗口到 W(i);完成所有記錄的相似去重。本節(jié)選取第一個數(shù)據(jù)集的 6467 條二手房產(chǎn)數(shù)據(jù)進行基本近鄰排序算法的實驗結(jié)果展示,對滑動窗口 W 的值設置為 100,將相似度比對的結(jié)果進行存儲,把相似重復數(shù)據(jù)標為“1”。該 6413 條輸入的數(shù)據(jù)經(jīng)過基本近鄰排序算法,去除掉了 58 條,剩余6409 條。我們選取部分實驗結(jié)果進行展示,如圖 3-3 所示。在圖 3-3 中,我們可以清楚地看到,圖中的第 2 條和第 5 條數(shù)據(jù)(圖 3-3 中深色背景標出的兩行)為比較明顯的重復數(shù)據(jù),只有兩列屬性稍有差距(圖 3-3 中黃色背景標出的部分),在去重之后已經(jīng)將第 5 條數(shù)據(jù)標記為“1”(圖 3-3 中紅色背景標出的部分)。
【參考文獻】:
期刊論文
[1]基于SVAR模型的二手房與新房價格互動關系再研究[J]. 湯玉,周文平,高明月,劉永升. 中國市場. 2017(26)
[2]大數(shù)據(jù)下基于房屋交易網(wǎng)站的數(shù)據(jù)獲取的二手房價格走勢分析——以上海為例[J]. 張漢中,張倩,董起航,周小平,王斌. 科學技術(shù)創(chuàng)新. 2017(21)
[3]重復特征“R-H”交易法——二手房價格指數(shù)編制方法研究[J]. 董倩. 統(tǒng)計研究. 2017(03)
[4]基于集成學習的標題分類算法研究[J]. 高元,劉柏嵩. 計算機應用研究. 2017(04)
[5]一種基于Boosting的集成學習算法在不均衡數(shù)據(jù)中的分類[J]. 李詒靖,郭海湘,李亞楠,劉曉. 系統(tǒng)工程理論與實踐. 2016(01)
[6]不平衡數(shù)據(jù)加權(quán)集成學習算法[J]. 徐麗麗,閆德勤. 微型機與應用. 2015(23)
[7]基于集成學習的中文文本欺騙檢測研究[J]. 張虎,譚紅葉,錢宇華,李茹,陳千. 計算機研究與發(fā)展. 2015(05)
[8]二手房組合交易匹配決策方法[J]. 梁海明,姜艷萍. 系統(tǒng)工程理論與實踐. 2015(02)
[9]一種基于動態(tài)集成學習的機場噪聲預測模型[J]. 徐濤,楊奇川,呂宗磊. 電子與信息學報. 2014(07)
[10]多模式集成的RBF神經(jīng)網(wǎng)絡天氣預報[J]. 熊聰聰,潘璇,趙奇,吳振玲. 天津科技大學學報. 2014(01)
碩士論文
[1]一線城市二手房市場發(fā)展現(xiàn)狀及發(fā)展趨勢研究[D]. 吳晗.廣西大學 2016
[2]基于支持向量回歸的二手房批量評估模型應用研究[D]. 宋祖杰.重慶大學 2016
本文編號:3145524
【文章來源】:西南交通大學四川省 211工程院校 教育部直屬院校
【文章頁數(shù)】:70 頁
【學位級別】:碩士
【部分圖文】:
部分原始房產(chǎn)數(shù)據(jù)
圖 3-2 滑動窗口示意圖近鄰排序方法對數(shù)據(jù)進行重復檢測,包含以下三步:構(gòu)建排序關鍵字:通過抽取數(shù)據(jù)集中某些屬性值來組合生成關鍵排序:按照步驟(1)生成的關鍵字把整個數(shù)據(jù)集進行排序生成索合并:在已排序的數(shù)據(jù)集上,按照索引開始移動設定的滑動窗口 含個 m 記錄,滑動窗口內(nèi)每進來一條數(shù)據(jù),則與之前滑動窗口內(nèi)似性比對,如果檢測到重復數(shù)據(jù),就把該條數(shù)據(jù)進行標記。然后,把下一條記錄滑入窗口 W(i+1),繼續(xù)上述步驟,直到所有數(shù)據(jù)執(zhí)采用 Python3.5 對 SNM 方法進行編碼重寫,利用 python 處理數(shù)據(jù)達到重復數(shù)據(jù)檢測的目的,同時也能節(jié)省時間成本。其中,對二手strictName”、“EstateName”、“Floor”、“Square”、“Price”這 5 列進向量(其中的文本字符采用 Python 自帶庫的分詞工具類)。表 3-2 基本近鄰排序算法入:進行排序去重的數(shù)據(jù)集 T出:去重合并后的數(shù)據(jù)集 T’
if(n<|W|):新進入滑動窗口的數(shù)據(jù)與第 n-1 個數(shù)據(jù)比較;if(該記錄為相似重復記錄):對相似重復的記錄標記;執(zhí)行 n+1;向下滑動窗口到 W(i);完成所有記錄的相似去重。本節(jié)選取第一個數(shù)據(jù)集的 6467 條二手房產(chǎn)數(shù)據(jù)進行基本近鄰排序算法的實驗結(jié)果展示,對滑動窗口 W 的值設置為 100,將相似度比對的結(jié)果進行存儲,把相似重復數(shù)據(jù)標為“1”。該 6413 條輸入的數(shù)據(jù)經(jīng)過基本近鄰排序算法,去除掉了 58 條,剩余6409 條。我們選取部分實驗結(jié)果進行展示,如圖 3-3 所示。在圖 3-3 中,我們可以清楚地看到,圖中的第 2 條和第 5 條數(shù)據(jù)(圖 3-3 中深色背景標出的兩行)為比較明顯的重復數(shù)據(jù),只有兩列屬性稍有差距(圖 3-3 中黃色背景標出的部分),在去重之后已經(jīng)將第 5 條數(shù)據(jù)標記為“1”(圖 3-3 中紅色背景標出的部分)。
【參考文獻】:
期刊論文
[1]基于SVAR模型的二手房與新房價格互動關系再研究[J]. 湯玉,周文平,高明月,劉永升. 中國市場. 2017(26)
[2]大數(shù)據(jù)下基于房屋交易網(wǎng)站的數(shù)據(jù)獲取的二手房價格走勢分析——以上海為例[J]. 張漢中,張倩,董起航,周小平,王斌. 科學技術(shù)創(chuàng)新. 2017(21)
[3]重復特征“R-H”交易法——二手房價格指數(shù)編制方法研究[J]. 董倩. 統(tǒng)計研究. 2017(03)
[4]基于集成學習的標題分類算法研究[J]. 高元,劉柏嵩. 計算機應用研究. 2017(04)
[5]一種基于Boosting的集成學習算法在不均衡數(shù)據(jù)中的分類[J]. 李詒靖,郭海湘,李亞楠,劉曉. 系統(tǒng)工程理論與實踐. 2016(01)
[6]不平衡數(shù)據(jù)加權(quán)集成學習算法[J]. 徐麗麗,閆德勤. 微型機與應用. 2015(23)
[7]基于集成學習的中文文本欺騙檢測研究[J]. 張虎,譚紅葉,錢宇華,李茹,陳千. 計算機研究與發(fā)展. 2015(05)
[8]二手房組合交易匹配決策方法[J]. 梁海明,姜艷萍. 系統(tǒng)工程理論與實踐. 2015(02)
[9]一種基于動態(tài)集成學習的機場噪聲預測模型[J]. 徐濤,楊奇川,呂宗磊. 電子與信息學報. 2014(07)
[10]多模式集成的RBF神經(jīng)網(wǎng)絡天氣預報[J]. 熊聰聰,潘璇,趙奇,吳振玲. 天津科技大學學報. 2014(01)
碩士論文
[1]一線城市二手房市場發(fā)展現(xiàn)狀及發(fā)展趨勢研究[D]. 吳晗.廣西大學 2016
[2]基于支持向量回歸的二手房批量評估模型應用研究[D]. 宋祖杰.重慶大學 2016
本文編號:3145524
本文鏈接:http://sikaile.net/jingjilunwen/fangdichanjingjilunwen/3145524.html
最近更新
教材專著