天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于LRF方法的在線短租房源價(jià)格特征選擇研究

發(fā)布時(shí)間:2021-07-02 11:17
  為解決單一特征選擇方法的局限性問題,提出Lasso-RF(LRF)混合特征選擇方法,并應(yīng)用于在線短租房源價(jià)格問題研究;贏irbnb房源數(shù)據(jù),實(shí)驗(yàn)首先通過Lasso回歸進(jìn)行特征選擇,處理特征之間的多重共線性;然后采用隨機(jī)森林算法精選剩余特征,最終得到35個(gè)重要特征,并帶入4個(gè)預(yù)測(cè)模型中進(jìn)行比較。結(jié)果表明,特征之間的多重共線性會(huì)影響隨機(jī)森林算法對(duì)特征重要度的度量;LRF-RF預(yù)測(cè)模型與RF-RF預(yù)測(cè)模型相比,評(píng)價(jià)指標(biāo)R2和MSE分別提高了0.005、0.006,同時(shí)運(yùn)行時(shí)間縮短0.267秒,表明LRF混合特征選擇方法優(yōu)于單一的RF特征選擇方法。 

【文章來源】:軟件導(dǎo)刊. 2020,19(08)

【文章頁數(shù)】:5 頁

【部分圖文】:

基于LRF方法的在線短租房源價(jià)格特征選擇研究


技術(shù)流程

過程圖,數(shù)據(jù)預(yù)處理,房源,過程


本文采用的是來源于Kaggle網(wǎng)的Airbnb房源數(shù)據(jù),原始數(shù)據(jù)集有3 818條房源記錄,包含房源價(jià)格、房東屬性、房源設(shè)施、房源社區(qū)、房源價(jià)格和在線評(píng)論等信息。因?yàn)樵摂?shù)據(jù)集中存在冗余信息、缺失值、異常值、文本信息等,所以在數(shù)據(jù)應(yīng)用于特征選擇模型之前,需進(jìn)行數(shù)據(jù)預(yù)處理工作。預(yù)處理主要包括數(shù)據(jù)清洗、特征抽取、數(shù)據(jù)離散化、獨(dú)熱編碼和數(shù)據(jù)標(biāo)準(zhǔn)化5個(gè)部分,如圖2所示。預(yù)處理之后,特征選擇模型的輸入數(shù)據(jù)包含3 280條記錄,127個(gè)特征。本文實(shí)驗(yàn)工作均在Python3上實(shí)現(xiàn)。(1)數(shù)據(jù)清洗。原始數(shù)據(jù)集中的某些數(shù)據(jù)需去除符號(hào),例如“房東回應(yīng)時(shí)間”數(shù)據(jù)中含有“%”,需要去除百分號(hào)并轉(zhuǎn)化為數(shù)字類型;某些數(shù)據(jù)含有缺失值,需要進(jìn)行刪除、均值填充和眾數(shù)填充。對(duì)于數(shù)據(jù)中的異常值,首先利用numpy庫中的log函數(shù)對(duì)房源價(jià)格進(jìn)行處理,然后應(yīng)用拉依達(dá)準(zhǔn)則[16]進(jìn)行異常值檢測(cè)。

趨勢(shì)圖,均方誤差,趨勢(shì),測(cè)試集


本實(shí)驗(yàn)將Airbnb房源輸入數(shù)據(jù)劃分為訓(xùn)練集(85%)和測(cè)試集(15%),訓(xùn)練集用于模型訓(xùn)練數(shù)據(jù),測(cè)試集用于預(yù)測(cè)和評(píng)價(jià)。對(duì)于隨機(jī)森林模型,需確定決策樹數(shù)量(ntree)和節(jié)點(diǎn)這兩個(gè)重要參數(shù)分裂時(shí)的特征數(shù)量(mtry),其中mtry一般取1/3M(M為全部特征個(gè)數(shù)),ntree通過10折交叉驗(yàn)證調(diào)試確定。隨機(jī)森林模型運(yùn)行均方誤差隨ntree變化趨勢(shì)如圖3所示,當(dāng)ntree=1 200時(shí),均方誤差趨于穩(wěn)定。2.3 實(shí)驗(yàn)結(jié)果分析

【參考文獻(xiàn)】:
期刊論文
[1]Airbnb房源價(jià)格影響因素研究——基于中國(guó)36個(gè)城市的數(shù)據(jù)[J]. 吳曉雋,裘佳璐.  旅游學(xué)刊. 2019(04)
[2]基于獨(dú)熱編碼和卷積神經(jīng)網(wǎng)絡(luò)的異常檢測(cè)[J]. 梁杰,陳嘉豪,張雪芹,周悅,林家駿.  清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(07)
[3]AUCRF算法在信用風(fēng)險(xiǎn)評(píng)價(jià)中的特征選擇研究[J]. 劉忻梅,唐俊,段翀.  計(jì)算機(jī)應(yīng)用與軟件. 2018(04)
[4]共享經(jīng)濟(jì)背景下商業(yè)模式的變革與創(chuàng)新——基于三大典型案例的啟示[J]. 王曉雪.  商業(yè)經(jīng)濟(jì)研究. 2018(03)
[5]基于Lasso稀疏學(xué)習(xí)的徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型[J]. 崔晨,鄧趙紅,王士同.  計(jì)算機(jī)工程. 2019(02)
[6]拉依達(dá)準(zhǔn)則在處理區(qū)域水文數(shù)據(jù)異常值中的應(yīng)用[J]. 侍建國(guó),張亦飛.  海河水利. 2016(05)
[7]隨機(jī)森林方法研究綜述[J]. 方匡南,吳見彬,朱建平,謝邦昌.  統(tǒng)計(jì)與信息論壇. 2011(03)
[8]基于Lasso改進(jìn)的一般因果關(guān)系檢驗(yàn)[J]. 邱南南.  統(tǒng)計(jì)與信息論壇. 2008(02)
[9]對(duì)擬合優(yōu)度R2的影響因素分析與評(píng)價(jià)[J]. 趙松山.  東北財(cái)經(jīng)大學(xué)學(xué)報(bào). 2003(03)
[10]Boosting和Bagging綜述[J]. 沈?qū)W華,周志華,吳建鑫,陳兆乾.  計(jì)算機(jī)工程與應(yīng)用. 2000(12)

碩士論文
[1]網(wǎng)紅微博中商品鏈接點(diǎn)擊量影響因素研究[D]. 富越.武漢大學(xué) 2017



本文編號(hào):3260366

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjifazhanlunwen/3260366.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ab391***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com