天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

房產(chǎn)數(shù)據(jù)向量對齊的算法研究

發(fā)布時間:2021-08-14 01:02
  四川省2018年發(fā)布了1億元的房產(chǎn)數(shù)據(jù)調(diào)查合同,采集成都、眉山等4個城市的房產(chǎn)數(shù)據(jù),合同接受單位的數(shù)據(jù)采集完全靠人工線下實現(xiàn),然而房產(chǎn)市場的數(shù)據(jù)來源眾多,房屋數(shù)據(jù)的整合具有數(shù)據(jù)量大、數(shù)據(jù)多源異構(gòu)、數(shù)據(jù)缺失等難點,為我國房產(chǎn)稅征收的房屋數(shù)據(jù)預調(diào)研的造成了阻礙。為提高采集數(shù)據(jù)的效率,受房產(chǎn)數(shù)據(jù)調(diào)查合同接收方委托,本文提出了一種基于粒子群優(yōu)化的房產(chǎn)數(shù)據(jù)向量對齊算法,來對不同中介二手房房源進行實體匹配,主要工作如下:1.編寫Scrapy爬蟲獲取初始二手房房源數(shù)據(jù)。我們將爬取的二手房數(shù)據(jù)進行數(shù)據(jù)預處理,包括對數(shù)據(jù)不完整的數(shù)據(jù)進行補全、對兩個中介二手房源數(shù)據(jù)進行歸一化處理。2.提出了房產(chǎn)數(shù)據(jù)的歸一化的帶權(quán)值向量模型。首先,根據(jù)房產(chǎn)屬性類型的多樣性,分別對數(shù)值、文本、圖片三種類型數(shù)據(jù)進行數(shù)值化建模為[0,1]的數(shù)據(jù)向量;然后,再結(jié)合房地產(chǎn)數(shù)據(jù)向量不同屬性對房源相似性判斷的影響不同,形成了帶權(quán)值的房產(chǎn)數(shù)據(jù)向量模型。3.提出了基于粒子群優(yōu)化的房產(chǎn)數(shù)據(jù)向量對齊算法。把不同房產(chǎn)屬性的權(quán)值組成的向量看作是一個粒子個體,利用自適應權(quán)重改進的粒子群算法,對不同屬性相似度權(quán)值進行優(yōu)化處理,最終得到了不同屬性相似度權(quán)... 

【文章來源】:成都理工大學四川省

【文章頁數(shù)】:75 頁

【學位級別】:碩士

【部分圖文】:

房產(chǎn)數(shù)據(jù)向量對齊的算法研究


安居客二手房信息

二手房,房源,信息格式,中介


圖 4-2 鏈家二手房信息從上圖可以看出,兩個中介房源的信息格式有所不同,需對其進行歸一化處處理方式,我們會在下一節(jié)的實驗數(shù)據(jù)部分說明。本文實驗數(shù)據(jù)是從鏈家和安居客上分別爬取二手房數(shù)據(jù)的小區(qū)名、標題信息、面積、朝向、戶型圖等信息。之所以選取鏈家和安居客上的數(shù)據(jù),是因為

適應度,迭代次數(shù),平均值,全局最優(yōu)值


通過使迭代次數(shù) Step 取不同值,觀察適應度平均值、全局最優(yōu)值和 F1 值的變化,其結(jié)果如圖4-3、圖 4-4 所示。通過把當前迭代次數(shù)產(chǎn)生的粒子群代入到適應度函數(shù)計算當前迭代次數(shù)粒子群適應度的平均值和粒子群的適應度歷史全局最優(yōu)值。隨著迭代次數(shù)的增加,適應度平均值、全局最優(yōu)值變化如圖 4-3 所示。


本文編號:3341446

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/hongguanjingjilunwen/3341446.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶40501***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com