房產(chǎn)數(shù)據(jù)向量對齊的算法研究

發(fā)布時間：2021-08-14 01:02

　　四川省2018年發(fā)布了1億元的房產(chǎn)數(shù)據(jù)調(diào)查合同,采集成都、眉山等4個城市的房產(chǎn)數(shù)據(jù),合同接受單位的數(shù)據(jù)采集完全靠人工線下實現(xiàn),然而房產(chǎn)市場的數(shù)據(jù)來源眾多,房屋數(shù)據(jù)的整合具有數(shù)據(jù)量大、數(shù)據(jù)多源異構(gòu)、數(shù)據(jù)缺失等難點,為我國房產(chǎn)稅征收的房屋數(shù)據(jù)預調(diào)研的造成了阻礙。為提高采集數(shù)據(jù)的效率,受房產(chǎn)數(shù)據(jù)調(diào)查合同接收方委托,本文提出了一種基于粒子群優(yōu)化的房產(chǎn)數(shù)據(jù)向量對齊算法,來對不同中介二手房房源進行實體匹配,主要工作如下:1.編寫Scrapy爬蟲獲取初始二手房房源數(shù)據(jù)。我們將爬取的二手房數(shù)據(jù)進行數(shù)據(jù)預處理,包括對數(shù)據(jù)不完整的數(shù)據(jù)進行補全、對兩個中介二手房源數(shù)據(jù)進行歸一化處理。2.提出了房產(chǎn)數(shù)據(jù)的歸一化的帶權(quán)值向量模型。首先,根據(jù)房產(chǎn)屬性類型的多樣性,分別對數(shù)值、文本、圖片三種類型數(shù)據(jù)進行數(shù)值化建模為[0,1]的數(shù)據(jù)向量;然后,再結(jié)合房地產(chǎn)數(shù)據(jù)向量不同屬性對房源相似性判斷的影響不同,形成了帶權(quán)值的房產(chǎn)數(shù)據(jù)向量模型。3.提出了基于粒子群優(yōu)化的房產(chǎn)數(shù)據(jù)向量對齊算法。把不同房產(chǎn)屬性的權(quán)值組成的向量看作是一個粒子個體,利用自適應權(quán)重改進的粒子群算法,對不同屬性相似度權(quán)值進行優(yōu)化處理,最終得到了不同屬性相似度權(quán)...

【文章來源】：成都理工大學四川省

【文章頁數(shù)】：75 頁

【學位級別】：碩士

【部分圖文】：

安居客二手房信息

二手房,房源,信息格式,中介

圖 4-2 鏈家二手房信息從上圖可以看出，兩個中介房源的信息格式有所不同，需對其進行歸一化處處理方式，我們會在下一節(jié)的實驗數(shù)據(jù)部分說明。本文實驗數(shù)據(jù)是從鏈家和安居客上分別爬取二手房數(shù)據(jù)的小區(qū)名、標題信息、面積、朝向、戶型圖等信息。之所以選取鏈家和安居客上的數(shù)據(jù)，是因為

適應度,迭代次數(shù),平均值,全局最優(yōu)值

通過使迭代次數(shù) Step 取不同值，觀察適應度平均值、全局最優(yōu)值和 F1 值的變化，其結(jié)果如圖4-3、圖 4-4 所示。通過把當前迭代次數(shù)產(chǎn)生的粒子群代入到適應度函數(shù)計算當前迭代次數(shù)粒子群適應度的平均值和粒子群的適應度歷史全局最優(yōu)值。隨著迭代次數(shù)的增加，適應度平均值、全局最優(yōu)值變化如圖 4-3 所示。

本文編號：3341446

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/jingjilunwen/hongguanjingjilunwen/3341446.html

上一篇：南京市養(yǎng)老地產(chǎn)的需求分析與開發(fā)優(yōu)化研究
下一篇：中國玉米期貨市場微觀結(jié)構(gòu)與信息溢出效應研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

房產(chǎn)數(shù)據(jù)向量對齊的算法研究