房產(chǎn)數(shù)據(jù)向量對齊的算法研究
發(fā)布時間:2021-08-14 01:02
四川省2018年發(fā)布了1億元的房產(chǎn)數(shù)據(jù)調(diào)查合同,采集成都、眉山等4個城市的房產(chǎn)數(shù)據(jù),合同接受單位的數(shù)據(jù)采集完全靠人工線下實現(xiàn),然而房產(chǎn)市場的數(shù)據(jù)來源眾多,房屋數(shù)據(jù)的整合具有數(shù)據(jù)量大、數(shù)據(jù)多源異構(gòu)、數(shù)據(jù)缺失等難點,為我國房產(chǎn)稅征收的房屋數(shù)據(jù)預調(diào)研的造成了阻礙。為提高采集數(shù)據(jù)的效率,受房產(chǎn)數(shù)據(jù)調(diào)查合同接收方委托,本文提出了一種基于粒子群優(yōu)化的房產(chǎn)數(shù)據(jù)向量對齊算法,來對不同中介二手房房源進行實體匹配,主要工作如下:1.編寫Scrapy爬蟲獲取初始二手房房源數(shù)據(jù)。我們將爬取的二手房數(shù)據(jù)進行數(shù)據(jù)預處理,包括對數(shù)據(jù)不完整的數(shù)據(jù)進行補全、對兩個中介二手房源數(shù)據(jù)進行歸一化處理。2.提出了房產(chǎn)數(shù)據(jù)的歸一化的帶權(quán)值向量模型。首先,根據(jù)房產(chǎn)屬性類型的多樣性,分別對數(shù)值、文本、圖片三種類型數(shù)據(jù)進行數(shù)值化建模為[0,1]的數(shù)據(jù)向量;然后,再結(jié)合房地產(chǎn)數(shù)據(jù)向量不同屬性對房源相似性判斷的影響不同,形成了帶權(quán)值的房產(chǎn)數(shù)據(jù)向量模型。3.提出了基于粒子群優(yōu)化的房產(chǎn)數(shù)據(jù)向量對齊算法。把不同房產(chǎn)屬性的權(quán)值組成的向量看作是一個粒子個體,利用自適應權(quán)重改進的粒子群算法,對不同屬性相似度權(quán)值進行優(yōu)化處理,最終得到了不同屬性相似度權(quán)...
【文章來源】:成都理工大學四川省
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【部分圖文】:
安居客二手房信息
圖 4-2 鏈家二手房信息從上圖可以看出,兩個中介房源的信息格式有所不同,需對其進行歸一化處處理方式,我們會在下一節(jié)的實驗數(shù)據(jù)部分說明。本文實驗數(shù)據(jù)是從鏈家和安居客上分別爬取二手房數(shù)據(jù)的小區(qū)名、標題信息、面積、朝向、戶型圖等信息。之所以選取鏈家和安居客上的數(shù)據(jù),是因為
通過使迭代次數(shù) Step 取不同值,觀察適應度平均值、全局最優(yōu)值和 F1 值的變化,其結(jié)果如圖4-3、圖 4-4 所示。通過把當前迭代次數(shù)產(chǎn)生的粒子群代入到適應度函數(shù)計算當前迭代次數(shù)粒子群適應度的平均值和粒子群的適應度歷史全局最優(yōu)值。隨著迭代次數(shù)的增加,適應度平均值、全局最優(yōu)值變化如圖 4-3 所示。
本文編號:3341446
【文章來源】:成都理工大學四川省
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【部分圖文】:
安居客二手房信息
圖 4-2 鏈家二手房信息從上圖可以看出,兩個中介房源的信息格式有所不同,需對其進行歸一化處處理方式,我們會在下一節(jié)的實驗數(shù)據(jù)部分說明。本文實驗數(shù)據(jù)是從鏈家和安居客上分別爬取二手房數(shù)據(jù)的小區(qū)名、標題信息、面積、朝向、戶型圖等信息。之所以選取鏈家和安居客上的數(shù)據(jù),是因為
通過使迭代次數(shù) Step 取不同值,觀察適應度平均值、全局最優(yōu)值和 F1 值的變化,其結(jié)果如圖4-3、圖 4-4 所示。通過把當前迭代次數(shù)產(chǎn)生的粒子群代入到適應度函數(shù)計算當前迭代次數(shù)粒子群適應度的平均值和粒子群的適應度歷史全局最優(yōu)值。隨著迭代次數(shù)的增加,適應度平均值、全局最優(yōu)值變化如圖 4-3 所示。
本文編號:3341446
本文鏈接:http://sikaile.net/jingjilunwen/hongguanjingjilunwen/3341446.html
最近更新
教材專著