建筑類網(wǎng)站聚焦爬蟲策略研究

發(fā)布時間：2024-03-03 23:11

　　在工作和研究中持續(xù)更新大量的資料和數(shù)據(jù)是建筑師的職業(yè)基礎(chǔ)。傳統(tǒng)人工搜索互聯(lián)網(wǎng)的方式工作量大且挖掘率低,對網(wǎng)站數(shù)據(jù)源的利用往往不夠充分。國內(nèi)大部分建筑類網(wǎng)站采用HTML文本標(biāo)記數(shù)據(jù),對HTML采用網(wǎng)絡(luò)聚焦爬蟲有助于建筑師高效定位并規(guī)范化儲存專業(yè)數(shù)據(jù)。通過對建筑類主流網(wǎng)站結(jié)構(gòu)特征進(jìn)行分析,總結(jié)建筑學(xué)3種專業(yè)爬蟲需求�；赑ython的語言特征,提出公開數(shù)據(jù)類和建筑檔案類2種爬蟲策略。實(shí)測結(jié)果表明爬蟲策略具有數(shù)據(jù)采集實(shí)時性好、易管理維護(hù)的優(yōu)點(diǎn),同時均運(yùn)行高效且穩(wěn)定,可為建筑專業(yè)大數(shù)據(jù)分析提供更多高質(zhì)量的數(shù)據(jù)源。

【文章頁數(shù)】：6 頁

【部分圖文】：

圖1anjuke.com的部分robots協(xié)議內(nèi)容

尊重robots協(xié)議的科學(xué)爬蟲是實(shí)現(xiàn)用戶與服務(wù)器間良性互動的基礎(chǔ)。robots協(xié)議（robotsexclusionprotocol，網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)）是互聯(lián)網(wǎng)爬蟲的一項公認(rèn)的道德規(guī)范，用于公示允許爬蟲的內(nèi)容。如圖1所示anjuke.com的部分robots協(xié)議內(nèi)容，禁止了具體....

圖2網(wǎng)頁請求數(shù)據(jù)方式

該網(wǎng)站主要的源數(shù)據(jù)基本記錄在HTML文檔中。因此，對HTML數(shù)據(jù)的爬蟲策略主要分為四步：發(fā)出請求、解析文檔、定位數(shù)據(jù)、規(guī)范存儲。首先，通過網(wǎng)站的URL向網(wǎng)站服務(wù)器發(fā)出請求，征求服務(wù)器響應(yīng)。如圖2、3所示，當(dāng)RequestMethod顯示為“GET”時，即為可請求的HTML文檔。....

圖3網(wǎng)頁響應(yīng)狀態(tài)碼

圖2網(wǎng)頁請求數(shù)據(jù)方式解碼所得HTML文檔數(shù)據(jù)可用第三方的bs庫解析為bs4.BeautifulSoup類，即一種容錯能力較強(qiáng)的數(shù)據(jù)。解析后的網(wǎng)頁數(shù)據(jù)仍量大且雜亂，在獲取數(shù)據(jù)時需鎖定所需數(shù)據(jù)。通常先找尋數(shù)據(jù)的上級標(biāo)記（tag），再往下級縮小范圍定位每個數(shù)據(jù)，從而避免數(shù)據(jù)干擾。有....

圖4數(shù)據(jù)爬蟲代碼核心部分

檔案爬蟲策略請求服務(wù)器與解析HTML的方式與數(shù)據(jù)類策略相近。在此基礎(chǔ)上，增加網(wǎng)頁列表的篩選和圖文資料的分渠處理兩步。這些內(nèi)容重復(fù)判斷較多，寫成一條主程序既不簡潔也不便維護(hù)。因此在建立主程序前需要先封裝成幾個小程序。本文以zhulong.com為例，爬取展覽建筑案例，包括文字描述、....

本文編號：3918500

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sgjslw/3918500.html

上一篇：不動產(chǎn)測繪技術(shù)及質(zhì)量控制分析
下一篇：提高鋼纖維混凝土早期強(qiáng)度的幾點(diǎn)體會

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

建筑類網(wǎng)站聚焦爬蟲策略研究