天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 施工技術(shù)論文 >

建筑類網(wǎng)站聚焦爬蟲策略研究

發(fā)布時間:2024-03-03 23:11
  在工作和研究中持續(xù)更新大量的資料和數(shù)據(jù)是建筑師的職業(yè)基礎(chǔ)。傳統(tǒng)人工搜索互聯(lián)網(wǎng)的方式工作量大且挖掘率低,對網(wǎng)站數(shù)據(jù)源的利用往往不夠充分。國內(nèi)大部分建筑類網(wǎng)站采用HTML文本標(biāo)記數(shù)據(jù),對HTML采用網(wǎng)絡(luò)聚焦爬蟲有助于建筑師高效定位并規(guī)范化儲存專業(yè)數(shù)據(jù)。通過對建筑類主流網(wǎng)站結(jié)構(gòu)特征進(jìn)行分析,總結(jié)建筑學(xué)3種專業(yè)爬蟲需求;赑ython的語言特征,提出公開數(shù)據(jù)類和建筑檔案類2種爬蟲策略。實(shí)測結(jié)果表明爬蟲策略具有數(shù)據(jù)采集實(shí)時性好、易管理維護(hù)的優(yōu)點(diǎn),同時均運(yùn)行高效且穩(wěn)定,可為建筑專業(yè)大數(shù)據(jù)分析提供更多高質(zhì)量的數(shù)據(jù)源。

【文章頁數(shù)】:6 頁

【部分圖文】:

圖1anjuke.com的部分robots協(xié)議內(nèi)容

圖1anjuke.com的部分robots協(xié)議內(nèi)容

尊重robots協(xié)議的科學(xué)爬蟲是實(shí)現(xiàn)用戶與服務(wù)器間良性互動的基礎(chǔ)。robots協(xié)議(robotsexclusionprotocol,網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn))是互聯(lián)網(wǎng)爬蟲的一項公認(rèn)的道德規(guī)范,用于公示允許爬蟲的內(nèi)容。如圖1所示anjuke.com的部分robots協(xié)議內(nèi)容,禁止了具體....


圖2網(wǎng)頁請求數(shù)據(jù)方式

圖2網(wǎng)頁請求數(shù)據(jù)方式

該網(wǎng)站主要的源數(shù)據(jù)基本記錄在HTML文檔中。因此,對HTML數(shù)據(jù)的爬蟲策略主要分為四步:發(fā)出請求、解析文檔、定位數(shù)據(jù)、規(guī)范存儲。首先,通過網(wǎng)站的URL向網(wǎng)站服務(wù)器發(fā)出請求,征求服務(wù)器響應(yīng)。如圖2、3所示,當(dāng)RequestMethod顯示為“GET”時,即為可請求的HTML文檔。....


圖3網(wǎng)頁響應(yīng)狀態(tài)碼

圖3網(wǎng)頁響應(yīng)狀態(tài)碼

圖2網(wǎng)頁請求數(shù)據(jù)方式解碼所得HTML文檔數(shù)據(jù)可用第三方的bs庫解析為bs4.BeautifulSoup類,即一種容錯能力較強(qiáng)的數(shù)據(jù)。解析后的網(wǎng)頁數(shù)據(jù)仍量大且雜亂,在獲取數(shù)據(jù)時需鎖定所需數(shù)據(jù)。通常先找尋數(shù)據(jù)的上級標(biāo)記(tag),再往下級縮小范圍定位每個數(shù)據(jù),從而避免數(shù)據(jù)干擾。有....


圖4數(shù)據(jù)爬蟲代碼核心部分

圖4數(shù)據(jù)爬蟲代碼核心部分

檔案爬蟲策略請求服務(wù)器與解析HTML的方式與數(shù)據(jù)類策略相近。在此基礎(chǔ)上,增加網(wǎng)頁列表的篩選和圖文資料的分渠處理兩步。這些內(nèi)容重復(fù)判斷較多,寫成一條主程序既不簡潔也不便維護(hù)。因此在建立主程序前需要先封裝成幾個小程序。本文以zhulong.com為例,爬取展覽建筑案例,包括文字描述、....



本文編號:3918500

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sgjslw/3918500.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7b0e2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com