建筑類網(wǎng)站聚焦爬蟲策略研究
【文章頁數(shù)】:6 頁
【部分圖文】:
圖1anjuke.com的部分robots協(xié)議內(nèi)容
尊重robots協(xié)議的科學(xué)爬蟲是實(shí)現(xiàn)用戶與服務(wù)器間良性互動的基礎(chǔ)。robots協(xié)議(robotsexclusionprotocol,網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn))是互聯(lián)網(wǎng)爬蟲的一項公認(rèn)的道德規(guī)范,用于公示允許爬蟲的內(nèi)容。如圖1所示anjuke.com的部分robots協(xié)議內(nèi)容,禁止了具體....
圖2網(wǎng)頁請求數(shù)據(jù)方式
該網(wǎng)站主要的源數(shù)據(jù)基本記錄在HTML文檔中。因此,對HTML數(shù)據(jù)的爬蟲策略主要分為四步:發(fā)出請求、解析文檔、定位數(shù)據(jù)、規(guī)范存儲。首先,通過網(wǎng)站的URL向網(wǎng)站服務(wù)器發(fā)出請求,征求服務(wù)器響應(yīng)。如圖2、3所示,當(dāng)RequestMethod顯示為“GET”時,即為可請求的HTML文檔。....
圖3網(wǎng)頁響應(yīng)狀態(tài)碼
圖2網(wǎng)頁請求數(shù)據(jù)方式解碼所得HTML文檔數(shù)據(jù)可用第三方的bs庫解析為bs4.BeautifulSoup類,即一種容錯能力較強(qiáng)的數(shù)據(jù)。解析后的網(wǎng)頁數(shù)據(jù)仍量大且雜亂,在獲取數(shù)據(jù)時需鎖定所需數(shù)據(jù)。通常先找尋數(shù)據(jù)的上級標(biāo)記(tag),再往下級縮小范圍定位每個數(shù)據(jù),從而避免數(shù)據(jù)干擾。有....
圖4數(shù)據(jù)爬蟲代碼核心部分
檔案爬蟲策略請求服務(wù)器與解析HTML的方式與數(shù)據(jù)類策略相近。在此基礎(chǔ)上,增加網(wǎng)頁列表的篩選和圖文資料的分渠處理兩步。這些內(nèi)容重復(fù)判斷較多,寫成一條主程序既不簡潔也不便維護(hù)。因此在建立主程序前需要先封裝成幾個小程序。本文以zhulong.com為例,爬取展覽建筑案例,包括文字描述、....
本文編號:3918500
本文鏈接:http://sikaile.net/kejilunwen/sgjslw/3918500.html