面向建材信息的網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實現(xiàn)
本文關(guān)鍵詞:面向建材信息的網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實現(xiàn)
更多相關(guān)文章: 網(wǎng)絡(luò)爬蟲 管理系統(tǒng) 正則表達(dá)式解析模板 URL去重
【摘要】:隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,電子商務(wù)發(fā)展迅猛,然而建材類電子商務(wù)一直發(fā)展較為緩慢,是電子商務(wù)的一片藍(lán)海。很多公司也發(fā)現(xiàn)了這一商機,并通過各類建材電子商務(wù)網(wǎng)站瓜分市場份額。但是,這些電商網(wǎng)站往往覆蓋地區(qū)、產(chǎn)品種類有限,難以達(dá)到其他品類成熟電商的規(guī)模,對國內(nèi)建材類電子商務(wù)的現(xiàn)狀影響不大。市場急需一個能夠覆蓋全國各地區(qū)、網(wǎng)羅各類產(chǎn)品的網(wǎng)站。然而各個公司各自為戰(zhàn),很難達(dá)成共識共享資源。基于上述背景,本文分析、設(shè)計并實現(xiàn)了網(wǎng)絡(luò)爬蟲系統(tǒng),該系統(tǒng)將Internet上諸多同類建材信息網(wǎng)站的關(guān)鍵信息爬取下來,并整合發(fā)布在本公司自己的網(wǎng)站上。為建筑企業(yè)和建材供應(yīng)商提供及時、全面、真實的信息服務(wù),從而為建筑企業(yè)與建材供應(yīng)商創(chuàng)造雙贏價值。 本文介紹了爬蟲系統(tǒng)的基本工作原理和相關(guān)理論知識,然后對系統(tǒng)進行了需求分析,提出系統(tǒng)需求,并對系統(tǒng)進行功能性需求分析、非功能性需求分析和可行性分析。最后在系統(tǒng)需求分析的基礎(chǔ)上,提出了系統(tǒng)的總體設(shè)計方案,明確了系統(tǒng)的總體流程,對系統(tǒng)各個模塊進行設(shè)計。本文的爬蟲系統(tǒng)不僅能夠抓取靜態(tài)頁面的內(nèi)容,對于JS (JavaScript)動態(tài)加載的頁面也能夠通過JS解釋引擎Rhino實現(xiàn)頁面抓取功能,并采用正則表達(dá)式編寫頁面的解析模板完成對頁面關(guān)鍵信息的抽取。針對圖片中保存的某些關(guān)鍵信息,本文利用OCR (Optical Character Recognition)圖片識別引擎Tesseract實現(xiàn)對這類信息的識別。在頁面抓取過程中,為了提高域名解析的速度,本文采用了域名解析緩存。為了提高爬蟲系統(tǒng)抓取數(shù)據(jù)的質(zhì)量,避免重復(fù)抓取,本文采用布隆過濾器對URL (Uniform Resource Locator)進行去重。本文還實現(xiàn)了網(wǎng)絡(luò)爬蟲管理系統(tǒng),用以對爬蟲系統(tǒng)工作的各個環(huán)節(jié)進行監(jiān)控和管理。 本文設(shè)計并實現(xiàn)的面向建材信息的網(wǎng)絡(luò)爬蟲系統(tǒng)能夠滿足用戶的基本需求,該系統(tǒng)己在廣聯(lián)達(dá)軟件公司上線運行,能夠成功抓取建材類供求信息,并將所得數(shù)據(jù)存儲在Mongo數(shù)據(jù)庫中,目前已抓取超過2億條數(shù)據(jù)記錄。
【關(guān)鍵詞】:網(wǎng)絡(luò)爬蟲 管理系統(tǒng) 正則表達(dá)式解析模板 URL去重
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP311.52;TP393.092
【目錄】:
- 致謝5-6
- 摘要6-7
- ABSTRACT7-11
- 1 緒論11-15
- 1.1 論文背景和意義11
- 1.2 國內(nèi)外發(fā)展現(xiàn)狀11-14
- 1.3 論文主要工作與結(jié)構(gòu)安排14
- 1.4 本章小結(jié)14-15
- 2 相關(guān)技術(shù)概述15-20
- 2.1 正則表達(dá)式15
- 2.2 布隆算法15-16
- 2.3 RHINO解析引擎16-17
- 2.4 TESSERACT圖片識別引擎17-18
- 2.5 MVC設(shè)計模式18
- 2.6 MONGO數(shù)據(jù)庫18-19
- 2.7 本章小結(jié)19-20
- 3 需求分析20-25
- 3.1 系統(tǒng)業(yè)務(wù)總體分析20
- 3.2 系統(tǒng)功能性需求20-21
- 3.3 系統(tǒng)非功能性需求21-22
- 3.4 技術(shù)可行性分析22-24
- 3.4.1 頁面抓取分析22-23
- 3.4.2 頁面解析分析23
- 3.4.3 數(shù)據(jù)庫存儲分析23-24
- 3.5 本章小結(jié)24-25
- 4 系統(tǒng)概要設(shè)計25-35
- 4.1 爬蟲系統(tǒng)開發(fā)環(huán)境25
- 4.2 系統(tǒng)基本框架25-27
- 4.3 網(wǎng)頁抓取模塊27-31
- 4.3.1 網(wǎng)絡(luò)爬蟲抓取策略28-29
- 4.3.2 URL去重29-31
- 4.4 頁面解析模塊31-32
- 4.5 MONGO數(shù)據(jù)庫模塊32
- 4.6 代理IP管理模塊32-33
- 4.7 爬蟲管理系統(tǒng)模塊33-34
- 4.8 本章小結(jié)34-35
- 5 系統(tǒng)詳細(xì)設(shè)計及實現(xiàn)35-65
- 5.1 網(wǎng)頁抓取模塊35-44
- 5.1.1 Robots協(xié)議解析35-36
- 5.1.2 HTTP協(xié)議分析36
- 5.1.3 HTTP文件抓取36-37
- 5.1.4 HTTP響應(yīng)信息處理方法37-38
- 5.1.5 URL去重38-40
- 5.1.6 初始URL文件配置40
- 5.1.7 線程池工作模塊40-42
- 5.1.8 翻頁URL42
- 5.1.9 頁面的更新策略42-43
- 5.1.10 爬蟲抓取頻率43
- 5.1.11 DNS解析緩存43-44
- 5.2 網(wǎng)頁解析模塊44-51
- 5.2.1 靜態(tài)頁面解析44-47
- 5.2.2 圖片內(nèi)容解析47-48
- 5.2.3 JS動態(tài)頁面解析48-51
- 5.3 應(yīng)對反爬蟲策略51-55
- 5.3.1 基于User-Agent的反爬蟲51-53
- 5.3.2 基于登錄的反爬蟲53-54
- 5.3.3 基于Cookie的反爬蟲54-55
- 5.4 MONGO數(shù)據(jù)庫模塊55-58
- 5.4.1 Mongo數(shù)據(jù)庫存入55-57
- 5.4.2 Mongo數(shù)據(jù)庫備份與恢復(fù)57-58
- 5.5 代理IP管理模塊58-61
- 5.5.1 請求的處理59
- 5.5.2 響應(yīng)的處理59-60
- 5.5.3 基于線程池60-61
- 5.6 爬蟲管理系統(tǒng)模塊61-64
- 5.6.1 爬蟲管理系統(tǒng)界面61
- 5.6.2 爬蟲管理系統(tǒng)功能61-62
- 5.6.3 數(shù)據(jù)庫表設(shè)計62-64
- 5.6.4 Controller類64
- 5.7 本章小結(jié)64-65
- 6 系統(tǒng)測試65-69
- 6.1 單元測試65
- 6.2 系統(tǒng)測試65-68
- 6.3 本章小結(jié)68-69
- 7 總結(jié)與展望69-71
- 7.1 總結(jié)69
- 7.2 展望69-71
- 參考文獻(xiàn)71-73
- 作者簡歷73-75
- 學(xué)位論文數(shù)據(jù)集75
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前7條
1 張超;閆宏印;;多線程網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];電腦開發(fā)與應(yīng)用;2012年06期
2 王映,于滿泉,李盛韜,王斌,余智華;JavaScript引擎在動態(tài)網(wǎng)頁采集技術(shù)中的應(yīng)用[J];計算機應(yīng)用;2004年02期
3 姜明強,顧君忠;基于DOM的結(jié)構(gòu)化搜索引擎[J];計算機應(yīng)用研究;2000年06期
4 袁梅冷,黃煙波,黃家林,翁艷彬;J2EE應(yīng)用模型中MVC軟件體系結(jié)構(gòu)的研究與應(yīng)用[J];計算機應(yīng)用研究;2003年03期
5 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計算機應(yīng)用研究;2007年10期
6 王超;閭陳莉;吳迪;項英杰;;基于HttpClient的Android客戶端的設(shè)計與實現(xiàn)[J];計算機時代;2014年03期
7 嚴(yán)磊;丁賓;姚志敏;馬勇男;鄭濤;;基于MD5去重樹的網(wǎng)絡(luò)爬蟲的設(shè)計與優(yōu)化[J];計算機應(yīng)用與軟件;2015年02期
,本文編號:669515
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/669515.html