天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向建材信息的網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實現(xiàn)

發(fā)布時間:2017-08-13 23:14

  本文關(guān)鍵詞:面向建材信息的網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實現(xiàn)


  更多相關(guān)文章: 網(wǎng)絡(luò)爬蟲 管理系統(tǒng) 正則表達(dá)式解析模板 URL去重


【摘要】:隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,電子商務(wù)發(fā)展迅猛,然而建材類電子商務(wù)一直發(fā)展較為緩慢,是電子商務(wù)的一片藍(lán)海。很多公司也發(fā)現(xiàn)了這一商機,并通過各類建材電子商務(wù)網(wǎng)站瓜分市場份額。但是,這些電商網(wǎng)站往往覆蓋地區(qū)、產(chǎn)品種類有限,難以達(dá)到其他品類成熟電商的規(guī)模,對國內(nèi)建材類電子商務(wù)的現(xiàn)狀影響不大。市場急需一個能夠覆蓋全國各地區(qū)、網(wǎng)羅各類產(chǎn)品的網(wǎng)站。然而各個公司各自為戰(zhàn),很難達(dá)成共識共享資源。基于上述背景,本文分析、設(shè)計并實現(xiàn)了網(wǎng)絡(luò)爬蟲系統(tǒng),該系統(tǒng)將Internet上諸多同類建材信息網(wǎng)站的關(guān)鍵信息爬取下來,并整合發(fā)布在本公司自己的網(wǎng)站上。為建筑企業(yè)和建材供應(yīng)商提供及時、全面、真實的信息服務(wù),從而為建筑企業(yè)與建材供應(yīng)商創(chuàng)造雙贏價值。 本文介紹了爬蟲系統(tǒng)的基本工作原理和相關(guān)理論知識,然后對系統(tǒng)進行了需求分析,提出系統(tǒng)需求,并對系統(tǒng)進行功能性需求分析、非功能性需求分析和可行性分析。最后在系統(tǒng)需求分析的基礎(chǔ)上,提出了系統(tǒng)的總體設(shè)計方案,明確了系統(tǒng)的總體流程,對系統(tǒng)各個模塊進行設(shè)計。本文的爬蟲系統(tǒng)不僅能夠抓取靜態(tài)頁面的內(nèi)容,對于JS (JavaScript)動態(tài)加載的頁面也能夠通過JS解釋引擎Rhino實現(xiàn)頁面抓取功能,并采用正則表達(dá)式編寫頁面的解析模板完成對頁面關(guān)鍵信息的抽取。針對圖片中保存的某些關(guān)鍵信息,本文利用OCR (Optical Character Recognition)圖片識別引擎Tesseract實現(xiàn)對這類信息的識別。在頁面抓取過程中,為了提高域名解析的速度,本文采用了域名解析緩存。為了提高爬蟲系統(tǒng)抓取數(shù)據(jù)的質(zhì)量,避免重復(fù)抓取,本文采用布隆過濾器對URL (Uniform Resource Locator)進行去重。本文還實現(xiàn)了網(wǎng)絡(luò)爬蟲管理系統(tǒng),用以對爬蟲系統(tǒng)工作的各個環(huán)節(jié)進行監(jiān)控和管理。 本文設(shè)計并實現(xiàn)的面向建材信息的網(wǎng)絡(luò)爬蟲系統(tǒng)能夠滿足用戶的基本需求,該系統(tǒng)己在廣聯(lián)達(dá)軟件公司上線運行,能夠成功抓取建材類供求信息,并將所得數(shù)據(jù)存儲在Mongo數(shù)據(jù)庫中,目前已抓取超過2億條數(shù)據(jù)記錄。
【關(guān)鍵詞】:網(wǎng)絡(luò)爬蟲 管理系統(tǒng) 正則表達(dá)式解析模板 URL去重
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP311.52;TP393.092
【目錄】:
  • 致謝5-6
  • 摘要6-7
  • ABSTRACT7-11
  • 1 緒論11-15
  • 1.1 論文背景和意義11
  • 1.2 國內(nèi)外發(fā)展現(xiàn)狀11-14
  • 1.3 論文主要工作與結(jié)構(gòu)安排14
  • 1.4 本章小結(jié)14-15
  • 2 相關(guān)技術(shù)概述15-20
  • 2.1 正則表達(dá)式15
  • 2.2 布隆算法15-16
  • 2.3 RHINO解析引擎16-17
  • 2.4 TESSERACT圖片識別引擎17-18
  • 2.5 MVC設(shè)計模式18
  • 2.6 MONGO數(shù)據(jù)庫18-19
  • 2.7 本章小結(jié)19-20
  • 3 需求分析20-25
  • 3.1 系統(tǒng)業(yè)務(wù)總體分析20
  • 3.2 系統(tǒng)功能性需求20-21
  • 3.3 系統(tǒng)非功能性需求21-22
  • 3.4 技術(shù)可行性分析22-24
  • 3.4.1 頁面抓取分析22-23
  • 3.4.2 頁面解析分析23
  • 3.4.3 數(shù)據(jù)庫存儲分析23-24
  • 3.5 本章小結(jié)24-25
  • 4 系統(tǒng)概要設(shè)計25-35
  • 4.1 爬蟲系統(tǒng)開發(fā)環(huán)境25
  • 4.2 系統(tǒng)基本框架25-27
  • 4.3 網(wǎng)頁抓取模塊27-31
  • 4.3.1 網(wǎng)絡(luò)爬蟲抓取策略28-29
  • 4.3.2 URL去重29-31
  • 4.4 頁面解析模塊31-32
  • 4.5 MONGO數(shù)據(jù)庫模塊32
  • 4.6 代理IP管理模塊32-33
  • 4.7 爬蟲管理系統(tǒng)模塊33-34
  • 4.8 本章小結(jié)34-35
  • 5 系統(tǒng)詳細(xì)設(shè)計及實現(xiàn)35-65
  • 5.1 網(wǎng)頁抓取模塊35-44
  • 5.1.1 Robots協(xié)議解析35-36
  • 5.1.2 HTTP協(xié)議分析36
  • 5.1.3 HTTP文件抓取36-37
  • 5.1.4 HTTP響應(yīng)信息處理方法37-38
  • 5.1.5 URL去重38-40
  • 5.1.6 初始URL文件配置40
  • 5.1.7 線程池工作模塊40-42
  • 5.1.8 翻頁URL42
  • 5.1.9 頁面的更新策略42-43
  • 5.1.10 爬蟲抓取頻率43
  • 5.1.11 DNS解析緩存43-44
  • 5.2 網(wǎng)頁解析模塊44-51
  • 5.2.1 靜態(tài)頁面解析44-47
  • 5.2.2 圖片內(nèi)容解析47-48
  • 5.2.3 JS動態(tài)頁面解析48-51
  • 5.3 應(yīng)對反爬蟲策略51-55
  • 5.3.1 基于User-Agent的反爬蟲51-53
  • 5.3.2 基于登錄的反爬蟲53-54
  • 5.3.3 基于Cookie的反爬蟲54-55
  • 5.4 MONGO數(shù)據(jù)庫模塊55-58
  • 5.4.1 Mongo數(shù)據(jù)庫存入55-57
  • 5.4.2 Mongo數(shù)據(jù)庫備份與恢復(fù)57-58
  • 5.5 代理IP管理模塊58-61
  • 5.5.1 請求的處理59
  • 5.5.2 響應(yīng)的處理59-60
  • 5.5.3 基于線程池60-61
  • 5.6 爬蟲管理系統(tǒng)模塊61-64
  • 5.6.1 爬蟲管理系統(tǒng)界面61
  • 5.6.2 爬蟲管理系統(tǒng)功能61-62
  • 5.6.3 數(shù)據(jù)庫表設(shè)計62-64
  • 5.6.4 Controller類64
  • 5.7 本章小結(jié)64-65
  • 6 系統(tǒng)測試65-69
  • 6.1 單元測試65
  • 6.2 系統(tǒng)測試65-68
  • 6.3 本章小結(jié)68-69
  • 7 總結(jié)與展望69-71
  • 7.1 總結(jié)69
  • 7.2 展望69-71
  • 參考文獻(xiàn)71-73
  • 作者簡歷73-75
  • 學(xué)位論文數(shù)據(jù)集75

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前7條

1 張超;閆宏印;;多線程網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];電腦開發(fā)與應(yīng)用;2012年06期

2 王映,于滿泉,李盛韜,王斌,余智華;JavaScript引擎在動態(tài)網(wǎng)頁采集技術(shù)中的應(yīng)用[J];計算機應(yīng)用;2004年02期

3 姜明強,顧君忠;基于DOM的結(jié)構(gòu)化搜索引擎[J];計算機應(yīng)用研究;2000年06期

4 袁梅冷,黃煙波,黃家林,翁艷彬;J2EE應(yīng)用模型中MVC軟件體系結(jié)構(gòu)的研究與應(yīng)用[J];計算機應(yīng)用研究;2003年03期

5 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計算機應(yīng)用研究;2007年10期

6 王超;閭陳莉;吳迪;項英杰;;基于HttpClient的Android客戶端的設(shè)計與實現(xiàn)[J];計算機時代;2014年03期

7 嚴(yán)磊;丁賓;姚志敏;馬勇男;鄭濤;;基于MD5去重樹的網(wǎng)絡(luò)爬蟲的設(shè)計與優(yōu)化[J];計算機應(yīng)用與軟件;2015年02期

,

本文編號:669515

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/669515.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶42b58***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com