基于網絡爬蟲的CMS識別系統(tǒng)的研究與應用
發(fā)布時間:2019-11-04 21:41
【摘要】:當前網絡資源數量呈現指數增長的趨勢,隨著網絡開發(fā)技術的日趨成熟,內容管理系統(tǒng)(Content Management System,簡稱CMS)開始被互聯網人所熟知。CMS系統(tǒng)基于模塊化設計理念,可以短周期內的制作新聞網站、社交博客、動漫游戲、視頻電影等綜合性或者專業(yè)性網站。由于眾多CMS系統(tǒng)的開源、版本更迭頻繁的特點以及新興系統(tǒng)迅速崛起,使得用于企事業(yè)或個人建網站的CMS種類變得越來越多,亦或說是百家爭鳴,亦或說是魚目混雜。然而,對于所有的網絡專業(yè)人士來說,技術選型是任何互聯網項目的關鍵一步,無論是創(chuàng)建基本的網站還是重新設計webapp,無論是做“競品分析”還是做前期需求規(guī)劃等,他們都得在多樣化的技術環(huán)境中做出明智的決策。因此,CMS技術選型,對于依靠開源CMS系統(tǒng)建站的用戶來說,也是必不可少的過程。本文將對CMS技術選型需求展開探討,并進行關于CMS識別與市場份額統(tǒng)計功能等方面的可行性分析和需求分析,依此設計一款CMS識別系統(tǒng),向用戶提供相關信息和功能,幫助用戶完成CMS技術選型工作。本文設計開發(fā)的CMS識別系統(tǒng)由網絡爬蟲客戶端和web應用服務端組成,該系統(tǒng)的研究數據來源于爬蟲客戶端的數據抓取,因此研究網絡爬蟲,開發(fā)爬蟲客戶端將作為本文的工作重點。本文將首先在原go_spider開源爬蟲框架基礎上,進行功能擴展和補充,深度定制并實現針對CMS識別系統(tǒng)和數據統(tǒng)計分析功能的分布式爬蟲客戶端,同時分析評測該爬蟲系統(tǒng)的性能。其次,依靠爬蟲抓取到的數據,開展CMS識別系統(tǒng)web服務端的開發(fā),繼而實現CMS識別系統(tǒng)。本文主要工作如下:(1)對文中所涉及的相關技術進行了闡述,包含通用爬蟲框架的介紹,常見的爬蟲采集策略,采集過程的URL去重算法,并研究go語言并發(fā)編程技術,以及Redis分布式存儲技術;對CMS識別系統(tǒng)進行了可行性分析、需求分析和總體框架設計,為系統(tǒng)的詳細設計開發(fā)提供設計依據;(2)基于對go_spider開源爬蟲框架的研究,根據CMS識別系統(tǒng)的數據需求,對其進行功能模塊擴展,深度定制設計了CMS識別爬蟲客戶端,并對數據采集需求、爬蟲策略、數據存儲等功能擴展方面展開詳細的分析與設計;(3)實現了CMS識別爬蟲客戶端,主要闡述了爬蟲系統(tǒng)的調度器模塊、中間件處理模塊、數據下載模塊、解析器模塊和數據存儲模塊的實現過程,并進行了系統(tǒng)運行評測。(4)利用爬蟲客戶端采集到的相關數據,完成CMS識別系統(tǒng)的web服務端功能開發(fā)。該web服務端功能主要包括了CMS類型識別、獲取國內主流CMS市場份額分析數據、查詢使用同一CMS系統(tǒng)的Alexa排名前20的網站和查詢同一網站類型下的Alexa排名前20的網站。本文設計的CMS識別系統(tǒng),不僅基于分布式爬蟲技術深度定制實現了CMS識別系統(tǒng)的爬蟲客戶端,并且CMS識別系統(tǒng)web服務端的應用功能可解決目前市場上CMS技術選型的難點問題,其具有深遠的研究意義和實際應用價值。
【圖文】:
圖 2-1 爬蟲流程框圖集過程通過對網絡端發(fā)送訪問請求,,而對于網站來講就相當以如果爬蟲在短時間內對網站的各級網頁進行訪問,的壓力,并是網站降低對真實用戶的服務力,更甚則數據時也應該考慮網站本身的承受能力,進行禮貌對策是:一是控制爬蟲訪問的間隔時間以及單次請求守 robot.txt 的協議(Bomhardt C,et al,2005)。爬則,以免被網站管理員屏蔽,導致失去采集數據的集策略任務隊列是爬蟲系統(tǒng)中非常重要的一環(huán)。URL 隊列提維網中網頁之間是由 URL 關聯在一起,一級一級成
第 2 章 相關技術介紹獲得頁面中其他鏈接,如果鏈接還未被訪問,就被次從隊列中取得另一個 URL 時進行同樣的操作。實現過程相對簡單,不僅能盡可能的覆蓋更多的網頁內容的概略要高很多,所以被運用的最為廣泛。圖 模型,廣度優(yōu)先遍歷順序結果為 A->B->C->D->E->F
【學位授予單位】:成都理工大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP393.092
【圖文】:
圖 2-1 爬蟲流程框圖集過程通過對網絡端發(fā)送訪問請求,,而對于網站來講就相當以如果爬蟲在短時間內對網站的各級網頁進行訪問,的壓力,并是網站降低對真實用戶的服務力,更甚則數據時也應該考慮網站本身的承受能力,進行禮貌對策是:一是控制爬蟲訪問的間隔時間以及單次請求守 robot.txt 的協議(Bomhardt C,et al,2005)。爬則,以免被網站管理員屏蔽,導致失去采集數據的集策略任務隊列是爬蟲系統(tǒng)中非常重要的一環(huán)。URL 隊列提維網中網頁之間是由 URL 關聯在一起,一級一級成
第 2 章 相關技術介紹獲得頁面中其他鏈接,如果鏈接還未被訪問,就被次從隊列中取得另一個 URL 時進行同樣的操作。實現過程相對簡單,不僅能盡可能的覆蓋更多的網頁內容的概略要高很多,所以被運用的最為廣泛。圖 模型,廣度優(yōu)先遍歷順序結果為 A->B->C->D->E->F
【學位授予單位】:成都理工大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP393.092
【參考文獻】
相關期刊論文 前10條
1 陳利婷;;大數據時代的反爬蟲技術[J];電腦與信息技術;2016年06期
2 魯萍;;帶你進入網絡爬蟲與反爬蟲的世界[J];軟件和集成電路;2016年12期
3 趙杰;;中心化分布式網絡爬蟲研究[J];時代金融;2016年33期
4 楊琳;慕云逸;時銘月;;基于NCrawler的網絡爬蟲設計及其應用探討[J];軟件產業(yè)與工程;2016年05期
5 林榮智;;GO語言的并發(fā)編程介紹[J];科技展望;2016年22期
6 鄒科文;李達;鄧婷敏;李嘉振;陳義明;;網絡爬蟲針對“反爬”網站的爬取策略研究[J];電腦知識與技術;2016年07期
7 劉文;王標;王丁;;基于Java線程池技術的數據爬蟲設計與實現[J];電腦編程技巧與維護;2016年07期
8 單R
本文編號:2555835
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2555835.html
最近更新
教材專著