當(dāng)前位置：主頁 > 管理論文 > 移動網(wǎng)絡(luò)論文 >

基于網(wǎng)絡(luò)爬蟲的CMS識別系統(tǒng)的研究與應(yīng)用

發(fā)布時間：2019-11-04 21:41

【摘要】：當(dāng)前網(wǎng)絡(luò)資源數(shù)量呈現(xiàn)指數(shù)增長的趨勢,隨著網(wǎng)絡(luò)開發(fā)技術(shù)的日趨成熟,內(nèi)容管理系統(tǒng)(Content Management System,簡稱CMS)開始被互聯(lián)網(wǎng)人所熟知。CMS系統(tǒng)基于模塊化設(shè)計理念,可以短周期內(nèi)的制作新聞網(wǎng)站、社交博客、動漫游戲、視頻電影等綜合性或者專業(yè)性網(wǎng)站。由于眾多CMS系統(tǒng)的開源、版本更迭頻繁的特點以及新興系統(tǒng)迅速崛起,使得用于企事業(yè)或個人建網(wǎng)站的CMS種類變得越來越多,亦或說是百家爭鳴,亦或說是魚目混雜。然而,對于所有的網(wǎng)絡(luò)專業(yè)人士來說,技術(shù)選型是任何互聯(lián)網(wǎng)項目的關(guān)鍵一步,無論是創(chuàng)建基本的網(wǎng)站還是重新設(shè)計webapp,無論是做“競品分析”還是做前期需求規(guī)劃等,他們都得在多樣化的技術(shù)環(huán)境中做出明智的決策。因此,CMS技術(shù)選型,對于依靠開源CMS系統(tǒng)建站的用戶來說,也是必不可少的過程。本文將對CMS技術(shù)選型需求展開探討,并進行關(guān)于CMS識別與市場份額統(tǒng)計功能等方面的可行性分析和需求分析,依此設(shè)計一款CMS識別系統(tǒng),向用戶提供相關(guān)信息和功能,幫助用戶完成CMS技術(shù)選型工作。本文設(shè)計開發(fā)的CMS識別系統(tǒng)由網(wǎng)絡(luò)爬蟲客戶端和web應(yīng)用服務(wù)端組成,該系統(tǒng)的研究數(shù)據(jù)來源于爬蟲客戶端的數(shù)據(jù)抓取,因此研究網(wǎng)絡(luò)爬蟲,開發(fā)爬蟲客戶端將作為本文的工作重點。本文將首先在原go_spider開源爬蟲框架基礎(chǔ)上,進行功能擴展和補充,深度定制并實現(xiàn)針對CMS識別系統(tǒng)和數(shù)據(jù)統(tǒng)計分析功能的分布式爬蟲客戶端,同時分析評測該爬蟲系統(tǒng)的性能。其次,依靠爬蟲抓取到的數(shù)據(jù),開展CMS識別系統(tǒng)web服務(wù)端的開發(fā),繼而實現(xiàn)CMS識別系統(tǒng)。本文主要工作如下:(1)對文中所涉及的相關(guān)技術(shù)進行了闡述,包含通用爬蟲框架的介紹,常見的爬蟲采集策略,采集過程的URL去重算法,并研究go語言并發(fā)編程技術(shù),以及Redis分布式存儲技術(shù);對CMS識別系統(tǒng)進行了可行性分析、需求分析和總體框架設(shè)計,為系統(tǒng)的詳細設(shè)計開發(fā)提供設(shè)計依據(jù);(2)基于對go_spider開源爬蟲框架的研究,根據(jù)CMS識別系統(tǒng)的數(shù)據(jù)需求,對其進行功能模塊擴展,深度定制設(shè)計了CMS識別爬蟲客戶端,并對數(shù)據(jù)采集需求、爬蟲策略、數(shù)據(jù)存儲等功能擴展方面展開詳細的分析與設(shè)計;(3)實現(xiàn)了CMS識別爬蟲客戶端,主要闡述了爬蟲系統(tǒng)的調(diào)度器模塊、中間件處理模塊、數(shù)據(jù)下載模塊、解析器模塊和數(shù)據(jù)存儲模塊的實現(xiàn)過程,并進行了系統(tǒng)運行評測。(4)利用爬蟲客戶端采集到的相關(guān)數(shù)據(jù),完成CMS識別系統(tǒng)的web服務(wù)端功能開發(fā)。該web服務(wù)端功能主要包括了CMS類型識別、獲取國內(nèi)主流CMS市場份額分析數(shù)據(jù)、查詢使用同一CMS系統(tǒng)的Alexa排名前20的網(wǎng)站和查詢同一網(wǎng)站類型下的Alexa排名前20的網(wǎng)站。本文設(shè)計的CMS識別系統(tǒng),不僅基于分布式爬蟲技術(shù)深度定制實現(xiàn)了CMS識別系統(tǒng)的爬蟲客戶端,并且CMS識別系統(tǒng)web服務(wù)端的應(yīng)用功能可解決目前市場上CMS技術(shù)選型的難點問題,其具有深遠的研究意義和實際應(yīng)用價值。
【圖文】：

流程框圖,流程框圖,網(wǎng)站,網(wǎng)中網(wǎng)

圖 2-1 爬蟲流程框圖集過程通過對網(wǎng)絡(luò)端發(fā)送訪問請求，，而對于網(wǎng)站來講就相當(dāng)以如果爬蟲在短時間內(nèi)對網(wǎng)站的各級網(wǎng)頁進行訪問，的壓力，并是網(wǎng)站降低對真實用戶的服務(wù)力，更甚則數(shù)據(jù)時也應(yīng)該考慮網(wǎng)站本身的承受能力，進行禮貌對策是：一是控制爬蟲訪問的間隔時間以及單次請求守 robot.txt 的協(xié)議（Bomhardt C，et al，2005）。爬則，以免被網(wǎng)站管理員屏蔽，導(dǎo)致失去采集數(shù)據(jù)的集策略任務(wù)隊列是爬蟲系統(tǒng)中非常重要的一環(huán)。URL 隊列提維網(wǎng)中網(wǎng)頁之間是由 URL 關(guān)聯(lián)在一起，一級一級成

模型圖,廣度優(yōu)先,遍歷算法,模型

第 2 章相關(guān)技術(shù)介紹獲得頁面中其他鏈接，如果鏈接還未被訪問，就被次從隊列中取得另一個 URL 時進行同樣的操作。實現(xiàn)過程相對簡單，不僅能盡可能的覆蓋更多的網(wǎng)頁內(nèi)容的概略要高很多，所以被運用的最為廣泛。圖模型，廣度優(yōu)先遍歷順序結(jié)果為 A->B->C->D->E->F
【學(xué)位授予單位】：成都理工大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2017
【分類號】：TP393.092

【參考文獻】

相關(guān)期刊論文前10條

1 陳利婷;;大數(shù)據(jù)時代的反爬蟲技術(shù)[J];電腦與信息技術(shù);2016年06期

2 魯萍;;帶你進入網(wǎng)絡(luò)爬蟲與反爬蟲的世界[J];軟件和集成電路;2016年12期

3 趙杰;;中心化分布式網(wǎng)絡(luò)爬蟲研究[J];時代金融;2016年33期

4 楊琳;慕云逸;時銘月;;基于NCrawler的網(wǎng)絡(luò)爬蟲設(shè)計及其應(yīng)用探討[J];軟件產(chǎn)業(yè)與工程;2016年05期

5 林榮智;;GO語言的并發(fā)編程介紹[J];科技展望;2016年22期

6 鄒科文;李達;鄧婷敏;李嘉振;陳義明;;網(wǎng)絡(luò)爬蟲針對“反爬”網(wǎng)站的爬取策略研究[J];電腦知識與技術(shù);2016年07期

7 劉文;王標;王丁;;基于Java線程池技術(shù)的數(shù)據(jù)爬蟲設(shè)計與實現(xiàn)[J];電腦編程技巧與維護;2016年07期

8 單R

本文編號：2555835

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/2555835.html

上一篇：基于智能終端電子支付的安全性研究
下一篇：共享學(xué)習(xí)資源網(wǎng)站實現(xiàn)專業(yè)實踐技能訓(xùn)練模式研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于網(wǎng)絡(luò)爬蟲的CMS識別系統(tǒng)的研究與應(yīng)用