天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

內(nèi)容匯聚子系統(tǒng)中可定制爬蟲引擎的設(shè)計與實現(xiàn)

發(fā)布時間:2021-01-01 23:07
  Web2.0下的新媒體業(yè)務(wù)不再局限于生產(chǎn)媒體素材,新媒體業(yè)務(wù)往往通過爬蟲引擎抓取大量的媒體資源網(wǎng)站獲得媒體素材。內(nèi)容匯聚子系統(tǒng)通過可定制爬蟲實現(xiàn)對多個網(wǎng)絡(luò)電臺的數(shù)據(jù)抓取,為中國廣播云平臺提供數(shù)據(jù)服務(wù)。然而,為了獲得豐富的素材內(nèi)容,爬蟲引擎需要對大量的網(wǎng)站進行垂直爬取,媒體網(wǎng)站數(shù)量較多,且不同網(wǎng)站的結(jié)構(gòu)不同,頁面結(jié)構(gòu)復(fù)雜,數(shù)據(jù)形式豐富,被抓取的網(wǎng)站經(jīng)常發(fā)生結(jié)構(gòu)的改變。這些問題給系統(tǒng)開發(fā)人員帶來了極大的開發(fā)負擔(dān),給系統(tǒng)使用人員帶來了極大的管理負擔(dān)。針對爬蟲業(yè)務(wù)邏輯多變、普通爬蟲框架對于使用者門檻較高的問題,同時基于內(nèi)容匯聚子系統(tǒng)的特點,結(jié)合具體的用戶需求,設(shè)計實現(xiàn)了可定制爬蟲引擎。可定制爬蟲引擎避免了系統(tǒng)使用者直接接觸爬蟲業(yè)務(wù)代碼,為系統(tǒng)使用人員提供一種基于描述文件來輕量級實現(xiàn)數(shù)據(jù)抓取邏輯的機制。基于描述文件,系統(tǒng)使用者可以對爬蟲引擎的業(yè)務(wù)邏輯實現(xiàn)快速更新、批量管理、實時管理,通過對系統(tǒng)定義的數(shù)據(jù)抓取規(guī)則的靈活組合來控制爬蟲執(zhí)行邏輯。為實現(xiàn)上述功能,對系統(tǒng)功能進行了需求分析與關(guān)鍵問題研究,明確了系統(tǒng)應(yīng)區(qū)別于常規(guī)單機爬蟲框架,應(yīng)實現(xiàn)可伸縮的彈性架構(gòu),確定了可定制爬蟲引擎的架構(gòu)與工作方式,探討... 

【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:97 頁

【學(xué)位級別】:碩士

【部分圖文】:

內(nèi)容匯聚子系統(tǒng)中可定制爬蟲引擎的設(shè)計與實現(xiàn)


圖2-l?—個HTML文檔的實例??1、HTML標(biāo)簽和屬性??

下區(qū),原理,客戶端,發(fā)送請求


Response的數(shù)據(jù)抓發(fā)給發(fā)送請求的客戶端;對于Web客戶端來說,代理扮演的??服務(wù)器角色,接受請求,返回響應(yīng);對于Web服務(wù)器來說,代理扮演客戶端的角??色,發(fā)送請求,接受響應(yīng)。圖2-2為代理的使用原理。??縣?〉?i青求?)??〇?/?〇?—?]/?〇??三/??三/??三????(?舀蛐???(?SdslD????客戶端?\?代理?\?服務(wù)器??圖2-2代理的原理??HTTP代理在功能上又有如下區(qū)別:??1、

流程圖,中心化,引擎,描述文件


系列的規(guī)約語法,爬蟲節(jié)點則將作為無狀態(tài)節(jié)點,用戶根據(jù)系統(tǒng)的規(guī)則,編寫符??合業(yè)務(wù)邏輯的描述文件,爬蟲節(jié)點作為描述文件的執(zhí)行解釋器,解析規(guī)則文件,??執(zhí)行數(shù)據(jù)抓取動作。本系統(tǒng)中的可定制爬蟲引擎解決方案,如下圖4-3所示??24??

【參考文獻】:
期刊論文
[1]“走出概念、快速見效”中國廣播云平臺——中央人民廣播電臺媒體融合工程[J]. 李向榮,閻冬.  中國廣播. 2017(10)
[2]規(guī)則引擎在指揮顯示系統(tǒng)中的應(yīng)用[J]. 段慧芬,伍輝華,張德華,李磊.  兵工自動化. 2017(08)
[3]整合廣播資源,凝聚聲音優(yōu)勢——以中國廣播云平臺為例[J]. 李向榮.  中國廣播. 2016(11)
[4]智能傳播平臺的構(gòu)建——以今日頭條為例[J]. 郭全中,胡潔.  新聞愛好者. 2016(06)
[5]高效的基于段模式的惡意URL檢測方法[J]. 林海倫,李焱,王偉平,岳銀亮,林政.  通信學(xué)報. 2015(S1)
[6]主題網(wǎng)絡(luò)爬蟲研究綜述[J]. 于娟,劉強.  計算機工程與科學(xué). 2015(02)
[7]新媒體運營型媒資系統(tǒng)的建設(shè)與分析[J]. 李楠.  中國廣播. 2014(12)
[8]Drools規(guī)則引擎在現(xiàn)代物流信息平臺的應(yīng)用[J]. 陸歌皓,李仕金,吳超凡.  計算機科學(xué). 2011(S1)
[9]網(wǎng)絡(luò)爬蟲技術(shù)的研究[J]. 孫立偉,何國輝,吳禮發(fā).  電腦知識與技術(shù). 2010(15)
[10]基于規(guī)則引擎的企業(yè)服務(wù)開發(fā)模式[J]. 陶曉俊,朱敏.  計算機技術(shù)與發(fā)展. 2008(02)

碩士論文
[1]面向銀行信貸的規(guī)則引擎系統(tǒng)設(shè)計與實現(xiàn)[D]. 王世春.中國科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院) 2016
[2]基于DOM樹節(jié)點重要度的WEB主題信息提取研究[D]. 馬金娜.西南大學(xué) 2016
[3]基于規(guī)則引擎的智能家居系統(tǒng)的設(shè)計與實現(xiàn)[D]. 李海光.北京郵電大學(xué) 2015
[4]基于Java規(guī)則引擎的動態(tài)數(shù)據(jù)清洗研究與設(shè)計[D]. 曹永亮.武漢理工大學(xué) 2008



本文編號:2952159

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2952159.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶934f2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com