內(nèi)容匯聚子系統(tǒng)中桌面管理軟件的設計與實現(xiàn)
發(fā)布時間:2020-04-05 05:38
【摘要】:伴隨著“互聯(lián)網(wǎng)+”理念的推行,廣播產(chǎn)業(yè)紛紛由單一媒體向綜合媒體轉(zhuǎn)型。中國廣播云平臺提供資源共享與定制化服務。內(nèi)容匯聚子系統(tǒng)旨在為中國廣播云平臺提供服務,抓取多個廣播網(wǎng)站的媒體內(nèi)容,實現(xiàn)內(nèi)容的匯聚與處理。內(nèi)容匯聚子系統(tǒng)傳統(tǒng)實現(xiàn)方式是通過主題爬蟲實現(xiàn)的,其存在著代碼復用性不高和對非技術(shù)人員不友好等缺點。為了解決以上問題,本文提出了在內(nèi)容匯聚子系統(tǒng)中使用的桌面管理軟件,主要來完成爬蟲工程的管理功能和爬蟲的爬取規(guī)則描述文件的編輯功能。爬取規(guī)則描述文件中保存的是爬蟲的待抓取URL、目標網(wǎng)頁和數(shù)據(jù)的分析和URL搜索策略等。用戶可以根據(jù)不同的需求來編輯爬取規(guī)則描述文件,來決定爬蟲的運行邏輯。為了實現(xiàn)以上的功能,本文首先采用MVC設計模式實現(xiàn)了軟件架構(gòu)的設計,并設計了通用性的Model以及提出了適合本文的基于雙數(shù)組字典樹Trie的信息檢索算法,進而在此基礎上進行開發(fā),實現(xiàn)內(nèi)容匯聚子系統(tǒng)的桌面管理軟件。內(nèi)容匯聚子系統(tǒng)的桌面管理軟件主要包括兩大模塊:分別是爬蟲工程的管理模塊、爬取規(guī)則描述文件模塊。爬蟲工程的管理模塊主要包括最近工程、新建、刪除、工程庫、上傳、下載等功能。爬取規(guī)則描述文件模塊又分為工程結(jié)構(gòu)模塊、元素操作模塊、組件模塊、屬性模塊這四個子模塊。工程結(jié)構(gòu)模塊用于顯示爬蟲工程的結(jié)構(gòu);元素操作模塊的功能是通過不同組件的拖放后,生成一個與爬取規(guī)則描述文件對應的雙數(shù)組字典樹,然后再將用戶生成的雙數(shù)組字典樹轉(zhuǎn)化為爬取規(guī)則描述文件;組件模塊將完成各種圖形組件的設計與實現(xiàn);屬性模塊用于配置和顯示各種圖形組件的屬性。軟件采取跨平臺C++圖形用戶界面應用程序開發(fā)架構(gòu)Qt進行開發(fā)。
【圖文】:
第四章關(guān)鍵問題研究逡逑本文旨在首先完成軟件架構(gòu)的設計與實現(xiàn),進而在此基礎上完成內(nèi)容匯聚子逡逑系統(tǒng)的桌面管理軟件的設計與實現(xiàn)。本章將通過桌面管理軟件架構(gòu)設計和數(shù)據(jù)檢逡逑索算法兩大方面來進行關(guān)鍵問題的研究。逡逑4.1研究背景逡逑伴隨著“互聯(lián)網(wǎng)+”理念的推行,國內(nèi)很多的傳統(tǒng)領域開始走向互聯(lián)網(wǎng)化,廣逡逑播產(chǎn)業(yè)也紛紛由單一媒體向綜合媒體轉(zhuǎn)型,中國廣播云平臺面向全國廣播電臺、逡逑行業(yè)機構(gòu)、特定場景下的團體或個體用戶提供資源共享與定制化服務。內(nèi)容匯聚逡逑子系統(tǒng)是中國廣播云平臺下的一個子系統(tǒng),旨在為中國廣播云平臺提供服務,抓逡逑取多個廣播網(wǎng)站的媒體內(nèi)容,,包括視頻、音頻、圖文和節(jié)目元數(shù)據(jù)等,實現(xiàn)內(nèi)容逡逑的匯聚與處理。逡逑內(nèi)容匯聚子系統(tǒng)總體架構(gòu)圖如4-1所示:逡逑
w逡逑m逡逑圖4-3爬蟲執(zhí)行策略組件的List邋Mode丨結(jié)構(gòu)圖逡逑如上圖所示,url下只有一個子節(jié)點,也就是每個url下只能采取一種爬蟲逡逑執(zhí)行策略。逡逑對于爬取資源類型組件,由于爬蟲爬取的資源可能有很多種,比如視頻、音逡逑頻和圖片等,并且每種資源會存在多種格式,比如視頻資源有AVI和MP4等格逡逑式。簡單的一種情況是我們在每種資源類型下選擇一種資源格式,這樣資源類型逡逑和資源格式共同形成了類似于表格的結(jié)構(gòu)。因此,爬取資源類型組件采取了邋Table逡逑Model邋(表格結(jié)構(gòu))來存儲數(shù)據(jù),其具體結(jié)構(gòu)圖如圖4-5所示:逡逑c燮狄幔咤澹咂義弦鰣澹停校沖澹校危清義賢跡矗磁廊∽試蠢嘈妥榧模裕幔猓歟邋澹停錚洌澹旖峁雇煎義先繽妓荊碭竦牡諞恍惺橋廊∽試吹睦嘈,翟滯行矢[嚶ψ試蠢嘈偷木嚀邋義細袷。辶x銜聳棺爛婀芾砣砑芄桓咝У厥視Γ裕潁澹邋澹停錚洌澹臁ⅲ蹋椋螅翦澹停錚洌澹旌停裕幔猓歟邋義希停錚洌澹燉嘈偷氖
本文編號:2614622
【圖文】:
第四章關(guān)鍵問題研究逡逑本文旨在首先完成軟件架構(gòu)的設計與實現(xiàn),進而在此基礎上完成內(nèi)容匯聚子逡逑系統(tǒng)的桌面管理軟件的設計與實現(xiàn)。本章將通過桌面管理軟件架構(gòu)設計和數(shù)據(jù)檢逡逑索算法兩大方面來進行關(guān)鍵問題的研究。逡逑4.1研究背景逡逑伴隨著“互聯(lián)網(wǎng)+”理念的推行,國內(nèi)很多的傳統(tǒng)領域開始走向互聯(lián)網(wǎng)化,廣逡逑播產(chǎn)業(yè)也紛紛由單一媒體向綜合媒體轉(zhuǎn)型,中國廣播云平臺面向全國廣播電臺、逡逑行業(yè)機構(gòu)、特定場景下的團體或個體用戶提供資源共享與定制化服務。內(nèi)容匯聚逡逑子系統(tǒng)是中國廣播云平臺下的一個子系統(tǒng),旨在為中國廣播云平臺提供服務,抓逡逑取多個廣播網(wǎng)站的媒體內(nèi)容,,包括視頻、音頻、圖文和節(jié)目元數(shù)據(jù)等,實現(xiàn)內(nèi)容逡逑的匯聚與處理。逡逑內(nèi)容匯聚子系統(tǒng)總體架構(gòu)圖如4-1所示:逡逑
w逡逑m逡逑圖4-3爬蟲執(zhí)行策略組件的List邋Mode丨結(jié)構(gòu)圖逡逑如上圖所示,url下只有一個子節(jié)點,也就是每個url下只能采取一種爬蟲逡逑執(zhí)行策略。逡逑對于爬取資源類型組件,由于爬蟲爬取的資源可能有很多種,比如視頻、音逡逑頻和圖片等,并且每種資源會存在多種格式,比如視頻資源有AVI和MP4等格逡逑式。簡單的一種情況是我們在每種資源類型下選擇一種資源格式,這樣資源類型逡逑和資源格式共同形成了類似于表格的結(jié)構(gòu)。因此,爬取資源類型組件采取了邋Table逡逑Model邋(表格結(jié)構(gòu))來存儲數(shù)據(jù),其具體結(jié)構(gòu)圖如圖4-5所示:逡逑c燮狄幔咤澹咂義弦鰣澹停校沖澹校危清義賢跡矗磁廊∽試蠢嘈妥榧模裕幔猓歟邋澹停錚洌澹旖峁雇煎義先繽妓荊碭竦牡諞恍惺橋廊∽試吹睦嘈,翟滯行矢[嚶ψ試蠢嘈偷木嚀邋義細袷。辶x銜聳棺爛婀芾砣砑芄桓咝У厥視Γ裕潁澹邋澹停錚洌澹臁ⅲ蹋椋螅翦澹停錚洌澹旌停裕幔猓歟邋義希停錚洌澹燉嘈偷氖
本文編號:2614622
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2614622.html
最近更新
教材專著