一種基于大數(shù)據(jù)架構(gòu)的地震科普資源庫的設(shè)計(jì)和開發(fā)
發(fā)布時間:2021-09-30 12:41
當(dāng)今時代,愈發(fā)龐大的數(shù)據(jù)難以有效處理運(yùn)用和管理,需要一種更加合適的資源獲取處理方式。該文基于大數(shù)據(jù)架構(gòu)結(jié)合網(wǎng)絡(luò)爬蟲、數(shù)據(jù)清洗、信息檢索等前沿技術(shù),設(shè)計(jì)開發(fā)了地震科普知識資源庫系統(tǒng)。其中運(yùn)用了J2EE、Python、Hadoop、Elasticsearch、MySQL等技術(shù)。通過網(wǎng)絡(luò)爬蟲和人工上傳的方式采集地震科普相關(guān)信息資源,經(jīng)過數(shù)據(jù)清洗轉(zhuǎn)換后對信息資源進(jìn)行自動分類,最后將資源上傳至資源庫hdfs分布式文件系統(tǒng)并將文件信息保存至Elasticsearch分布式文件索引系統(tǒng),由此實(shí)現(xiàn)大數(shù)據(jù)架構(gòu)下的全文檢索。同時,建立資源庫的后臺管理系統(tǒng),用于網(wǎng)站的日常管理和維護(hù)。相比以前的集群文件系統(tǒng)更加高速便捷、更加的安全穩(wěn)定。
【文章來源】:科技資訊. 2020,18(05)
【文章頁數(shù)】:3 頁
【部分圖文】:
資源庫整體架構(gòu)
HDFS分布式文件存儲系統(tǒng)主要用于各類資源的存儲和下載,可運(yùn)行于廉價(jià)的商用機(jī)器集群上,對硬件要求低,且具有很大商業(yè)價(jià)值。Elasticsearch是一個實(shí)時的分布式搜索和分析引擎,是天生為分布式執(zhí)行數(shù)據(jù)分析操作而生的架構(gòu),海量數(shù)據(jù)下的近實(shí)時(秒級)性能支持,以及無比強(qiáng)大的搜索和聚合分析的語法支持,讓ES更加適合進(jìn)行大數(shù)據(jù)場景下的數(shù)據(jù)分析應(yīng)用。5 結(jié)語
數(shù)據(jù)采集分人工上傳和網(wǎng)絡(luò)爬蟲兩種,使用爬蟲抓取數(shù)據(jù)可以提高數(shù)據(jù)采集的效率。網(wǎng)絡(luò)爬蟲會根據(jù)給定網(wǎng)址進(jìn)行爬取,通過spiderkeeper對爬蟲進(jìn)行管理。該文運(yùn)用spiderkeeper配合scrapyd管理爬蟲,支持一鍵式部署、定時爬取任務(wù)、啟動、暫停等一系列的操作。3.2 數(shù)據(jù)處理
【參考文獻(xiàn)】:
期刊論文
[1]教學(xué)資源庫現(xiàn)狀及發(fā)展趨勢分析[J]. 范繼魏. 現(xiàn)代商貿(mào)工業(yè). 2016(31)
本文編號:3415883
【文章來源】:科技資訊. 2020,18(05)
【文章頁數(shù)】:3 頁
【部分圖文】:
資源庫整體架構(gòu)
HDFS分布式文件存儲系統(tǒng)主要用于各類資源的存儲和下載,可運(yùn)行于廉價(jià)的商用機(jī)器集群上,對硬件要求低,且具有很大商業(yè)價(jià)值。Elasticsearch是一個實(shí)時的分布式搜索和分析引擎,是天生為分布式執(zhí)行數(shù)據(jù)分析操作而生的架構(gòu),海量數(shù)據(jù)下的近實(shí)時(秒級)性能支持,以及無比強(qiáng)大的搜索和聚合分析的語法支持,讓ES更加適合進(jìn)行大數(shù)據(jù)場景下的數(shù)據(jù)分析應(yīng)用。5 結(jié)語
數(shù)據(jù)采集分人工上傳和網(wǎng)絡(luò)爬蟲兩種,使用爬蟲抓取數(shù)據(jù)可以提高數(shù)據(jù)采集的效率。網(wǎng)絡(luò)爬蟲會根據(jù)給定網(wǎng)址進(jìn)行爬取,通過spiderkeeper對爬蟲進(jìn)行管理。該文運(yùn)用spiderkeeper配合scrapyd管理爬蟲,支持一鍵式部署、定時爬取任務(wù)、啟動、暫停等一系列的操作。3.2 數(shù)據(jù)處理
【參考文獻(xiàn)】:
期刊論文
[1]教學(xué)資源庫現(xiàn)狀及發(fā)展趨勢分析[J]. 范繼魏. 現(xiàn)代商貿(mào)工業(yè). 2016(31)
本文編號:3415883
本文鏈接:http://sikaile.net/kejilunwen/diqiudizhi/3415883.html
最近更新
教材專著