基于大數(shù)據(jù)技術(shù)的EAST實(shí)驗(yàn)數(shù)據(jù)訪問(wèn)日志分析系統(tǒng)
發(fā)布時(shí)間:2021-07-27 06:28
隨著我國(guó)自主研發(fā)的EAST(全超導(dǎo)托卡馬克)裝置實(shí)驗(yàn)不斷地開展,產(chǎn)生的實(shí)驗(yàn)數(shù)據(jù)的總量日益增加。實(shí)驗(yàn)數(shù)據(jù)大部分都放在MDSplus中,目前MDSplus的數(shù)據(jù)總量已經(jīng)達(dá)到PB級(jí)。為了方便實(shí)驗(yàn)人員對(duì)MDSplus服務(wù)器上的用戶行為和實(shí)驗(yàn)數(shù)據(jù)進(jìn)行規(guī)范管理,因此對(duì)MDSplus實(shí)驗(yàn)數(shù)據(jù)有效地監(jiān)控是很有必要的。需要在現(xiàn)有的MDSplus服務(wù)器的基礎(chǔ)上設(shè)計(jì)一個(gè)MDSplus實(shí)驗(yàn)數(shù)據(jù)訪問(wèn)日志分析系統(tǒng),該系統(tǒng)主要包括日志完善模塊,離線處理模塊,實(shí)時(shí)處理模塊,監(jiān)控?cái)?shù)據(jù)展示等模塊,F(xiàn)有的MDSplus對(duì)數(shù)據(jù)的管理并不包含完善的日志信息。因此系統(tǒng)需要對(duì)MDSplus日志模塊進(jìn)行完善,對(duì)用戶和數(shù)據(jù)的訪問(wèn)信息進(jìn)行實(shí)時(shí)地記錄,同時(shí)日志能夠根據(jù)Logrotate機(jī)制按照時(shí)間進(jìn)行切割轉(zhuǎn)儲(chǔ)。產(chǎn)生的大量日志信息需要及時(shí)地備份到云服務(wù)器上,并進(jìn)行海量日志信息的離線計(jì)算,從而得到按照時(shí)間周期變化的用戶行為和數(shù)據(jù)信息數(shù)據(jù)。離線的日志數(shù)據(jù)計(jì)算采用的是傳統(tǒng)的大數(shù)據(jù)框架高可用的Hadoop技術(shù)。在實(shí)驗(yàn)過(guò)程中,單一的離線數(shù)據(jù)的計(jì)算不能提供及時(shí)的MDSplus服務(wù)器狀態(tài)信息,包括但不限于服務(wù)器出入流量信息,據(jù)此信息可以進(jìn)行判斷服務(wù)器的負(fù)...
【文章來(lái)源】:中國(guó)科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:79 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
其有RA的H.doop架構(gòu)
)?Channel??hannel是Agent中另一個(gè)重要的組成部分,可以從Source接收來(lái)的數(shù)存起來(lái),達(dá)到緩沖的作用。接收來(lái)的數(shù)據(jù)可以用不同的數(shù)據(jù)格式存以存儲(chǔ)到磁盤山也可以存到內(nèi)存中,存儲(chǔ)的周期和容量都可以自行el從抽象的層面來(lái)看,可以看成一個(gè)管道,這個(gè)管道是隊(duì)列的管道。數(shù)據(jù)都依次在這個(gè)管道中進(jìn)行排隊(duì),等待下游Sink進(jìn)行數(shù)據(jù)的分發(fā)完全存儲(chǔ)到新的位置,管道中相應(yīng)的數(shù)據(jù)才會(huì)刪除。這個(gè)過(guò)程是事務(wù)保證了數(shù)據(jù)傳輸?shù)陌踩院涂煽啃浴??3)?Sink??ink作為下游數(shù)據(jù)的發(fā)送器,從Channel中提取數(shù)據(jù),并將數(shù)據(jù)發(fā)送到置。新的存儲(chǔ)位置可以是HDFS、HBASE、logger等,也可以自行為數(shù)據(jù)采集發(fā)送器,Flume具有強(qiáng)大的優(yōu)勢(shì)。首先Flume在收集數(shù)的數(shù)據(jù)達(dá)到了高峰時(shí)期,下游又來(lái)不及進(jìn)行數(shù)據(jù)的處理,這時(shí)候Hu
圖4.1所示,基于大數(shù)據(jù)技術(shù)的EAST實(shí)驗(yàn)數(shù)據(jù)訪問(wèn)日志分析系統(tǒng)的總體上分為EAST實(shí)驗(yàn)數(shù)據(jù)訪問(wèn)日志的完善、日志數(shù)據(jù)的采集及傳輸存儲(chǔ)及處理平臺(tái)、日志數(shù)據(jù)web展示四個(gè)大的部分。整個(gè)系統(tǒng)的架間耦合性不高,數(shù)據(jù)從采集到展示是全鏈路一站式處理。數(shù)據(jù)完善EAST存儲(chǔ)服務(wù)器MDSplus上進(jìn)行完善,采用鉤子插件的方式對(duì)數(shù),可以記錄下所有MDSplus用戶對(duì)數(shù)據(jù)服務(wù)器的詳細(xì)訪問(wèn)情況。數(shù)輸端,一方面利用Hnux腳本程序?qū)㈦x線日志定期上傳到HDFS服一方面利用Flume對(duì)服務(wù)器日志文件進(jìn)行監(jiān)控,將監(jiān)控到的日志數(shù)afka中。其中Kafka作為消息數(shù)據(jù)中間件,負(fù)貴負(fù)載均衡生產(chǎn)者和數(shù)據(jù)。Hadoop作為日志數(shù)據(jù)的存儲(chǔ)和離線計(jì)算框架,按照規(guī)定好的月日進(jìn)行日志數(shù)據(jù)的統(tǒng)計(jì)計(jì)算,然后將處理完的數(shù)據(jù)統(tǒng)一規(guī)范化到arkStreaming是整個(gè)系統(tǒng)架構(gòu)中負(fù)責(zé)流數(shù)據(jù)計(jì)算的部分,能夠在秒級(jí)服務(wù)器出入數(shù)據(jù)流量。Zeppelin和web都是數(shù)據(jù)瀏覽和展示工具。in可以快速訪問(wèn)HDFS和Mysql中的數(shù)據(jù),快速生成數(shù)據(jù)圖表。除此lin生成的數(shù)據(jù)圖表還可以用url的方式嵌入到web中。??usem
【參考文獻(xiàn)】:
期刊論文
[1]基于Spark Streaming的電力流式大數(shù)據(jù)分析架構(gòu)及應(yīng)用[J]. 田璐,齊林海,李青,王紅,田世明,卜凡鵬. 電力信息與通信技術(shù). 2019(02)
[2]基于大數(shù)據(jù)的ETL中的數(shù)據(jù)清洗方案研究[J]. 周瀚章,馮廣,龔旭輝,曾虎,徐啟東. 工業(yè)控制計(jì)算機(jī). 2018(12)
[3]基于Kafka的分布式能效管理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 朱幼普,盧軍. 計(jì)算機(jī)與數(shù)字工程. 2018(12)
[4]EAST實(shí)驗(yàn)數(shù)據(jù)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 王月婷,王華忠,王楓,劉鴻,章琦皓. 儀表技術(shù). 2018(11)
[5]基于Zookeeper的配置管理中心設(shè)計(jì)與實(shí)現(xiàn)[J]. 苗凡,閻志遠(yuǎn),戴琳琳. 鐵路計(jì)算機(jī)應(yīng)用. 2018(10)
[6]基于Spark SQL的分布式全文檢索框架的設(shè)計(jì)與實(shí)現(xiàn)[J]. 崔光范,許利杰,劉杰,葉丹,鐘華. 計(jì)算機(jī)科學(xué). 2018(09)
[7]大數(shù)據(jù)時(shí)代信息獲取技術(shù)研究——以阿里巴巴為例[J]. 丁鑠彭. 電腦知識(shí)與技術(shù). 2018(03)
[8]基于ECharts的數(shù)據(jù)可視化分析組件設(shè)計(jì)實(shí)現(xiàn)[J]. 王子毅,張春海. 微型機(jī)與應(yīng)用. 2016(14)
[9]基于Flume、Kafka、Storm、HDFS的航空維修大數(shù)據(jù)系統(tǒng)[J]. 徐海榮,陳閔葉,張興媛. 上海工程技術(shù)大學(xué)學(xué)報(bào). 2015(04)
[10]基于Hadoop技術(shù)的數(shù)據(jù)查詢平臺(tái)建設(shè)[J]. 夏暢,孫恒超. 電信快報(bào). 2014(12)
碩士論文
[1]EAST實(shí)驗(yàn)信息移動(dòng)客戶端的設(shè)計(jì)與開發(fā)[D]. 劉鴻.中國(guó)科學(xué)技術(shù)大學(xué) 2018
[2]基于Spark的高考推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 孟真.山東師范大學(xué) 2017
[3]基于Lambda架構(gòu)的城市一卡通數(shù)據(jù)分析系統(tǒng)的研究與實(shí)現(xiàn)[D]. 王野.西安電子科技大學(xué) 2017
本文編號(hào):3305272
【文章來(lái)源】:中國(guó)科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:79 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
其有RA的H.doop架構(gòu)
)?Channel??hannel是Agent中另一個(gè)重要的組成部分,可以從Source接收來(lái)的數(shù)存起來(lái),達(dá)到緩沖的作用。接收來(lái)的數(shù)據(jù)可以用不同的數(shù)據(jù)格式存以存儲(chǔ)到磁盤山也可以存到內(nèi)存中,存儲(chǔ)的周期和容量都可以自行el從抽象的層面來(lái)看,可以看成一個(gè)管道,這個(gè)管道是隊(duì)列的管道。數(shù)據(jù)都依次在這個(gè)管道中進(jìn)行排隊(duì),等待下游Sink進(jìn)行數(shù)據(jù)的分發(fā)完全存儲(chǔ)到新的位置,管道中相應(yīng)的數(shù)據(jù)才會(huì)刪除。這個(gè)過(guò)程是事務(wù)保證了數(shù)據(jù)傳輸?shù)陌踩院涂煽啃浴??3)?Sink??ink作為下游數(shù)據(jù)的發(fā)送器,從Channel中提取數(shù)據(jù),并將數(shù)據(jù)發(fā)送到置。新的存儲(chǔ)位置可以是HDFS、HBASE、logger等,也可以自行為數(shù)據(jù)采集發(fā)送器,Flume具有強(qiáng)大的優(yōu)勢(shì)。首先Flume在收集數(shù)的數(shù)據(jù)達(dá)到了高峰時(shí)期,下游又來(lái)不及進(jìn)行數(shù)據(jù)的處理,這時(shí)候Hu
圖4.1所示,基于大數(shù)據(jù)技術(shù)的EAST實(shí)驗(yàn)數(shù)據(jù)訪問(wèn)日志分析系統(tǒng)的總體上分為EAST實(shí)驗(yàn)數(shù)據(jù)訪問(wèn)日志的完善、日志數(shù)據(jù)的采集及傳輸存儲(chǔ)及處理平臺(tái)、日志數(shù)據(jù)web展示四個(gè)大的部分。整個(gè)系統(tǒng)的架間耦合性不高,數(shù)據(jù)從采集到展示是全鏈路一站式處理。數(shù)據(jù)完善EAST存儲(chǔ)服務(wù)器MDSplus上進(jìn)行完善,采用鉤子插件的方式對(duì)數(shù),可以記錄下所有MDSplus用戶對(duì)數(shù)據(jù)服務(wù)器的詳細(xì)訪問(wèn)情況。數(shù)輸端,一方面利用Hnux腳本程序?qū)㈦x線日志定期上傳到HDFS服一方面利用Flume對(duì)服務(wù)器日志文件進(jìn)行監(jiān)控,將監(jiān)控到的日志數(shù)afka中。其中Kafka作為消息數(shù)據(jù)中間件,負(fù)貴負(fù)載均衡生產(chǎn)者和數(shù)據(jù)。Hadoop作為日志數(shù)據(jù)的存儲(chǔ)和離線計(jì)算框架,按照規(guī)定好的月日進(jìn)行日志數(shù)據(jù)的統(tǒng)計(jì)計(jì)算,然后將處理完的數(shù)據(jù)統(tǒng)一規(guī)范化到arkStreaming是整個(gè)系統(tǒng)架構(gòu)中負(fù)責(zé)流數(shù)據(jù)計(jì)算的部分,能夠在秒級(jí)服務(wù)器出入數(shù)據(jù)流量。Zeppelin和web都是數(shù)據(jù)瀏覽和展示工具。in可以快速訪問(wèn)HDFS和Mysql中的數(shù)據(jù),快速生成數(shù)據(jù)圖表。除此lin生成的數(shù)據(jù)圖表還可以用url的方式嵌入到web中。??usem
【參考文獻(xiàn)】:
期刊論文
[1]基于Spark Streaming的電力流式大數(shù)據(jù)分析架構(gòu)及應(yīng)用[J]. 田璐,齊林海,李青,王紅,田世明,卜凡鵬. 電力信息與通信技術(shù). 2019(02)
[2]基于大數(shù)據(jù)的ETL中的數(shù)據(jù)清洗方案研究[J]. 周瀚章,馮廣,龔旭輝,曾虎,徐啟東. 工業(yè)控制計(jì)算機(jī). 2018(12)
[3]基于Kafka的分布式能效管理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 朱幼普,盧軍. 計(jì)算機(jī)與數(shù)字工程. 2018(12)
[4]EAST實(shí)驗(yàn)數(shù)據(jù)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 王月婷,王華忠,王楓,劉鴻,章琦皓. 儀表技術(shù). 2018(11)
[5]基于Zookeeper的配置管理中心設(shè)計(jì)與實(shí)現(xiàn)[J]. 苗凡,閻志遠(yuǎn),戴琳琳. 鐵路計(jì)算機(jī)應(yīng)用. 2018(10)
[6]基于Spark SQL的分布式全文檢索框架的設(shè)計(jì)與實(shí)現(xiàn)[J]. 崔光范,許利杰,劉杰,葉丹,鐘華. 計(jì)算機(jī)科學(xué). 2018(09)
[7]大數(shù)據(jù)時(shí)代信息獲取技術(shù)研究——以阿里巴巴為例[J]. 丁鑠彭. 電腦知識(shí)與技術(shù). 2018(03)
[8]基于ECharts的數(shù)據(jù)可視化分析組件設(shè)計(jì)實(shí)現(xiàn)[J]. 王子毅,張春海. 微型機(jī)與應(yīng)用. 2016(14)
[9]基于Flume、Kafka、Storm、HDFS的航空維修大數(shù)據(jù)系統(tǒng)[J]. 徐海榮,陳閔葉,張興媛. 上海工程技術(shù)大學(xué)學(xué)報(bào). 2015(04)
[10]基于Hadoop技術(shù)的數(shù)據(jù)查詢平臺(tái)建設(shè)[J]. 夏暢,孫恒超. 電信快報(bào). 2014(12)
碩士論文
[1]EAST實(shí)驗(yàn)信息移動(dòng)客戶端的設(shè)計(jì)與開發(fā)[D]. 劉鴻.中國(guó)科學(xué)技術(shù)大學(xué) 2018
[2]基于Spark的高考推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 孟真.山東師范大學(xué) 2017
[3]基于Lambda架構(gòu)的城市一卡通數(shù)據(jù)分析系統(tǒng)的研究與實(shí)現(xiàn)[D]. 王野.西安電子科技大學(xué) 2017
本文編號(hào):3305272
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3305272.html
最近更新
教材專著