基于Hadoop的微課程學(xué)習(xí)行為分析系統(tǒng)構(gòu)建
【文章頁(yè)數(shù)】:4 頁(yè)
【部分圖文】:
圖4MATLAB聚類
圖4顯示MATLAB聚類前的數(shù)據(jù)分布,以及運(yùn)行聚類算法后的數(shù)據(jù)分布,完全符合系統(tǒng)設(shè)計(jì)要求,得到滿意的聚類結(jié)果。在LBAS環(huán)境中測(cè)試,針對(duì)30萬(wàn)條日志,得出163個(gè)聚類,每個(gè)聚類對(duì)應(yīng)一門微課程,進(jìn)而可以分析出用戶的學(xué)習(xí)特征,初步達(dá)到預(yù)期效果。5總結(jié)
圖1Hadoop體系結(jié)構(gòu)
1.1Hadoop體系結(jié)構(gòu)Hadoop是一個(gè)開源的、采用JAVA實(shí)現(xiàn)的大數(shù)據(jù)框架,可以通過(guò)組織大量計(jì)算機(jī)集群,對(duì)海量數(shù)據(jù)進(jìn)行分布式計(jì)算,被廣泛使用在存儲(chǔ)和處理大數(shù)據(jù)等應(yīng)用場(chǎng)景中,十分適合應(yīng)用于LBAS的日志處理[2]。Hadoop的核心成員包括分布式文件系統(tǒng)(HDFS)、Map....
圖2LBAS層次化框架
圖2展示了LBAS架構(gòu),劃分為四層,分別為數(shù)據(jù)源層、數(shù)據(jù)處理解析層、數(shù)據(jù)管理層和數(shù)據(jù)應(yīng)用層。數(shù)據(jù)源層是整個(gè)平臺(tái)的日志文件,存放在各日志服務(wù)器中,主要包括用戶使用平臺(tái)觀看微課視頻記錄、互動(dòng)記錄等日志,這些均由用戶在線或客戶端操作平臺(tái)時(shí)產(chǎn)生,系統(tǒng)需要解析處理的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。
圖3核心層技術(shù)框架
圖2的層次化框架中的核心技術(shù),即數(shù)據(jù)處理解析層,其日志數(shù)據(jù)格式包括JSON、網(wǎng)址URL等,采用Flume收集日志數(shù)據(jù),、Kafka傳輸日志數(shù)據(jù),MapReduce、SparkStreaming和Hive分別負(fù)責(zé)數(shù)據(jù)解析、實(shí)時(shí)計(jì)算和ETL,HBase和Hive用于數(shù)據(jù)存儲(chǔ),HDF....
本文編號(hào):3931803
本文鏈接:http://sikaile.net/jiaoyulunwen/jsxd/3931803.html