基于大數(shù)據(jù)平臺的K12在線教育數(shù)據(jù)倉庫設(shè)計與實現(xiàn)
發(fā)布時間:2024-06-08 00:24
近年來,隨著互聯(lián)網(wǎng)的發(fā)展人們產(chǎn)生的數(shù)據(jù)越來越多,為了處理并挖掘這些數(shù)據(jù)的價值,大數(shù)據(jù)技術(shù)得到了飛速的發(fā)展與應(yīng)用。Hive作為構(gòu)建與大數(shù)據(jù)基礎(chǔ)平臺之上的開源數(shù)據(jù)應(yīng)用,具有高擴展性、高容錯性、模式自由的特性,能很好地滿足企業(yè)級數(shù)據(jù)倉庫地需求。因此,各個行業(yè)已經(jīng)開始大力建設(shè)基于大數(shù)據(jù)平臺的數(shù)據(jù)倉庫,通過其對數(shù)據(jù)進行采集、處理挖掘出其潛在的價值。本論文以K12在線教育的業(yè)務(wù)需求為背景,在充分研究企業(yè)業(yè)務(wù)需求的基礎(chǔ)上,對基于大數(shù)據(jù)平臺的K12在線教育數(shù)據(jù)倉庫進行了總體的系統(tǒng)架構(gòu)設(shè)計,針對數(shù)據(jù)處理過程進行了數(shù)據(jù)流向框架設(shè)計及技術(shù)選型。通過大數(shù)據(jù)生態(tài)開源組件搭建并部署Hadoop集群,編寫Flume、Kafka等程序采集課堂埋點日志,使用Java編程語言在日志Etl清洗、轉(zhuǎn)換、脫敏后接入Hive。將已有地Mysql業(yè)務(wù)庫數(shù)據(jù)通過Sqoop導(dǎo)入Hive,采用Shell編程語言開發(fā)數(shù)據(jù)一致性校驗?zāi)_本,對進入數(shù)據(jù)倉庫的數(shù)據(jù)進行正確性校驗。結(jié)合K12在線教育企業(yè)具體的業(yè)務(wù)需求采用維度建模,選取星型模式進行數(shù)據(jù)倉庫分層設(shè)計與開發(fā),最終完成了數(shù)據(jù)倉庫的設(shè)計與實現(xiàn),并對數(shù)據(jù)倉庫實現(xiàn)的功能進行展示與分析。本論文完成...
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 本論文的研究進展
1.2.1 數(shù)據(jù)倉庫發(fā)展現(xiàn)狀
1.2.2 K12 在線教育行業(yè)發(fā)展現(xiàn)狀
1.3 本文主要研究內(nèi)容
1.4 本文的論文的組織結(jié)構(gòu)
第2章 相關(guān)技術(shù)基礎(chǔ)
2.1 大數(shù)據(jù)開源生態(tài)
2.2 大數(shù)據(jù)獲取技術(shù)
2.3 大數(shù)據(jù)平臺資源管理技術(shù)
2.4 大數(shù)據(jù)處理技術(shù)
2.5 企業(yè)級數(shù)據(jù)倉庫
2.6 本章小結(jié)
第3章 需求分析與方案設(shè)計
3.1 需求整理
3.1.1 功能性需求
3.1.2 非功能性需求
3.2 系統(tǒng)體系設(shè)計
3.2.1 總體架構(gòu)設(shè)計
3.2.2 系統(tǒng)功能架構(gòu)
3.2.3 系統(tǒng)技術(shù)選型
3.3 本章小結(jié)
第4章 數(shù)據(jù)倉庫設(shè)計與實現(xiàn)
4.1 基于虛擬化的大數(shù)據(jù)平臺搭建
4.1.1 Ambari集群部署
4.1.2 數(shù)據(jù)庫環(huán)境配置
4.2 數(shù)據(jù)接入與處理實現(xiàn)
4.2.1 數(shù)據(jù)源分析與定義
4.2.2 日志采集與接入HDFS
4.2.3 業(yè)務(wù)庫數(shù)據(jù)導(dǎo)入與導(dǎo)出
4.2.4 實時自動同步業(yè)務(wù)庫信息至數(shù)據(jù)倉庫
4.2.5 數(shù)據(jù)的一致性校驗
4.3 K12 在線教育數(shù)據(jù)倉庫模型設(shè)計
4.3.1 業(yè)務(wù)主題的劃分
4.3.2 數(shù)據(jù)倉庫模型建模
4.3.3 數(shù)據(jù)倉庫分層設(shè)計
4.3.4 寬表的設(shè)計與開發(fā)
4.4 本章小結(jié)
第5章 數(shù)據(jù)倉庫在K12 在線教育領(lǐng)域的驗證與實現(xiàn)
5.1 Hive數(shù)據(jù)倉庫數(shù)據(jù)導(dǎo)入導(dǎo)出驗證
5.2 K12 在線教育數(shù)據(jù)倉庫性能分析
5.3 看板與報表的展示與分析
5.4 課次分析報告實時生成與推送
5.5 本章小結(jié)
結(jié)論
參考文獻
致謝
本文編號:3991180
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 本論文的研究進展
1.2.1 數(shù)據(jù)倉庫發(fā)展現(xiàn)狀
1.2.2 K12 在線教育行業(yè)發(fā)展現(xiàn)狀
1.3 本文主要研究內(nèi)容
1.4 本文的論文的組織結(jié)構(gòu)
第2章 相關(guān)技術(shù)基礎(chǔ)
2.1 大數(shù)據(jù)開源生態(tài)
2.2 大數(shù)據(jù)獲取技術(shù)
2.3 大數(shù)據(jù)平臺資源管理技術(shù)
2.4 大數(shù)據(jù)處理技術(shù)
2.5 企業(yè)級數(shù)據(jù)倉庫
2.6 本章小結(jié)
第3章 需求分析與方案設(shè)計
3.1 需求整理
3.1.1 功能性需求
3.1.2 非功能性需求
3.2 系統(tǒng)體系設(shè)計
3.2.1 總體架構(gòu)設(shè)計
3.2.2 系統(tǒng)功能架構(gòu)
3.2.3 系統(tǒng)技術(shù)選型
3.3 本章小結(jié)
第4章 數(shù)據(jù)倉庫設(shè)計與實現(xiàn)
4.1 基于虛擬化的大數(shù)據(jù)平臺搭建
4.1.1 Ambari集群部署
4.1.2 數(shù)據(jù)庫環(huán)境配置
4.2 數(shù)據(jù)接入與處理實現(xiàn)
4.2.1 數(shù)據(jù)源分析與定義
4.2.2 日志采集與接入HDFS
4.2.3 業(yè)務(wù)庫數(shù)據(jù)導(dǎo)入與導(dǎo)出
4.2.4 實時自動同步業(yè)務(wù)庫信息至數(shù)據(jù)倉庫
4.2.5 數(shù)據(jù)的一致性校驗
4.3 K12 在線教育數(shù)據(jù)倉庫模型設(shè)計
4.3.1 業(yè)務(wù)主題的劃分
4.3.2 數(shù)據(jù)倉庫模型建模
4.3.3 數(shù)據(jù)倉庫分層設(shè)計
4.3.4 寬表的設(shè)計與開發(fā)
4.4 本章小結(jié)
第5章 數(shù)據(jù)倉庫在K12 在線教育領(lǐng)域的驗證與實現(xiàn)
5.1 Hive數(shù)據(jù)倉庫數(shù)據(jù)導(dǎo)入導(dǎo)出驗證
5.2 K12 在線教育數(shù)據(jù)倉庫性能分析
5.3 看板與報表的展示與分析
5.4 課次分析報告實時生成與推送
5.5 本章小結(jié)
結(jié)論
參考文獻
致謝
本文編號:3991180
本文鏈接:http://sikaile.net/jiaoyulunwen/ktjx/3991180.html
最近更新
教材專著