基于Web數據的中小學網絡教學資源建設現(xiàn)狀調查
發(fā)布時間:2017-04-11 21:18
本文關鍵詞:基于Web數據的中小學網絡教學資源建設現(xiàn)狀調查,,由筆耕文化傳播整理發(fā)布。
【摘要】:大數據技術為教育信息化帶來了新的機遇,為研究者和管理者對教育中的諸多問題的研究提供了新的數據來源和方法。在海量的教育信息化數據中,教學資源作為一種承載著學習行為、學習活動、學習進程信息的教學數據,隱含著豐富的分析價值。網絡的出現(xiàn)不僅改變了人們的生活方式而且傳統(tǒng)的教學方式也正經歷變化,借助網絡的教學形式正如雨后春筍般涌現(xiàn),教學資源的建設作為教學活動過程中尤為關鍵的一環(huán)越來越受到關注。在這樣的背景下,調查教學資源建設現(xiàn)狀是推進教育信息化有序向前發(fā)展的重要手段之一。本文從學科、地域和同質性三個方面調查建設現(xiàn)狀,其主要研究工作內容如下:(1)針對中小學資源網站上非結構化數據設計了相應的采集和存儲策略并為采集和處理大量數據建立了Hadoop分布式集群。通過二次開發(fā)網絡爬蟲Nutch將中小學資源網站數據不斷采集到本地并存儲在分布式數據庫Hbase中,為后續(xù)網頁分析、資源數據提取提供了高性能的數據吞吐平臺。(2)依據中小學網絡教學資源語言特點和網頁結構提出了一種建立教學資源庫的方法。教學資源數據是由標題、關鍵字、日期、正文內容等元數據描述,利用開源工具Jsoup抽取標題、關鍵字等,利用模式匹配算法抽取日期、媒體類型,利用行塊分布函數抽取正文內容,最終依據網站-網頁-鏈接間關系建立網絡教學資源庫。(3)中小學資源網站中的資源多以學科、地域分類展示,依據資源的鏈接結構和標題建立VSM模型,然后利用模式匹配和向量相似度技術分析模型中學科和地域屬性。在資源同質性分析中,從三個層次界定了網絡教學資源的同質性:同名的資源是初級的同質;其次是同名且同類型;第三個層次是正文相同。第三層次的研究中利用LDA模型,為教學資源正文建立一種主題模型,然后使用基于層次的聚類算法分析主題模型相似度。(4)為了解決大量數據計算問題,將網絡教學資源抽取、VSM模型、LDA模型和聚類算法重新設計使其可以運行在MapReduce編程模型上,為整個調查奠定基礎。實驗結果發(fā)現(xiàn)語、數、外資源量占有的比例較大,且需要參加考試的科目比不需要的多:東部沿海和珠三角地區(qū)的資源分布量顯著較高;網站資源重復建設的現(xiàn)象依然存在且數量不容小覷。最后,設計的對比實驗表明本文實施的調查是可靠且有效的。
【關鍵詞】:大數據 教學資源 同質性
【學位授予單位】:南京師范大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:G434;G632.4
【目錄】:
- 摘要3-4
- ABSTRACT4-9
- 第1章 緒論9-15
- 1.1 研究背景與意義9-10
- 1.1.1 研究背景9
- 1.1.2 研究意義9-10
- 1.2 資源調查現(xiàn)狀10-11
- 1.3 研究目標與內容11-14
- 1.3.1 研究目標11-12
- 1.3.2 研究內容12-14
- 1.4 本文組織結構14-15
- 第2章 相關概念及技術介紹15-29
- 2.1 中小學網絡教學資源15-17
- 2.1.1 網絡教學資源的概念界定15-16
- 2.1.2 網絡教學資源的特點16-17
- 2.1.3 資源同質性17
- 2.2 大數據技術17-21
- 2.2.1 開源平臺Hadoop18-19
- 2.2.2 大數據關鍵技術19-21
- 2.2.2.1 分布式文件系統(tǒng)HDFS19-20
- 2.2.2.2 分布式編程模型MapReduce20-21
- 2.3 文本模型簡介21-24
- 2.3.1 VSM模型21-22
- 2.3.2 pLSA主題模型22
- 2.3.3 LDA主題模型22-24
- 2.4 資源分析算法24-29
- 2.4.1 模式匹配算法25-26
- 2.4.2 文本相似度分析算法26
- 2.4.3 聚類分析算法26-29
- 2.4.3.1 基于劃分的聚類算法26-27
- 2.4.3.2 基于層次的聚類算法27-29
- 第3章 網絡教學資源采集與處理29-41
- 3.1 噪音數據處理29-33
- 3.1.1 資源載體組織結構30
- 3.1.2 資源數據預處理30-31
- 3.1.3 資源數據清洗31-32
- 3.1.4 資源數據提取32-33
- 3.2 資源集成33-36
- 3.3 HADOOP云平臺的搭建與編程環(huán)境設置36-40
- 3.3.1 Hadoop云平臺搭建36-39
- 3.3.2 編程環(huán)境設置39-40
- 3.4 本章小結40-41
- 第4章 網絡教學資源分析與處理41-53
- 4.1 分析模型概述41
- 4.2 學科和地域研究41-45
- 4.2.1 向量模型建立42-44
- 4.2.1.1 認識Web鏈接結構42-43
- 4.2.1.2 向量模型建立步驟43-44
- 4.2.2 學科和地域屬性分析44-45
- 4.3 同質性研究45-52
- 4.3.1 LDA在Mahout下的實現(xiàn)46-48
- 4.3.1.1 LDA算法并行化思想46-47
- 4.3.1.2 基于MapReduce的LDA算法并行化實現(xiàn)47-48
- 4.3.2 聚類算法在Mahout下的實現(xiàn)48-52
- 4.3.2.1 層次聚類數據劃分策略49-50
- 4.3.2.2 基于MapReduce的層次聚類算法50
- 4.3.2.3 基于MapReduce的層次聚類算法實現(xiàn)50-52
- 4.4 本章小結52-53
- 第5章 實驗結果與分析53-67
- 5.1 網絡教學資源庫53-56
- 5.1.1 實驗與分析53-54
- 5.1.2 資源庫現(xiàn)狀調查54-56
- 5.2 資源學科和地域類型56-60
- 5.2.1 實驗與分析56-58
- 5.2.2 資源學科和地域現(xiàn)狀58-60
- 5.3 網絡教學資源同質性60-66
- 5.3.1 實驗與分析60-63
- 5.3.2 同質性分析63-66
- 5.4 本章小結66-67
- 第6章 總結與展望67-69
- 6.1 總結67
- 6.2 展望67-69
- 參考文獻69-71
- 致謝71
本文關鍵詞:基于Web數據的中小學網絡教學資源建設現(xiàn)狀調查,由筆耕文化傳播整理發(fā)布。
本文編號:300000
本文鏈接:http://sikaile.net/jiaoyulunwen/chuzhongjiaoyu/300000.html