Web數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)教育論壇中的應(yīng)用研究
本文關(guān)鍵詞:Web數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)教育論壇中的應(yīng)用研究
更多相關(guān)文章: 網(wǎng)絡(luò)教育論壇 熱點話題 Web數(shù)據(jù)挖掘 中文分詞 K-means聚類算法
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)教育論壇逐漸成為一種教育資源平臺并得到充實壯大,成為人們尤其是教師和學(xué)生日常交流、研究、學(xué)習(xí)中不可或缺的要素。網(wǎng)絡(luò)教育論壇尤其是與專業(yè)方向密切相關(guān)的論壇上有大量交流思想、探討學(xué)習(xí)和專業(yè)研究的帖子,這些帖子本身就是極好的教育資源,論壇對某個話題的深入廣泛的討論會使其成為熱點話題而受到廣泛關(guān)注。因帖子的數(shù)量龐大,手工統(tǒng)計分析網(wǎng)頁上帖子已不能滿足應(yīng)用要求。Web數(shù)據(jù)挖掘技術(shù)的發(fā)展,使深入研究和分析教育論壇的帖子內(nèi)容成為可能,為研究者提供了強大的技術(shù)支撐。利用Web數(shù)據(jù)挖掘技術(shù)研究教育論壇中有關(guān)專業(yè)研究學(xué)習(xí)方面的熱點話題,并把研究結(jié)果反饋于教育教學(xué)活動,是對變革教育方式積極有益的探索,對加快教育現(xiàn)代化進(jìn)程具有重要意義。 文章主要利用Web數(shù)據(jù)挖掘技術(shù)對網(wǎng)絡(luò)教育論壇上的內(nèi)容展開研究。以北大中文論壇的中文信息處理版塊為研究對象,挖掘論壇中的熱點話題和話題領(lǐng)袖,從而對課堂教育教學(xué)提供補充和擴展,加快教育方式變革。 文章主要完成了以下工作: (1)獲取網(wǎng)頁文本數(shù)據(jù)是Web數(shù)據(jù)挖掘的第一步,本研究實現(xiàn)了利用網(wǎng)絡(luò)爬蟲程序下載網(wǎng)頁,使用DOM樹和正則表達(dá)式解析網(wǎng)頁以獲得所需要的正文內(nèi)容。在進(jìn)行大規(guī)模網(wǎng)頁采集、抽取時,對采集到的數(shù)據(jù)進(jìn)行清理、篩選、轉(zhuǎn)換,并將結(jié)果存入本地數(shù)據(jù)庫中。 (2)實現(xiàn)并改進(jìn)正向最大匹配中文分詞算法,使分詞的粒度較大,便于劃分出一些學(xué)科的專有名詞。研究設(shè)計的中文分詞詞典能很好地支持本算法的實現(xiàn)。 (3)編程實現(xiàn)了經(jīng)典的K-means聚類挖掘算法。通過對論壇網(wǎng)頁的聚類分析發(fā)現(xiàn)網(wǎng)絡(luò)教育論壇中討論的熱點話題,通過判斷和分析熱點話題,就可把握話題的發(fā)展方向,了解教育論壇中人們研究、學(xué)習(xí)的主要方面,以此輔助教學(xué)。 (4)根據(jù)挖掘結(jié)果,有針對性地關(guān)注熱點話題、關(guān)注話題領(lǐng)袖引領(lǐng)的話題可以解決在專業(yè)方面反映突出的問題,進(jìn)而可以利用好課堂內(nèi)外兩個平臺。課堂教學(xué)是教育教學(xué)工作的重要部分,而通過網(wǎng)絡(luò)教育論壇解決學(xué)生學(xué)習(xí)中遇到的問題是對教育方式變革積極有益的探索。
【關(guān)鍵詞】:網(wǎng)絡(luò)教育論壇 熱點話題 Web數(shù)據(jù)挖掘 中文分詞 K-means聚類算法
【學(xué)位授予單位】:新疆師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2011
【分類號】:TP311.13;G434
【目錄】:
- 中文摘要3-4
- Abstract4-7
- 1 引言7-13
- 1.1 研究目的和意義8-9
- 1.1.1 研究目的8
- 1.1.2 研究意義8-9
- 1.2 研究對象的選取9-10
- 1.3 網(wǎng)絡(luò)教育論壇的研究現(xiàn)狀10-11
- 1.4 研究思路11
- 1.5 本文的組織安排11-12
- 1.6 本章小結(jié)12-13
- 2 網(wǎng)絡(luò)教育論壇分析的理論與方法13-16
- 2.1 網(wǎng)絡(luò)內(nèi)容分析理論13
- 2.2 人本主義學(xué)習(xí)理論13-14
- 2.3 知識管理理論14
- 2.4 統(tǒng)計分析法14-15
- 2.5 本章小結(jié)15-16
- 3 Web 數(shù)據(jù)挖掘的基本過程16-26
- 3.1 Web 數(shù)據(jù)挖掘概述16-17
- 3.1.1 Web 數(shù)據(jù)挖掘分類16-17
- 3.1.2 網(wǎng)絡(luò)教育論壇相關(guān)術(shù)語17
- 3.2 Web 數(shù)據(jù)挖掘中的數(shù)據(jù)采集及預(yù)處理17-23
- 3.2.1 Web 數(shù)據(jù)采集17-20
- 3.2.2 Web 數(shù)據(jù)預(yù)處理20-23
- 3.3 挖掘熱點話題23-25
- 3.3.1 網(wǎng)絡(luò)熱點話題的定義23
- 3.3.2 文本聚類23-24
- 3.3.3 k-平均值(k-means)聚類算法24-25
- 3.4 本章小結(jié)25-26
- 4 本研究對關(guān)鍵技術(shù)的改進(jìn)26-37
- 4.1 改進(jìn)的Web 文本特征提取方法26-30
- 4.2 改進(jìn)的中文分詞算法30-36
- 4.3 本章小結(jié)36-37
- 5 網(wǎng)絡(luò)教育論壇的 Web 數(shù)據(jù)挖掘應(yīng)用與分析37-47
- 5.1 爬取網(wǎng)頁及抽取數(shù)據(jù)37-40
- 5.2 k-平均值算法挖掘應(yīng)用及分析40-45
- 5.2.1 對帖子主題的k-平均值聚類挖掘及分析40-44
- 5.2.2 對發(fā)帖人的分析44-45
- 5.3 挖掘結(jié)果對課堂教學(xué)的指導(dǎo)45-46
- 5.4 本章小結(jié)46-47
- 總結(jié)與展望47-48
- 參考文獻(xiàn)48-51
- 在讀期間發(fā)表的論文51-52
- 后記52
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 魯明羽;姚曉娜;魏善嶺;;基于模糊聚類的網(wǎng)絡(luò)論壇熱點話題挖掘[J];大連海事大學(xué)學(xué)報;2008年04期
2 吳煥政;吳渝;;BBS網(wǎng)絡(luò)輿情定量分析研究[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2010年03期
3 譚駿珊;吳惠雄;;一種改進(jìn)整詞二分法的中文分詞詞典設(shè)計[J];信息技術(shù);2009年05期
4 陳桂林,王永成,韓客松,王剛;一種改進(jìn)的快速分詞算法[J];計算機研究與發(fā)展;2000年04期
5 吳勝遠(yuǎn);一種漢語分詞方法[J];計算機研究與發(fā)展;1996年04期
6 李朝;彭宏;葉蘇南;張歡;楊親遙;;基于DOM樹的可適應(yīng)性Web信息抽取[J];計算機科學(xué);2009年07期
7 曲著偉;李敏強;;基于數(shù)據(jù)區(qū)域發(fā)現(xiàn)的信息抽取規(guī)則生成方法[J];計算機工程;2009年22期
8 金明珠;丁岳偉;;基于動態(tài)主題庫的主題爬蟲[J];計算機應(yīng)用;2009年S2期
9 關(guān)慧芬;師軍;;基于本體的主題爬蟲技術(shù)研究[J];計算機仿真;2009年10期
10 饒文碧;柯慧燕;張麗;;一種擴展的基于VSM的Web文本分類算法[J];計算機應(yīng)用與軟件;2006年10期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 李魁;大規(guī)模Web論壇采集技術(shù)研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2006年
2 王麗影;數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)教育平臺中的應(yīng)用研究[D];天津師范大學(xué);2008年
3 楊梅;網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)的研究[D];北京交通大學(xué);2008年
4 姚曉娜;BBS熱點話題挖掘與觀點分析[D];大連海事大學(xué);2008年
,本文編號:533191
本文鏈接:http://sikaile.net/jiaoyulunwen/xueshengguanli/533191.html