Web數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)教育論壇中的應(yīng)用研究
本文關(guān)鍵詞:Web數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)教育論壇中的應(yīng)用研究
更多相關(guān)文章: 網(wǎng)絡(luò)教育論壇 熱點(diǎn)話題 Web數(shù)據(jù)挖掘 中文分詞 K-means聚類(lèi)算法
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)教育論壇逐漸成為一種教育資源平臺(tái)并得到充實(shí)壯大,成為人們尤其是教師和學(xué)生日常交流、研究、學(xué)習(xí)中不可或缺的要素。網(wǎng)絡(luò)教育論壇尤其是與專(zhuān)業(yè)方向密切相關(guān)的論壇上有大量交流思想、探討學(xué)習(xí)和專(zhuān)業(yè)研究的帖子,這些帖子本身就是極好的教育資源,論壇對(duì)某個(gè)話題的深入廣泛的討論會(huì)使其成為熱點(diǎn)話題而受到廣泛關(guān)注。因帖子的數(shù)量龐大,手工統(tǒng)計(jì)分析網(wǎng)頁(yè)上帖子已不能滿(mǎn)足應(yīng)用要求。Web數(shù)據(jù)挖掘技術(shù)的發(fā)展,使深入研究和分析教育論壇的帖子內(nèi)容成為可能,為研究者提供了強(qiáng)大的技術(shù)支撐。利用Web數(shù)據(jù)挖掘技術(shù)研究教育論壇中有關(guān)專(zhuān)業(yè)研究學(xué)習(xí)方面的熱點(diǎn)話題,并把研究結(jié)果反饋于教育教學(xué)活動(dòng),是對(duì)變革教育方式積極有益的探索,對(duì)加快教育現(xiàn)代化進(jìn)程具有重要意義。 文章主要利用Web數(shù)據(jù)挖掘技術(shù)對(duì)網(wǎng)絡(luò)教育論壇上的內(nèi)容展開(kāi)研究。以北大中文論壇的中文信息處理版塊為研究對(duì)象,挖掘論壇中的熱點(diǎn)話題和話題領(lǐng)袖,從而對(duì)課堂教育教學(xué)提供補(bǔ)充和擴(kuò)展,加快教育方式變革。 文章主要完成了以下工作: (1)獲取網(wǎng)頁(yè)文本數(shù)據(jù)是Web數(shù)據(jù)挖掘的第一步,本研究實(shí)現(xiàn)了利用網(wǎng)絡(luò)爬蟲(chóng)程序下載網(wǎng)頁(yè),使用DOM樹(shù)和正則表達(dá)式解析網(wǎng)頁(yè)以獲得所需要的正文內(nèi)容。在進(jìn)行大規(guī)模網(wǎng)頁(yè)采集、抽取時(shí),對(duì)采集到的數(shù)據(jù)進(jìn)行清理、篩選、轉(zhuǎn)換,并將結(jié)果存入本地?cái)?shù)據(jù)庫(kù)中。 (2)實(shí)現(xiàn)并改進(jìn)正向最大匹配中文分詞算法,使分詞的粒度較大,便于劃分出一些學(xué)科的專(zhuān)有名詞。研究設(shè)計(jì)的中文分詞詞典能很好地支持本算法的實(shí)現(xiàn)。 (3)編程實(shí)現(xiàn)了經(jīng)典的K-means聚類(lèi)挖掘算法。通過(guò)對(duì)論壇網(wǎng)頁(yè)的聚類(lèi)分析發(fā)現(xiàn)網(wǎng)絡(luò)教育論壇中討論的熱點(diǎn)話題,通過(guò)判斷和分析熱點(diǎn)話題,就可把握話題的發(fā)展方向,了解教育論壇中人們研究、學(xué)習(xí)的主要方面,以此輔助教學(xué)。 (4)根據(jù)挖掘結(jié)果,有針對(duì)性地關(guān)注熱點(diǎn)話題、關(guān)注話題領(lǐng)袖引領(lǐng)的話題可以解決在專(zhuān)業(yè)方面反映突出的問(wèn)題,進(jìn)而可以利用好課堂內(nèi)外兩個(gè)平臺(tái)。課堂教學(xué)是教育教學(xué)工作的重要部分,而通過(guò)網(wǎng)絡(luò)教育論壇解決學(xué)生學(xué)習(xí)中遇到的問(wèn)題是對(duì)教育方式變革積極有益的探索。
【關(guān)鍵詞】:網(wǎng)絡(luò)教育論壇 熱點(diǎn)話題 Web數(shù)據(jù)挖掘 中文分詞 K-means聚類(lèi)算法
【學(xué)位授予單位】:新疆師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2011
【分類(lèi)號(hào)】:TP311.13;G434
【目錄】:
- 中文摘要3-4
- Abstract4-7
- 1 引言7-13
- 1.1 研究目的和意義8-9
- 1.1.1 研究目的8
- 1.1.2 研究意義8-9
- 1.2 研究對(duì)象的選取9-10
- 1.3 網(wǎng)絡(luò)教育論壇的研究現(xiàn)狀10-11
- 1.4 研究思路11
- 1.5 本文的組織安排11-12
- 1.6 本章小結(jié)12-13
- 2 網(wǎng)絡(luò)教育論壇分析的理論與方法13-16
- 2.1 網(wǎng)絡(luò)內(nèi)容分析理論13
- 2.2 人本主義學(xué)習(xí)理論13-14
- 2.3 知識(shí)管理理論14
- 2.4 統(tǒng)計(jì)分析法14-15
- 2.5 本章小結(jié)15-16
- 3 Web 數(shù)據(jù)挖掘的基本過(guò)程16-26
- 3.1 Web 數(shù)據(jù)挖掘概述16-17
- 3.1.1 Web 數(shù)據(jù)挖掘分類(lèi)16-17
- 3.1.2 網(wǎng)絡(luò)教育論壇相關(guān)術(shù)語(yǔ)17
- 3.2 Web 數(shù)據(jù)挖掘中的數(shù)據(jù)采集及預(yù)處理17-23
- 3.2.1 Web 數(shù)據(jù)采集17-20
- 3.2.2 Web 數(shù)據(jù)預(yù)處理20-23
- 3.3 挖掘熱點(diǎn)話題23-25
- 3.3.1 網(wǎng)絡(luò)熱點(diǎn)話題的定義23
- 3.3.2 文本聚類(lèi)23-24
- 3.3.3 k-平均值(k-means)聚類(lèi)算法24-25
- 3.4 本章小結(jié)25-26
- 4 本研究對(duì)關(guān)鍵技術(shù)的改進(jìn)26-37
- 4.1 改進(jìn)的Web 文本特征提取方法26-30
- 4.2 改進(jìn)的中文分詞算法30-36
- 4.3 本章小結(jié)36-37
- 5 網(wǎng)絡(luò)教育論壇的 Web 數(shù)據(jù)挖掘應(yīng)用與分析37-47
- 5.1 爬取網(wǎng)頁(yè)及抽取數(shù)據(jù)37-40
- 5.2 k-平均值算法挖掘應(yīng)用及分析40-45
- 5.2.1 對(duì)帖子主題的k-平均值聚類(lèi)挖掘及分析40-44
- 5.2.2 對(duì)發(fā)帖人的分析44-45
- 5.3 挖掘結(jié)果對(duì)課堂教學(xué)的指導(dǎo)45-46
- 5.4 本章小結(jié)46-47
- 總結(jié)與展望47-48
- 參考文獻(xiàn)48-51
- 在讀期間發(fā)表的論文51-52
- 后記52
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 魯明羽;姚曉娜;魏善嶺;;基于模糊聚類(lèi)的網(wǎng)絡(luò)論壇熱點(diǎn)話題挖掘[J];大連海事大學(xué)學(xué)報(bào);2008年04期
2 吳煥政;吳渝;;BBS網(wǎng)絡(luò)輿情定量分析研究[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年03期
3 譚駿珊;吳惠雄;;一種改進(jìn)整詞二分法的中文分詞詞典設(shè)計(jì)[J];信息技術(shù);2009年05期
4 陳桂林,王永成,韓客松,王剛;一種改進(jìn)的快速分詞算法[J];計(jì)算機(jī)研究與發(fā)展;2000年04期
5 吳勝遠(yuǎn);一種漢語(yǔ)分詞方法[J];計(jì)算機(jī)研究與發(fā)展;1996年04期
6 李朝;彭宏;葉蘇南;張歡;楊親遙;;基于DOM樹(shù)的可適應(yīng)性Web信息抽取[J];計(jì)算機(jī)科學(xué);2009年07期
7 曲著偉;李敏強(qiáng);;基于數(shù)據(jù)區(qū)域發(fā)現(xiàn)的信息抽取規(guī)則生成方法[J];計(jì)算機(jī)工程;2009年22期
8 金明珠;丁岳偉;;基于動(dòng)態(tài)主題庫(kù)的主題爬蟲(chóng)[J];計(jì)算機(jī)應(yīng)用;2009年S2期
9 關(guān)慧芬;師軍;;基于本體的主題爬蟲(chóng)技術(shù)研究[J];計(jì)算機(jī)仿真;2009年10期
10 饒文碧;柯慧燕;張麗;;一種擴(kuò)展的基于VSM的Web文本分類(lèi)算法[J];計(jì)算機(jī)應(yīng)用與軟件;2006年10期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條
1 李魁;大規(guī)模Web論壇采集技術(shù)研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2006年
2 王麗影;數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)教育平臺(tái)中的應(yīng)用研究[D];天津師范大學(xué);2008年
3 楊梅;網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)的研究[D];北京交通大學(xué);2008年
4 姚曉娜;BBS熱點(diǎn)話題挖掘與觀點(diǎn)分析[D];大連海事大學(xué);2008年
,本文編號(hào):533191
本文鏈接:http://sikaile.net/jiaoyulunwen/xueshengguanli/533191.html