課程評論的情感傾向識別與話題挖掘技術(shù)研究
本文關(guān)鍵詞:課程評論的情感傾向識別與話題挖掘技術(shù)研究
更多相關(guān)文章: 課程評論 情感傾向識別 特征提取 多視圖半監(jiān)督學(xué)習(xí) 話題挖掘
【摘要】:近年來,教育領(lǐng)域涌現(xiàn)出了很多開放式互動(dòng)學(xué)習(xí)平臺,它們提供了豐富的互動(dòng)內(nèi)容,其中包括學(xué)習(xí)者對課程的評論。這些評論數(shù)據(jù)記錄了學(xué)習(xí)群體在學(xué)習(xí)上遇到的困難,以及對課程資源和教學(xué)者的意見,這些意見信息在協(xié)助用戶選課、改善教學(xué)質(zhì)量和平臺支持等方而均具有較大的價(jià)值。但是,大量課程評論所形成的反饋信息目前并未被有效利用。如何利用學(xué)習(xí)者的反饋信息為教學(xué)決策提供支持已成為研究者們思考的現(xiàn)實(shí)問題。因此迫切需要一套有效的方法,能對大量課程評論數(shù)據(jù)進(jìn)行挖掘,從而為分析者提供直觀、精確和有效的信息。 本文旨在研究面向課程評論的情感傾向識別與話題挖掘技術(shù),目的是希望將該技術(shù)應(yīng)用于學(xué)習(xí)行為分析以及在線學(xué)習(xí)資源評價(jià)等方面,實(shí)現(xiàn)信息技術(shù)與教育的深度融合。本文以課程評論文本中蘊(yùn)含的情感信息作為切入點(diǎn),針對真實(shí)網(wǎng)絡(luò)環(huán)境中文本數(shù)據(jù)的特征高維性、情感識別中訓(xùn)練數(shù)據(jù)標(biāo)注的高代價(jià)性、潛在話題提取的不確定性問題,提出了“數(shù)據(jù)采集——文本特征提取——半監(jiān)督情感識別——話題情感挖掘”的技術(shù)路線。根據(jù)該技術(shù)路線,我們首先對評論樣本進(jìn)行降維,并利用提取的特征集頻率值來表示實(shí)驗(yàn)樣本;然后采用一種半監(jiān)督學(xué)習(xí)方法對含有大量無標(biāo)記樣本的訓(xùn)練集進(jìn)行機(jī)器學(xué)習(xí),并對構(gòu)建的情感識別模型進(jìn)行有效性驗(yàn)證;最后利用情感識別模型獲取話題挖掘中待測樣本的情感標(biāo)簽,在此基礎(chǔ)上對所有待測樣本集進(jìn)行話題情感建模,提取出隱含的話題—情感分布信息,并將該模型分別用于課程單元和學(xué)習(xí)者個(gè)體的關(guān)鍵話題情感信息挖掘。本文得到了國家社會科學(xué)基金“面向高校青年網(wǎng)絡(luò)行為的情感識別關(guān)鍵技術(shù)研究”(14BGL131)與國家科技支撐計(jì)劃項(xiàng)目“網(wǎng)絡(luò)行為安全與青少年發(fā)展關(guān)鍵技術(shù)研究與示范應(yīng)用”(2011BAK08B00)的資助。 論文的主要研究工作及創(chuàng)新之處包含以下幾方面: (1)針對評論數(shù)據(jù)中存在的特征空間高維、高冗余性問題,提出了一種基于多空間微粒群優(yōu)化的特征提取方法對N-gram特征進(jìn)行篩選。通過對訓(xùn)練樣本空間進(jìn)行等粒度的交叉劃分,在每個(gè)樣本子空間上構(gòu)建多組微粒群,經(jīng)過多次迭代尋優(yōu),形成多組具有差異性的特征提取方案,然后整合這些提取方案,形成了最終的特征評估結(jié)果。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的特征提取算法相比,該方法提取的特征具有更強(qiáng)的情感區(qū)分能力,且在提取低維特征時(shí)能夠保持系統(tǒng)的識別準(zhǔn)確性。 (2)針對情感識別中訓(xùn)練樣本的手動(dòng)標(biāo)注代價(jià)太大的問題,提出了一種基于自適應(yīng)多視圖選擇的半監(jiān)督情感識別算法。該算法引入情感詞表計(jì)算N-gram特征的情感強(qiáng)度,根據(jù)情感強(qiáng)度的分布信息來選擇特征視圖,并在視圖迭代選擇中自適應(yīng)地構(gòu)建特征維度重要度的分布以確定每個(gè)視圖采樣的維度,最后形成較少數(shù)量的視圖,對無標(biāo)記樣本進(jìn)行集成篩選。篩選過程中,每次選取出標(biāo)注置信度最高的樣本來更新訓(xùn)練集,經(jīng)過若干次迭代以完成半監(jiān)督訓(xùn)練過程。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的多視圖半監(jiān)督學(xué)習(xí)算法相比,提出的算法選取的特征視圖差異度較大,在無標(biāo)記樣本的標(biāo)注中置信度更高,并在最終的情感識別中表現(xiàn)出更高的識別準(zhǔn)確率。此外,將評論的情感識別結(jié)果應(yīng)用于在線課程的支持率預(yù)測中,與用戶星級評價(jià)相比,情感識別產(chǎn)生的預(yù)測結(jié)果更接近于實(shí)際的情感態(tài)度分布。 (3)由于課程評論中存在對課程多方面的評價(jià)信息,針對這種局部話題的挖掘,本文提出了一種基于確定性情感信息的話題挖掘方法。該方法利用情感識別階段訓(xùn)練的情感識別模型獲取待測樣本的情感標(biāo)簽信息,并建立“情感—文本”和“文本—話題—句子”的依賴關(guān)系以訓(xùn)練話題—情感模型。為了檢測評論中的局部話題,該模型并沒有直接對每篇評論建模,而是對評論中關(guān)鍵情感語句進(jìn)行建模,并假設(shè)評論中每個(gè)語句中的單詞均只涉及一種情感傾向和一種話題,充分考慮到不同語句單元間的話題關(guān)聯(lián)性。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的Author-Topic模型相比,提出的方法具有更強(qiáng)的泛化能力,提取出的話題間相似度更低,且話題內(nèi)單詞表示的聚合度更高。最后,將該模型應(yīng)用于課程單元與學(xué)習(xí)者個(gè)體的話題情感挖掘中,采用情感一話題一單詞的概率分布來表示每個(gè)課程單元或?qū)W習(xí)者個(gè)體的關(guān)鍵話題信息。
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2014
【分類號】:G40-057
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 何陽;葉柯柯;;基于“北郵人論壇”的北京郵電大學(xué)校園網(wǎng)絡(luò)輿情分析報(bào)告[J];北京郵電大學(xué)學(xué)報(bào)(社會科學(xué)版);2012年02期
2 魏順平;;Moodle平臺數(shù)據(jù)挖掘研究——以一門在線培訓(xùn)課程學(xué)習(xí)過程分析為例[J];中國遠(yuǎn)程教育;2011年01期
3 滕云;陳玲;;基于BBS文本分析的高校網(wǎng)絡(luò)輿情特點(diǎn)及管理對策[J];北京教育(德育);2013年04期
4 孫艷;周學(xué)廣;付偉;;基于主題情感混合模型的無監(jiān)督文本情感分析[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年01期
5 李宗偉;;在線評論影響消費(fèi)者購買決策的模型構(gòu)建研究[J];創(chuàng)新;2013年05期
6 薛云霞;李壽山;王中卿;;基于社會關(guān)系網(wǎng)絡(luò)的半監(jiān)督情感分類[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年01期
7 尹裴;王洪偉;郭愷強(qiáng);;中文產(chǎn)品評論的“特征觀點(diǎn)對”識別:基于領(lǐng)域本體的建模方法[J];系統(tǒng)工程;2013年01期
8 郭婷;;情感詞獲取與分類評級——以中大BBS輿情分析系統(tǒng)為研究對象[J];劍南文學(xué)(經(jīng)典教苑);2013年09期
9 施國良;程楠楠;;Web環(huán)境下產(chǎn)品評論挖掘在企業(yè)競爭情報(bào)中的應(yīng)用[J];情報(bào)雜志;2011年11期
10 趙妍妍;秦兵;劉挺;;文本情感分析[J];軟件學(xué)報(bào);2010年08期
,本文編號:1268587
本文鏈接:http://sikaile.net/shoufeilunwen/sklbs/1268587.html