天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

不平衡數(shù)據(jù)分類方法研究及其在慕課課程評論情感分類中的應(yīng)用

發(fā)布時間:2020-11-14 17:54
   隨著信息技術(shù)的發(fā)展,越來越多的人在慕課學(xué)習(xí)平臺上選擇課程進行學(xué)習(xí)。然而,慕課學(xué)習(xí)平臺存在“低完成率”的問題。針對這個問題,有研究指出給學(xué)習(xí)者提供人性化的學(xué)習(xí)支持服務(wù)可以促進學(xué)習(xí)者的持續(xù)學(xué)習(xí)。此外,有研究指出情感支持服務(wù)是學(xué)習(xí)支持服務(wù)的重要部分。為了幫助學(xué)習(xí)支持服務(wù)者觀察學(xué)習(xí)者在學(xué)習(xí)過程中的情感變化并給學(xué)習(xí)支持服務(wù)中的情感疏導(dǎo)應(yīng)用提供研究基礎(chǔ),本文采用文本情感分類方法對慕課課程評論進行情感分類。然而,不平衡數(shù)據(jù)分類問題是當(dāng)前文本情感分類研究面臨的主要挑戰(zhàn)之一。基于不平衡數(shù)據(jù)的訓(xùn)練使得分類結(jié)果嚴(yán)重偏向樣本數(shù)量較多的情感類別,忽略樣本數(shù)量較少的情感類別,從而大大地降低分類性能。而有研究指出絕大多數(shù)慕課課程評論持積極情感;诓黄胶鈹(shù)據(jù)的訓(xùn)練使得分類結(jié)果嚴(yán)重偏向積極情感,忽略消極情感,從而大大降低消極情感的召回率。在情感疏導(dǎo)應(yīng)用中更需要準(zhǔn)確識別消極情感學(xué)習(xí)者。因此,慕課課程評論情感分類中的不平衡數(shù)據(jù)分類問題是一個亟需解決的問題。本文針對不平衡數(shù)據(jù)分類問題,以慕課課程評論情感分類為應(yīng)用背景,在數(shù)據(jù)預(yù)處理層面和分類算法層面做了以下工作:(1)數(shù)據(jù)預(yù)處理層面。本文提出了一種基于注意力機制的不平衡數(shù)據(jù)欠采樣方法。首先,該方法將多數(shù)類樣本平均分成n(n=少數(shù)類樣本數(shù)量)組;其次,引入注意力機制得到每一組樣本總的詞向量表示;最后,將每一組樣本總的詞向量表示和少數(shù)類樣本的詞向量表示輸入CNN(convolutional neural network)訓(xùn)練。實驗結(jié)果表明該方法在分類性能上優(yōu)于基于質(zhì)心空間的不平衡數(shù)據(jù)欠采樣方法和基于樣本權(quán)重的不平衡數(shù)據(jù)欠采樣方法。(2)分類算法層面。本文提出了一種融合CNN和EWC(elastic weight consolidation)算法的不平衡文本情感分類方法。首先,該方法使用隨機欠采樣方法得到多組平衡數(shù)據(jù);其次,按順序單獨使用每一組平衡數(shù)據(jù)輸入CNN訓(xùn)練,同時在訓(xùn)練過程中引入EWC算法用以克服CNN中的災(zāi)難性遺忘;最后,把使用最后一組平衡數(shù)據(jù)輸入CNN訓(xùn)練得到的模型作為最終分類模型。實驗結(jié)果表明該方法在分類性能上優(yōu)于基于欠采樣和多分類算法的集成學(xué)習(xí)框架、基于預(yù)訓(xùn)練詞向量的文本情感分類方法和基于多通道LSTM(long short-term memory)神經(jīng)網(wǎng)絡(luò)的不平衡情感分類方法。
【學(xué)位單位】:江西師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2020
【中圖分類】:TP391.1;TP18
【部分圖文】:

模型圖,模型,神經(jīng)網(wǎng)絡(luò),單元


碩士學(xué)位論文8h為卷積窗口大小,b為偏置值。Xi:i+h-1表示由第i行到第i+h-1行組成的局部特征矩陣。池化層采用max-over-timepooling方法進行特征采樣,得到的特征值為c:cmax)(C公式2-2池化層的輸出作為CNN模型提出的最終特征向量,輸入至全連接層。模型使用Softmax激活函數(shù)進行分類。圖2-1CNN模型2.2.2LSTM神經(jīng)網(wǎng)絡(luò)LSTM神經(jīng)網(wǎng)絡(luò)是對傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的改進,其使用記憶單元來對歷史信息進行更新,可以解決在反向傳播過程中的梯度消失和梯度爆炸問題。LSTM單元結(jié)構(gòu)如圖2-2所示:圖2-2LSTM單元結(jié)構(gòu)

單元,神經(jīng)網(wǎng)絡(luò),梯度


碩士學(xué)位論文8h為卷積窗口大小,b為偏置值。Xi:i+h-1表示由第i行到第i+h-1行組成的局部特征矩陣。池化層采用max-over-timepooling方法進行特征采樣,得到的特征值為c:cmax)(C公式2-2池化層的輸出作為CNN模型提出的最終特征向量,輸入至全連接層。模型使用Softmax激活函數(shù)進行分類。圖2-1CNN模型2.2.2LSTM神經(jīng)網(wǎng)絡(luò)LSTM神經(jīng)網(wǎng)絡(luò)是對傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的改進,其使用記憶單元來對歷史信息進行更新,可以解決在反向傳播過程中的梯度消失和梯度爆炸問題。LSTM單元結(jié)構(gòu)如圖2-2所示:圖2-2LSTM單元結(jié)構(gòu)

框架圖,框架圖,公式,注意力


不平衡數(shù)據(jù)分類方法研究及其在慕課課程評論情感分類中的應(yīng)用11表示進行加權(quán)求和得到每一組樣本總的詞向量表示。最后,將每一組樣本總的詞向量表示和少數(shù)類樣本的詞向量表示組合得到平衡的詞向量表示。3.2注意力機制注意力機制早期主要在Encoder-Decoder框架中使用,Encoder-Decoder框架如圖3-1所示。圖3-1Encoder-Decoder框架圖在圖3-1中,Module1表示編碼器,數(shù)據(jù)經(jīng)過編碼器可以進行一定的變換;與之對應(yīng)的Module2則表示解碼器,數(shù)據(jù)經(jīng)過一系列的變換后經(jīng)此輸出。假設(shè)輸出值為mi,其計算過程如公式3-1所示:(,,,)121iiimFmmmC公式3-1其中,Ci指的是輸出值對應(yīng)的注意力語義編碼,其是由輸入的數(shù)據(jù)分布生成的。Ci計算過程如公式3-2所示:Tjjiji1nSCa)(公式3-2其中,S(nj)表示輸入數(shù)據(jù)經(jīng)過編碼器Module1處理后形成得到的隱層狀態(tài),T表示輸入數(shù)據(jù)個數(shù)。aij表示輸入j對輸出mi的注意力分配概率。aij計算如公式3-3和公式3-4所示:Tkikijij1)exp()exp(eea公式3-3)tanh(1ehVbUWsijij公式3-4其中,eij表示的是輸入j對輸出i的影響力評價因子,hj代表編碼器Module1
【參考文獻】

相關(guān)期刊論文 前3條

1 尹達;;“慕課現(xiàn)象”的本質(zhì)闡釋、現(xiàn)實反思與未來展望[J];電化教育研究;2015年05期

2 王志昊;王中卿;李壽山;李培峰;;不平衡情感分類中的特征選擇方法研究[J];中文信息學(xué)報;2013年04期

3 王中卿;李壽山;朱巧明;李培峰;周國棟;;基于不平衡數(shù)據(jù)的中文情感分類[J];中文信息學(xué)報;2012年03期


相關(guān)碩士學(xué)位論文 前3條

1 王琳;基于學(xué)習(xí)者學(xué)業(yè)情緒的MOOC評價與改進研究[D];西安電子科技大學(xué);2019年

2 葉子銘;面向慕課課程評論的中文文本情感傾向性分析[D];江西師范大學(xué);2019年

3 谷欣;基于MOOC課程評論的學(xué)習(xí)行為分析研究[D];華中師范大學(xué);2018年



本文編號:2883778

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2883778.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶52a71***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com