不平衡數據分類方法研究及其在慕課課程評論情感分類中的應用
發(fā)布時間:2020-11-14 17:54
隨著信息技術的發(fā)展,越來越多的人在慕課學習平臺上選擇課程進行學習。然而,慕課學習平臺存在“低完成率”的問題。針對這個問題,有研究指出給學習者提供人性化的學習支持服務可以促進學習者的持續(xù)學習。此外,有研究指出情感支持服務是學習支持服務的重要部分。為了幫助學習支持服務者觀察學習者在學習過程中的情感變化并給學習支持服務中的情感疏導應用提供研究基礎,本文采用文本情感分類方法對慕課課程評論進行情感分類。然而,不平衡數據分類問題是當前文本情感分類研究面臨的主要挑戰(zhàn)之一;诓黄胶鈹祿挠柧毷沟梅诸惤Y果嚴重偏向樣本數量較多的情感類別,忽略樣本數量較少的情感類別,從而大大地降低分類性能。而有研究指出絕大多數慕課課程評論持積極情感;诓黄胶鈹祿挠柧毷沟梅诸惤Y果嚴重偏向積極情感,忽略消極情感,從而大大降低消極情感的召回率。在情感疏導應用中更需要準確識別消極情感學習者。因此,慕課課程評論情感分類中的不平衡數據分類問題是一個亟需解決的問題。本文針對不平衡數據分類問題,以慕課課程評論情感分類為應用背景,在數據預處理層面和分類算法層面做了以下工作:(1)數據預處理層面。本文提出了一種基于注意力機制的不平衡數據欠采樣方法。首先,該方法將多數類樣本平均分成n(n=少數類樣本數量)組;其次,引入注意力機制得到每一組樣本總的詞向量表示;最后,將每一組樣本總的詞向量表示和少數類樣本的詞向量表示輸入CNN(convolutional neural network)訓練。實驗結果表明該方法在分類性能上優(yōu)于基于質心空間的不平衡數據欠采樣方法和基于樣本權重的不平衡數據欠采樣方法。(2)分類算法層面。本文提出了一種融合CNN和EWC(elastic weight consolidation)算法的不平衡文本情感分類方法。首先,該方法使用隨機欠采樣方法得到多組平衡數據;其次,按順序單獨使用每一組平衡數據輸入CNN訓練,同時在訓練過程中引入EWC算法用以克服CNN中的災難性遺忘;最后,把使用最后一組平衡數據輸入CNN訓練得到的模型作為最終分類模型。實驗結果表明該方法在分類性能上優(yōu)于基于欠采樣和多分類算法的集成學習框架、基于預訓練詞向量的文本情感分類方法和基于多通道LSTM(long short-term memory)神經網絡的不平衡情感分類方法。
【學位單位】:江西師范大學
【學位級別】:碩士
【學位年份】:2020
【中圖分類】:TP391.1;TP18
【部分圖文】:
碩士學位論文8h為卷積窗口大小,b為偏置值。Xi:i+h-1表示由第i行到第i+h-1行組成的局部特征矩陣。池化層采用max-over-timepooling方法進行特征采樣,得到的特征值為c:cmax)(C公式2-2池化層的輸出作為CNN模型提出的最終特征向量,輸入至全連接層。模型使用Softmax激活函數進行分類。圖2-1CNN模型2.2.2LSTM神經網絡LSTM神經網絡是對傳統(tǒng)循環(huán)神經網絡(RNN)的改進,其使用記憶單元來對歷史信息進行更新,可以解決在反向傳播過程中的梯度消失和梯度爆炸問題。LSTM單元結構如圖2-2所示:圖2-2LSTM單元結構
碩士學位論文8h為卷積窗口大小,b為偏置值。Xi:i+h-1表示由第i行到第i+h-1行組成的局部特征矩陣。池化層采用max-over-timepooling方法進行特征采樣,得到的特征值為c:cmax)(C公式2-2池化層的輸出作為CNN模型提出的最終特征向量,輸入至全連接層。模型使用Softmax激活函數進行分類。圖2-1CNN模型2.2.2LSTM神經網絡LSTM神經網絡是對傳統(tǒng)循環(huán)神經網絡(RNN)的改進,其使用記憶單元來對歷史信息進行更新,可以解決在反向傳播過程中的梯度消失和梯度爆炸問題。LSTM單元結構如圖2-2所示:圖2-2LSTM單元結構
不平衡數據分類方法研究及其在慕課課程評論情感分類中的應用11表示進行加權求和得到每一組樣本總的詞向量表示。最后,將每一組樣本總的詞向量表示和少數類樣本的詞向量表示組合得到平衡的詞向量表示。3.2注意力機制注意力機制早期主要在Encoder-Decoder框架中使用,Encoder-Decoder框架如圖3-1所示。圖3-1Encoder-Decoder框架圖在圖3-1中,Module1表示編碼器,數據經過編碼器可以進行一定的變換;與之對應的Module2則表示解碼器,數據經過一系列的變換后經此輸出。假設輸出值為mi,其計算過程如公式3-1所示:(,,,)121iiimFmmmC公式3-1其中,Ci指的是輸出值對應的注意力語義編碼,其是由輸入的數據分布生成的。Ci計算過程如公式3-2所示:Tjjiji1nSCa)(公式3-2其中,S(nj)表示輸入數據經過編碼器Module1處理后形成得到的隱層狀態(tài),T表示輸入數據個數。aij表示輸入j對輸出mi的注意力分配概率。aij計算如公式3-3和公式3-4所示:Tkikijij1)exp()exp(eea公式3-3)tanh(1ehVbUWsijij公式3-4其中,eij表示的是輸入j對輸出i的影響力評價因子,hj代表編碼器Module1
【參考文獻】
本文編號:2883778
【學位單位】:江西師范大學
【學位級別】:碩士
【學位年份】:2020
【中圖分類】:TP391.1;TP18
【部分圖文】:
碩士學位論文8h為卷積窗口大小,b為偏置值。Xi:i+h-1表示由第i行到第i+h-1行組成的局部特征矩陣。池化層采用max-over-timepooling方法進行特征采樣,得到的特征值為c:cmax)(C公式2-2池化層的輸出作為CNN模型提出的最終特征向量,輸入至全連接層。模型使用Softmax激活函數進行分類。圖2-1CNN模型2.2.2LSTM神經網絡LSTM神經網絡是對傳統(tǒng)循環(huán)神經網絡(RNN)的改進,其使用記憶單元來對歷史信息進行更新,可以解決在反向傳播過程中的梯度消失和梯度爆炸問題。LSTM單元結構如圖2-2所示:圖2-2LSTM單元結構
碩士學位論文8h為卷積窗口大小,b為偏置值。Xi:i+h-1表示由第i行到第i+h-1行組成的局部特征矩陣。池化層采用max-over-timepooling方法進行特征采樣,得到的特征值為c:cmax)(C公式2-2池化層的輸出作為CNN模型提出的最終特征向量,輸入至全連接層。模型使用Softmax激活函數進行分類。圖2-1CNN模型2.2.2LSTM神經網絡LSTM神經網絡是對傳統(tǒng)循環(huán)神經網絡(RNN)的改進,其使用記憶單元來對歷史信息進行更新,可以解決在反向傳播過程中的梯度消失和梯度爆炸問題。LSTM單元結構如圖2-2所示:圖2-2LSTM單元結構
不平衡數據分類方法研究及其在慕課課程評論情感分類中的應用11表示進行加權求和得到每一組樣本總的詞向量表示。最后,將每一組樣本總的詞向量表示和少數類樣本的詞向量表示組合得到平衡的詞向量表示。3.2注意力機制注意力機制早期主要在Encoder-Decoder框架中使用,Encoder-Decoder框架如圖3-1所示。圖3-1Encoder-Decoder框架圖在圖3-1中,Module1表示編碼器,數據經過編碼器可以進行一定的變換;與之對應的Module2則表示解碼器,數據經過一系列的變換后經此輸出。假設輸出值為mi,其計算過程如公式3-1所示:(,,,)121iiimFmmmC公式3-1其中,Ci指的是輸出值對應的注意力語義編碼,其是由輸入的數據分布生成的。Ci計算過程如公式3-2所示:Tjjiji1nSCa)(公式3-2其中,S(nj)表示輸入數據經過編碼器Module1處理后形成得到的隱層狀態(tài),T表示輸入數據個數。aij表示輸入j對輸出mi的注意力分配概率。aij計算如公式3-3和公式3-4所示:Tkikijij1)exp()exp(eea公式3-3)tanh(1ehVbUWsijij公式3-4其中,eij表示的是輸入j對輸出i的影響力評價因子,hj代表編碼器Module1
【參考文獻】
相關期刊論文 前3條
1 尹達;;“慕課現象”的本質闡釋、現實反思與未來展望[J];電化教育研究;2015年05期
2 王志昊;王中卿;李壽山;李培峰;;不平衡情感分類中的特征選擇方法研究[J];中文信息學報;2013年04期
3 王中卿;李壽山;朱巧明;李培峰;周國棟;;基于不平衡數據的中文情感分類[J];中文信息學報;2012年03期
相關碩士學位論文 前3條
1 王琳;基于學習者學業(yè)情緒的MOOC評價與改進研究[D];西安電子科技大學;2019年
2 葉子銘;面向慕課課程評論的中文文本情感傾向性分析[D];江西師范大學;2019年
3 谷欣;基于MOOC課程評論的學習行為分析研究[D];華中師范大學;2018年
本文編號:2883778
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2883778.html
最近更新
教材專著