基于深度學(xué)習(xí)的MOOC論壇探索型對(duì)話識(shí)別方法研究
發(fā)布時(shí)間:2021-02-01 03:08
[目的/意義]大規(guī)模在線開放課程論壇具有豐富的用戶評(píng)論數(shù)據(jù)。從大量未區(qū)分的評(píng)論數(shù)據(jù)中,自動(dòng)識(shí)別出知識(shí)密度較高的探索型對(duì)話并挖掘其潛在價(jià)值,對(duì)于改善教師教學(xué)質(zhì)量以及提高學(xué)生知識(shí)水平具有重要影響。[方法/過程]首先利用GloVe方法訓(xùn)練詞向量,加強(qiáng)對(duì)文本語(yǔ)義的理解,然后利用卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)文本特征,提出一種基于深度學(xué)習(xí)的探索型對(duì)話自動(dòng)識(shí)別模型,并在學(xué)堂在線平臺(tái)《心理學(xué)概論》課程論壇標(biāo)注數(shù)據(jù)集上進(jìn)行實(shí)證與對(duì)比研究。[結(jié)果/結(jié)論]實(shí)驗(yàn)結(jié)果顯示,利用GloVe方法預(yù)訓(xùn)練詞向量以及在訓(xùn)練過程中不斷對(duì)詞向量進(jìn)行學(xué)習(xí)修正能夠提高模型效果。該模型識(shí)別探索型對(duì)話的F1值為0.94,相較于傳統(tǒng)的樸素貝葉斯方法(0.88)、邏輯斯諦回歸方法(0.89)、決策樹方法(0.88)以及隨機(jī)森林方法(0.88)取得較大提升,具有較高的實(shí)用性和較低的學(xué)習(xí)成本。
【文章來(lái)源】:圖書情報(bào)工作. 2019,63(05)北大核心CSSCI
【文章頁(yè)數(shù)】:8 頁(yè)
【部分圖文】:
基于卷積神經(jīng)網(wǎng)絡(luò)的探索型對(duì)話自動(dòng)識(shí)別模型
董慶興,李華陽(yáng),曹高輝,等.基于深度學(xué)習(xí)的MOOC論壇探索型對(duì)話識(shí)別方法研究[J].圖書情報(bào)工作,2019,63(5):92-99.嵌入層之后的卷積-池化層是整個(gè)CNN模型的核心,為了使模型更好地學(xué)習(xí)文本特征,本文采用了三個(gè)卷積核大小不同的卷積池化層,其詳細(xì)結(jié)構(gòu)見圖3。圖2基于卷積神經(jīng)網(wǎng)絡(luò)的探索型對(duì)話自動(dòng)識(shí)別模型圖3卷積池化層結(jié)構(gòu)圖3中,卷積-池化層主要由兩部分組成:卷積層和池化層。對(duì)于W∈Rk×d的卷積核,經(jīng)卷積操作得到新的特征ci:ci=f(w·Mi:i+k-1+b)式(6)其中,b為偏差項(xiàng),函數(shù)f為非線性激活函數(shù),例如sigmoid函數(shù)。ci可以理解為對(duì)輸入文本中單詞i到i+k-1所組成詞組的抽象表示。卷積核對(duì)輸入矩陣M卷積結(jié)束之后得到c=[c1,c2,…,cn-k+1]∈Rn-k+1。考慮到不同卷積核卷積得到的特征向量c的維度是不同的,而后續(xù)層的輸入維度又必須是固定的,所以我們需要對(duì)c的維度重新進(jìn)行調(diào)整。最大池化(maxpooling)是一種流行的解決方案,將c∈Rn-k+1輸入最大池化層將得到^c=max(c)。其中^c∈R,這一方面固定了特征向量的維度,另一方面又保留最重要的特征。所有卷積-池化層的輸出特征的維度都相同,這些特征拼接成的特征向量將輸入全連接層。為了防止模型過擬合,在模型訓(xùn)練的時(shí)候會(huì)對(duì)全連接層進(jìn)行dropout[33]處理,然后再使用softmax函數(shù)對(duì)全連接層的輸出進(jìn)行預(yù)測(cè)。為了提高模型的泛化能力,模型的損失函數(shù)在使用交叉熵?fù)p失函數(shù)的基礎(chǔ)上,加入了全連接層權(quán)重的l2正則項(xiàng),然后利
齪?62個(gè),分別占該年課程論壇中所有對(duì)話的1/3左右?梢钥闯鎏剿餍蛯(duì)話在MOOC論壇中數(shù)量較少,這一特點(diǎn)加大了探索型對(duì)話的檢索難度?傮w上看,對(duì)比2015年和2016年兩期課程在各項(xiàng)數(shù)據(jù)上均有明顯下降,由于2016年論壇數(shù)據(jù)過于稀少,本文主要以2015年數(shù)據(jù)集為基礎(chǔ)進(jìn)行后續(xù)分析和實(shí)驗(yàn),標(biāo)注后的數(shù)據(jù)截屏見圖4。表1兩期《心理學(xué)概論》課程數(shù)據(jù)概況課程時(shí)間報(bào)名人數(shù)論壇參與人數(shù)對(duì)話數(shù)量回復(fù)量探索型對(duì)話2015年春316801002102931653442016年春2337227422178862圖4《心理學(xué)概論》論壇數(shù)據(jù)標(biāo)注樣例2015年課程中探索型對(duì)話在24小時(shí)內(nèi)的發(fā)帖分布見圖5。在1點(diǎn)到15點(diǎn)之間,除了13點(diǎn)和14點(diǎn)出現(xiàn)明顯波峰之外,探索型對(duì)話的發(fā)布整體比較均勻。59
【參考文獻(xiàn)】:
期刊論文
[1]基于多屬性加權(quán)的社會(huì)化問答社區(qū)關(guān)鍵詞提取方法[J]. 余本功,李婷,楊穎. 圖書情報(bào)工作. 2018(05)
[2]基于支持向量機(jī)的先秦諸子典籍自動(dòng)分類研究[J]. 王東波,何琳,黃水清. 圖書情報(bào)工作. 2017(12)
[3]融合主題與情感特征的突發(fā)事件微博輿情演化分析[J]. 安璐,吳林. 圖書情報(bào)工作. 2017(15)
[4]融入情感差異和用戶興趣的微博轉(zhuǎn)發(fā)預(yù)測(cè)[J]. 唐曉波,羅穎利. 圖書情報(bào)工作. 2017(09)
[5]線上商品評(píng)論有效性分類專業(yè)領(lǐng)域知識(shí)模型的構(gòu)建研究[J]. 夏火松,甄化春,張穎燁,楊培. 情報(bào)學(xué)報(bào). 2016 (09)
[6]基于修正G2特征篩選的中文微博情感組合分類[J]. 杜亞楠,劉業(yè)政. 情報(bào)學(xué)報(bào). 2016 (04)
[7]虛擬社區(qū)用戶知識(shí)共享行為影響因素研究[J]. 黃維,趙鵬. 情報(bào)科學(xué). 2016(04)
[8]虛擬社區(qū)信息運(yùn)動(dòng)及其規(guī)律研究[J]. 陳曉美,貫君,王福. 圖書情報(bào)工作. 2016(06)
[9]發(fā)展教育大數(shù)據(jù):內(nèi)涵、價(jià)值和挑戰(zhàn)[J]. 楊現(xiàn)民,唐斯斯,李冀紅. 現(xiàn)代遠(yuǎn)程教育研究. 2016(01)
[10]一種基于復(fù)雜網(wǎng)絡(luò)模型的作者身份識(shí)別方法[J]. 李曉軍,劉懷亮,杜坤. 圖書情報(bào)工作. 2015(18)
本文編號(hào):3012092
【文章來(lái)源】:圖書情報(bào)工作. 2019,63(05)北大核心CSSCI
【文章頁(yè)數(shù)】:8 頁(yè)
【部分圖文】:
基于卷積神經(jīng)網(wǎng)絡(luò)的探索型對(duì)話自動(dòng)識(shí)別模型
董慶興,李華陽(yáng),曹高輝,等.基于深度學(xué)習(xí)的MOOC論壇探索型對(duì)話識(shí)別方法研究[J].圖書情報(bào)工作,2019,63(5):92-99.嵌入層之后的卷積-池化層是整個(gè)CNN模型的核心,為了使模型更好地學(xué)習(xí)文本特征,本文采用了三個(gè)卷積核大小不同的卷積池化層,其詳細(xì)結(jié)構(gòu)見圖3。圖2基于卷積神經(jīng)網(wǎng)絡(luò)的探索型對(duì)話自動(dòng)識(shí)別模型圖3卷積池化層結(jié)構(gòu)圖3中,卷積-池化層主要由兩部分組成:卷積層和池化層。對(duì)于W∈Rk×d的卷積核,經(jīng)卷積操作得到新的特征ci:ci=f(w·Mi:i+k-1+b)式(6)其中,b為偏差項(xiàng),函數(shù)f為非線性激活函數(shù),例如sigmoid函數(shù)。ci可以理解為對(duì)輸入文本中單詞i到i+k-1所組成詞組的抽象表示。卷積核對(duì)輸入矩陣M卷積結(jié)束之后得到c=[c1,c2,…,cn-k+1]∈Rn-k+1。考慮到不同卷積核卷積得到的特征向量c的維度是不同的,而后續(xù)層的輸入維度又必須是固定的,所以我們需要對(duì)c的維度重新進(jìn)行調(diào)整。最大池化(maxpooling)是一種流行的解決方案,將c∈Rn-k+1輸入最大池化層將得到^c=max(c)。其中^c∈R,這一方面固定了特征向量的維度,另一方面又保留最重要的特征。所有卷積-池化層的輸出特征的維度都相同,這些特征拼接成的特征向量將輸入全連接層。為了防止模型過擬合,在模型訓(xùn)練的時(shí)候會(huì)對(duì)全連接層進(jìn)行dropout[33]處理,然后再使用softmax函數(shù)對(duì)全連接層的輸出進(jìn)行預(yù)測(cè)。為了提高模型的泛化能力,模型的損失函數(shù)在使用交叉熵?fù)p失函數(shù)的基礎(chǔ)上,加入了全連接層權(quán)重的l2正則項(xiàng),然后利
齪?62個(gè),分別占該年課程論壇中所有對(duì)話的1/3左右?梢钥闯鎏剿餍蛯(duì)話在MOOC論壇中數(shù)量較少,這一特點(diǎn)加大了探索型對(duì)話的檢索難度?傮w上看,對(duì)比2015年和2016年兩期課程在各項(xiàng)數(shù)據(jù)上均有明顯下降,由于2016年論壇數(shù)據(jù)過于稀少,本文主要以2015年數(shù)據(jù)集為基礎(chǔ)進(jìn)行后續(xù)分析和實(shí)驗(yàn),標(biāo)注后的數(shù)據(jù)截屏見圖4。表1兩期《心理學(xué)概論》課程數(shù)據(jù)概況課程時(shí)間報(bào)名人數(shù)論壇參與人數(shù)對(duì)話數(shù)量回復(fù)量探索型對(duì)話2015年春316801002102931653442016年春2337227422178862圖4《心理學(xué)概論》論壇數(shù)據(jù)標(biāo)注樣例2015年課程中探索型對(duì)話在24小時(shí)內(nèi)的發(fā)帖分布見圖5。在1點(diǎn)到15點(diǎn)之間,除了13點(diǎn)和14點(diǎn)出現(xiàn)明顯波峰之外,探索型對(duì)話的發(fā)布整體比較均勻。59
【參考文獻(xiàn)】:
期刊論文
[1]基于多屬性加權(quán)的社會(huì)化問答社區(qū)關(guān)鍵詞提取方法[J]. 余本功,李婷,楊穎. 圖書情報(bào)工作. 2018(05)
[2]基于支持向量機(jī)的先秦諸子典籍自動(dòng)分類研究[J]. 王東波,何琳,黃水清. 圖書情報(bào)工作. 2017(12)
[3]融合主題與情感特征的突發(fā)事件微博輿情演化分析[J]. 安璐,吳林. 圖書情報(bào)工作. 2017(15)
[4]融入情感差異和用戶興趣的微博轉(zhuǎn)發(fā)預(yù)測(cè)[J]. 唐曉波,羅穎利. 圖書情報(bào)工作. 2017(09)
[5]線上商品評(píng)論有效性分類專業(yè)領(lǐng)域知識(shí)模型的構(gòu)建研究[J]. 夏火松,甄化春,張穎燁,楊培. 情報(bào)學(xué)報(bào). 2016 (09)
[6]基于修正G2特征篩選的中文微博情感組合分類[J]. 杜亞楠,劉業(yè)政. 情報(bào)學(xué)報(bào). 2016 (04)
[7]虛擬社區(qū)用戶知識(shí)共享行為影響因素研究[J]. 黃維,趙鵬. 情報(bào)科學(xué). 2016(04)
[8]虛擬社區(qū)信息運(yùn)動(dòng)及其規(guī)律研究[J]. 陳曉美,貫君,王福. 圖書情報(bào)工作. 2016(06)
[9]發(fā)展教育大數(shù)據(jù):內(nèi)涵、價(jià)值和挑戰(zhàn)[J]. 楊現(xiàn)民,唐斯斯,李冀紅. 現(xiàn)代遠(yuǎn)程教育研究. 2016(01)
[10]一種基于復(fù)雜網(wǎng)絡(luò)模型的作者身份識(shí)別方法[J]. 李曉軍,劉懷亮,杜坤. 圖書情報(bào)工作. 2015(18)
本文編號(hào):3012092
本文鏈接:http://sikaile.net/jiaoyulunwen/jsxd/3012092.html
最近更新
教材專著