天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的文本質(zhì)量分類研究

發(fā)布時(shí)間:2021-04-17 01:06
  維基百科是人類大型的知識(shí)庫(kù),是現(xiàn)代人獲取信息的在線資源,但一度受到質(zhì)量水平的質(zhì)疑,日益增加的條目,日益頻繁的編輯,人工評(píng)審將不符合實(shí)際。如果沒有得到適當(dāng)?shù)谋O(jiān)控和修改,可能會(huì)導(dǎo)致低質(zhì)量文章(甚至錯(cuò)誤信息)的產(chǎn)生。關(guān)于質(zhì)量問(wèn)題,每年有數(shù)百萬(wàn)的大學(xué)生、研究生畢業(yè),論文的質(zhì)量參差不齊,高校對(duì)于畢業(yè)生的論文也提出了越來(lái)越高的要求,應(yīng)屆生的論文在提交之前如何做到有效監(jiān)控和修改,畢業(yè)論文這種長(zhǎng)文本的自動(dòng)質(zhì)量分類,也是一個(gè)具有挑戰(zhàn)的任務(wù)。在長(zhǎng)文本質(zhì)量分類領(lǐng)域,本文中利用深度學(xué)習(xí)方法實(shí)現(xiàn)文本質(zhì)量自動(dòng)分類,主要研究了英文維基百科條目、中文維基百科條目、碩士畢業(yè)論文,主要工作開展如下:1.針對(duì)交叉熵只關(guān)注分類正確的類別的問(wèn)題,本文提出了改進(jìn)的交叉熵函數(shù),可以讓模型更好地?cái)M合數(shù)據(jù)分布。2.針對(duì)英文維基百科條目文本質(zhì)量分類問(wèn)題,本文提出了Att-LSTM自動(dòng)分類方法,該方法是端到端的,沒有特征工程的方法。在文本質(zhì)量6分類對(duì)比試驗(yàn)中,準(zhǔn)確率由69%提升到71%;同時(shí)將數(shù)據(jù)類別處理為3個(gè)大類,通過(guò)對(duì)比試驗(yàn),得出注意力機(jī)制可以代替一些手工特征的結(jié)論。3.本文擴(kuò)展了中文維基百科數(shù)據(jù)集,并提出了一個(gè)適用于中文維基百科文本... 

【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:79 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于深度學(xué)習(xí)的文本質(zhì)量分類研究


維基百科條目單詞統(tǒng)計(jì)圖

詞數(shù),章節(jié),文本,長(zhǎng)度


第四章碩士畢業(yè)生論文質(zhì)量自動(dòng)評(píng)估算法設(shè)計(jì)43圖4-2章節(jié)文本詞數(shù)長(zhǎng)度繪圖4.4.2實(shí)驗(yàn)環(huán)境本文實(shí)驗(yàn)選擇Mxnet框架對(duì)模型進(jìn)行實(shí)現(xiàn),Mxnet是亞馬遜的開源深度學(xué)習(xí)軟件框架,選擇Mxnet主要是因?yàn)樗哂锌蓴U(kuò)展性,允許快速模型訓(xùn)練,支持深度學(xué)習(xí)的最新技術(shù),并且作者直接講解技術(shù)要點(diǎn),Mxnet的高層接口Gluon支持靈活的動(dòng)態(tài)圖和高效的靜態(tài)圖,有助于程序訓(xùn)練過(guò)程中觀察數(shù)據(jù)變化,提供自然語(yǔ)言方向的技術(shù)接口Gluonnlp,非常方便快速實(shí)現(xiàn)模型設(shè)計(jì),并且GPU模型加速訓(xùn)練高效,能夠快速的反饋實(shí)驗(yàn)結(jié)果,此外,訓(xùn)練好的模型具有較好的移植性,操作簡(jiǎn)單等特點(diǎn)。本實(shí)驗(yàn)涉及的相關(guān)實(shí)驗(yàn)環(huán)境如表4-2。本論文中設(shè)計(jì)的深度神經(jīng)網(wǎng)絡(luò)模型,需要高效算力,為了方便實(shí)驗(yàn)反饋,使用計(jì)算機(jī)和服務(wù)器并行運(yùn)行實(shí)驗(yàn),這樣可以盡快獲得實(shí)驗(yàn)反潰以及前期收集大量數(shù)據(jù),需要耗費(fèi)大量時(shí)間,因此盡最大資源加以利用。表4-2實(shí)驗(yàn)環(huán)境分類環(huán)境版本號(hào)硬件設(shè)施NvidiaGeforce顯卡GTX10606G操作系統(tǒng)Windows101809開發(fā)環(huán)境Python3.6開發(fā)工具Pycharm2019.1.1開發(fā)框架Mxnet1.4.0

訓(xùn)練集,準(zhǔn)確率


電子科技大學(xué)碩士學(xué)位論文444.4.3實(shí)驗(yàn)與結(jié)果分析本實(shí)驗(yàn)文本截取長(zhǎng)度為8000,該模型的BiLSTM的神經(jīng)元個(gè)數(shù)是256,學(xué)習(xí)率的初始值為0.001,每過(guò)兩個(gè)周期就降低0.9倍,訓(xùn)練周期為20,批量大小為32,丟棄率為0.5,優(yōu)化器為Adam,圖4-1中γ手動(dòng)設(shè)置均為1。圖4-3是ChapterLSTM模型在訓(xùn)練過(guò)程中訓(xùn)練集、驗(yàn)證集上的F1值,圖中可見模型訓(xùn)練集擬合很好,驗(yàn)證集上效果緊跟其后,達(dá)到91%的F1值。圖4-4是ChapterLSTM方法在畢業(yè)論文上的訓(xùn)練損失值?梢钥闯鲈摲椒ㄔ趽p失值和準(zhǔn)確率、F1值上比較穩(wěn)定,在訓(xùn)練后期出現(xiàn)了一些過(guò)擬合,采取早停的方式防止出現(xiàn)過(guò)度擬合訓(xùn)練數(shù)據(jù)特征,模型在測(cè)試集上表現(xiàn)不佳的現(xiàn)象,因此截取訓(xùn)練周期取13,保存經(jīng)過(guò)13周期訓(xùn)練的模型參數(shù),進(jìn)行后面預(yù)測(cè)集上的預(yù)測(cè)評(píng)估。圖4-3訓(xùn)練集驗(yàn)證集準(zhǔn)確率圖4-4訓(xùn)練集驗(yàn)證集loss


本文編號(hào):3142515

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3142515.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4d62c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com