機(jī)器閱讀理解中特征表示與模型融合對(duì)正確率影響的研究
發(fā)布時(shí)間:2021-03-13 18:38
人工智能領(lǐng)域中機(jī)器閱讀理解是自然語(yǔ)言處理(Natural Language Processing,NLP)方向的核心研究任務(wù)之一,其研究目標(biāo)是讓機(jī)器閱讀原文之后,能夠正確的回答與原文內(nèi)容相關(guān)的問(wèn)題。提高機(jī)器對(duì)文本閱讀理解的正確率,可以促進(jìn)機(jī)器翻譯的準(zhǔn)確度,信息檢索的精準(zhǔn)度,問(wèn)答(Question Answer,QA)等NLP任務(wù)的研究,與此同時(shí),文本特征的表示方式對(duì)機(jī)器做閱讀理解的正確率也有一定的影響,所以文本特征表示和機(jī)器閱讀理正確率提升的研究是一個(gè)很有實(shí)際應(yīng)用價(jià)值的研究。為此,本文描述了文本特征處理過(guò)程,改進(jìn)了2016年Mahmoud Nabil論文中對(duì)文本特征的表示方式,對(duì)于英文中帶有“’”的單詞,原來(lái)將其分成兩個(gè)單詞來(lái)對(duì)待的不合理的方式改為恢復(fù)補(bǔ)全縮寫詞.同時(shí),將填充詞用于待移除高低頻的占位方式改為用另外一個(gè)詞來(lái)代替,原來(lái)的填充詞只做填充之用。在文本特征數(shù)值化后,不改變?cè)形谋咎卣黜樞虻那疤嵯?做到真正完全移除高低頻詞;在模型融合階段,使用了已訓(xùn)練的詞向量或位置詞向量表征文本的語(yǔ)法和語(yǔ)義信息,同時(shí)基于現(xiàn)有的經(jīng)典神經(jīng)網(wǎng)絡(luò)模型搭建系統(tǒng)融合需要的各個(gè)子模型。最后選取正確率高于65%的...
【文章來(lái)源】:云南大學(xué)云南省 211工程院校
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
原始html數(shù)據(jù)組織圖結(jié)構(gòu)圖
從原始數(shù)據(jù)解析后的instance數(shù)據(jù)
train-set數(shù)據(jù)集統(tǒng)計(jì)圖
【參考文獻(xiàn)】:
期刊論文
[1]基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)的時(shí)間序列預(yù)測(cè)模型[J]. 楊祎玥,伏潛,萬(wàn)定生. 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(03)
[2]基于SVM結(jié)合依存句法的金融領(lǐng)域輿情分析[J]. 黃進(jìn),阮彤,蔣銳權(quán). 計(jì)算機(jī)工程與應(yīng)用. 2015(23)
[3]基于樸素貝葉斯算法的垃圾郵件網(wǎng)關(guān)[J]. 劉宏偉,黃靜. 微計(jì)算機(jī)信息. 2006(18)
本文編號(hào):3080721
【文章來(lái)源】:云南大學(xué)云南省 211工程院校
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
原始html數(shù)據(jù)組織圖結(jié)構(gòu)圖
從原始數(shù)據(jù)解析后的instance數(shù)據(jù)
train-set數(shù)據(jù)集統(tǒng)計(jì)圖
【參考文獻(xiàn)】:
期刊論文
[1]基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)的時(shí)間序列預(yù)測(cè)模型[J]. 楊祎玥,伏潛,萬(wàn)定生. 計(jì)算機(jī)技術(shù)與發(fā)展. 2017(03)
[2]基于SVM結(jié)合依存句法的金融領(lǐng)域輿情分析[J]. 黃進(jìn),阮彤,蔣銳權(quán). 計(jì)算機(jī)工程與應(yīng)用. 2015(23)
[3]基于樸素貝葉斯算法的垃圾郵件網(wǎng)關(guān)[J]. 劉宏偉,黃靜. 微計(jì)算機(jī)信息. 2006(18)
本文編號(hào):3080721
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3080721.html
最近更新
教材專著