天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于深度學(xué)習(xí)的自動(dòng)句法糾錯(cuò)研究

發(fā)布時(shí)間:2021-07-28 05:48
  自動(dòng)語法改錯(cuò)(GEC),是自然語言處理中句法分析中較為困難的任務(wù)之一。在日常對(duì)話中,語法上的細(xì)微差別對(duì)于一個(gè)非母語的人來說是最困難掌握與理解的,當(dāng)前自然語言中的語法改錯(cuò)不僅包含語法錯(cuò)誤,也包含拼寫與搭配錯(cuò)誤。近年來,隨著深度學(xué)習(xí)的發(fā)展,自動(dòng)語法改錯(cuò)任務(wù)得到了不少關(guān)注;诮y(tǒng)計(jì)機(jī)器翻譯(SMT)的短語相關(guān)方法,是將GEC看做一個(gè)翻譯任務(wù):從“壞”轉(zhuǎn)換到“好”,所用的語料也是類似翻譯語料的平行語料。不同于SMT依賴于遞歸神經(jīng)網(wǎng)絡(luò)(RNN),也有通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)來進(jìn)行句子編碼,提取以短語為基礎(chǔ)的語義空間表征。這些方法都是通過建立端到端(encoder-decoder)的序列到序列(seq2seq)模型,理解錯(cuò)誤句子與正確句子之間的語義以及詞語表述的差異來定位語法錯(cuò)誤。為了進(jìn)一步充分學(xué)習(xí)數(shù)據(jù)中的知識(shí),通過監(jiān)督學(xué)習(xí)(supervised learning)方式是最常見的。該方法需要大量標(biāo)注數(shù)據(jù),但是標(biāo)注成本巨大。學(xué)者們發(fā)現(xiàn)可以利用非標(biāo)注(unlabeled)數(shù)據(jù)進(jìn)行非監(jiān)督學(xué)習(xí),通過挖掘其中有價(jià)值語義信息幫助其他的監(jiān)督任務(wù)理解。其中有利用基于翻譯語料的預(yù)訓(xùn)練模型,也有利用長文本語料進(jìn)行語... 

【文章來源】:北京大學(xué)北京市 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:79 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于深度學(xué)習(xí)的自動(dòng)句法糾錯(cuò)研究


CBoW模型,連續(xù)詞袋模型預(yù)測中心詞

上下文,模型,維度,多重


4圖 2.2 Skip-gram 模型,利用詞本身去預(yù)測詞的上下文 Word2Vec 基礎(chǔ)上,GloVe[7]也是一種常用的詞向量表示方法,結(jié)合了統(tǒng)文訓(xùn)練時(shí),利用了主題模型的補(bǔ)充信息。高頻詞正則化使得目標(biāo)會(huì)更關(guān)重點(diǎn)詞。多學(xué)者發(fā)現(xiàn),詞向量不僅可以表現(xiàn)為每個(gè)詞的語義,還能擴(kuò)展到多重維體詞向量包含多重維度的信息。可以包含語義(Semantic Representatio(Syntactic role)、句法成分(Chunking)、命名實(shí)體(Named Entity Recog義角色(Semantic Role)。每種類型在不同維度上訓(xùn)練,并把該維度信

詞語,句子,上下文,特征表示


圖 2.3 Variations on Word 詞的不同特征表示本句特征向量模型應(yīng)用十分廣泛,但是其仍然存在一些缺陷。一是詞語其實(shí)料的詞義,而沒法更多的考慮整句話以及詞語所處的上下文環(huán)境,“蘋果”這種水果還是指“蘋果公司”。所以,一個(gè)詞的詞向量不行學(xué)習(xí),而應(yīng)該考慮實(shí)際具體所處的位置,才能得到最準(zhǔn)確以及有征。一步考慮句子中詞語與詞語之間的聯(lián)系,以及當(dāng)前詞語所屬的語語在句子級(jí)別的特征表示,當(dāng)前詞每次都會(huì)針對(duì)所屬上下文投影到解析。最初始的屬于 Doc2vec[9],該特征表示為了把上下文進(jìn)行考入了一個(gè)段落特征(paragraph vector)。段落向量具有對(duì)全局信息的概量可以構(gòu)建語言模型,預(yù)測下一個(gè)詞。這種把句子融入的過程可以義信息,同時(shí)將句子整體語言表征為一個(gè)固定向量,模型在考慮詞對(duì)整體句子語義進(jìn)行考量。不過該方法有天然的缺陷,在于句子級(jí)


本文編號(hào):3307348

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3307348.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e8a9f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com