天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

基于深度學(xué)習(xí)模型的CCG超標(biāo)注

發(fā)布時(shí)間:2020-04-29 21:00
【摘要】:如何讓計(jì)算機(jī)理解并處理人類語言是人工智能領(lǐng)域的長盛不衰的研究課題。使用自然語言與具有人工智能的計(jì)算機(jī)交互常被稱為自然語言處理(NLP)。自然語言處理在我們?nèi)粘I钪袘?yīng)用十分廣泛。序列標(biāo)注是自然語言處理領(lǐng)域中歷史最悠久的研究課題之一,包括詞性標(biāo)注(Part of speech tagging)和CCG超標(biāo)注(Combinatory Categorial Grammar supertagging,組合范疇語法超標(biāo)注)。CCG超標(biāo)注是許多自然語言處理任務(wù)的前序步驟,例如組塊(chunking)和句法解析(parsing)。CCG超標(biāo)注可定義為:給定一個(gè)由詞構(gòu)成的序列,要求給序列中的每個(gè)詞賦予一個(gè)CCG超標(biāo)簽。CCG超標(biāo)注的最大挑戰(zhàn)在于超標(biāo)簽的總數(shù)巨大,以及每個(gè)詞可賦予的超標(biāo)簽數(shù)目眾多,這使得許多應(yīng)用非常復(fù)雜。前人提出過許多方法來應(yīng)對(duì)這一問題,這些方法通;诓煌慕y(tǒng)計(jì)機(jī)器學(xué)習(xí)方法。同時(shí)這些方法通常使用大量人工設(shè)計(jì)的表示和輸入特征來取得較好的實(shí)驗(yàn)效果。但是,如何自動(dòng)地提取輸入的表示特征也是研究的重點(diǎn)。深度學(xué)習(xí)可以看成是機(jī)器學(xué)習(xí)和表示學(xué)習(xí)的結(jié)合,可以自動(dòng)學(xué)習(xí)有用的特征和輸入表示。因此我們將嘗試使用深度學(xué)習(xí)技術(shù)處理CCG超標(biāo)注任務(wù)。在本文中,我們專注于CCG超標(biāo)注這一任務(wù),提出了一些技術(shù),可以讓賦予每個(gè)輸入詞的詞法類別數(shù)目減少。我們的目標(biāo)是開發(fā)一個(gè)簡單而準(zhǔn)確的模型來解決CCG超標(biāo)注的挑戰(zhàn),同時(shí)利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)必要的間接表示以避免復(fù)雜的人工特征選擇。我們認(rèn)為現(xiàn)有的CCG超標(biāo)注有三個(gè)主要問題。第一個(gè)問題是長序列建模問題,即循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)只能記憶較少的步驟,難以建模較長的序列。由于深度學(xué)習(xí)模型能從輸入的依存中受益,而統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法能夠從輸出的依存中受益;因此第二個(gè)問題是對(duì)于CCG超標(biāo)注這一結(jié)構(gòu)預(yù)測任務(wù),如何同時(shí)從輸入和輸出依存中學(xué)習(xí),這是非常必要的。最后,第三個(gè)問題是未登錄詞(OOV)的問題,即未登錄詞和罕見詞會(huì)降低模型的準(zhǔn)確率。因此,本文的主要目標(biāo)是使用深度學(xué)習(xí)技術(shù)解決上述CCG超標(biāo)注任務(wù)中的問題,并有效降低所預(yù)測的超標(biāo)簽的個(gè)數(shù)。此外,要避免使用詞法特征以及其他手工構(gòu)建的特征。特別地,以下問題是本文著重考慮的:1)如何記憶序列信息是許多序列標(biāo)注問題的關(guān)鍵任務(wù),CCG超標(biāo)注亦是如此。我們提出了一個(gè)基于門限循環(huán)單元(GRU)網(wǎng)絡(luò)的新方法。為了同時(shí)保存從左到右和從右到左的信息,我們應(yīng)用了雙向門限循環(huán)單元。此外,我們采用了深度結(jié)構(gòu)來學(xué)習(xí)輸入間的復(fù)雜交互。所提的方法的試驗(yàn)結(jié)果提升了CCG語法的超標(biāo)注和多標(biāo)注的性能。2)我們?yōu)镃CG超標(biāo)注提出了一個(gè)新的方法,叫做“后向-雙向長短時(shí)記憶網(wǎng)絡(luò)(Backward-BLSTM)”。長短時(shí)記憶網(wǎng)絡(luò)(LSTM)作為一個(gè)比門限循環(huán)單元更有效的模型,它能更好地記憶信息以及預(yù)測最可能的超標(biāo)簽。我們提出的結(jié)構(gòu)對(duì)于CCG語法的超標(biāo)注和多標(biāo)注都是有效的。試驗(yàn)結(jié)果表明所我們提出的方法能有效地建模長序列,同時(shí)能達(dá)到領(lǐng)先的性能。3)前人為CCG超標(biāo)注這一任務(wù)提出了許多模型。然而這些模型要么是使用基于手工構(gòu)建特征的機(jī)器學(xué)習(xí)方法,要么雖然是基于深度學(xué)習(xí)的模型但是卻忽略了臨近輸出標(biāo)簽之間的依存關(guān)系,而這一關(guān)系對(duì)于預(yù)測當(dāng)前標(biāo)簽十分重要。因此,如何利用臨近的輸出標(biāo)簽來預(yù)測當(dāng)前位置的標(biāo)簽是關(guān)鍵。在這項(xiàng)工作中,我們同時(shí)利用了條件隨機(jī)場(CRF)和雙向長短時(shí)記憶網(wǎng)絡(luò)。這個(gè)模型首先使用雙向長短時(shí)記憶網(wǎng)絡(luò)學(xué)習(xí)句子表示,同時(shí)獲取過去和未來的輸入并長距離地記憶這些數(shù)據(jù)。然后,模型使用條件隨機(jī)場來處理句子級(jí)別的標(biāo)簽信息并輸出預(yù)測。這個(gè)模型能夠同時(shí)從輸入和輸出中受益,性能優(yōu)于當(dāng)前最好的方法。試驗(yàn)結(jié)果表明所提方法在CCG超標(biāo)注和多標(biāo)注上超越了現(xiàn)有的方法。4)盡管許多工作已經(jīng)利用深度學(xué)習(xí)模型來解決CCG超標(biāo)注的問題,仍然沒有一項(xiàng)研究來深入解決未登錄詞的問題?紤]到這一點(diǎn),我們提出了一種簡潔而有效的方法來探索不同的輸入表示。為表示詞間的形態(tài)信息,首先使用預(yù)訓(xùn)練的詞向量來提取詞之間的相似度。然后我們使用字符級(jí)別的輸入表示,建立了字符與向量間的檢索表。然后把字符級(jí)別和詞級(jí)別的表示拼接到一起,送入雙向長短時(shí)記憶網(wǎng)絡(luò)來產(chǎn)生輸出。試驗(yàn)結(jié)果表明我們的方法在領(lǐng)域內(nèi)和領(lǐng)域外的數(shù)據(jù)集上都要優(yōu)于僅使用基于詞的輸入表示的模型。對(duì)于CCG超標(biāo)注這一問題,我們進(jìn)行了深入研究,并指出了現(xiàn)有公開技術(shù)的局限;谶@一分析,我們有條理地提出并實(shí)現(xiàn)了解決問題的新方法,并在若干數(shù)據(jù)集上驗(yàn)證了方法的有效性。試驗(yàn)結(jié)果證明了所有提出技術(shù)的有效性。
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.1;TP18

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 楊振中;史麗;;CCG于內(nèi)容計(jì)費(fèi)的研究分析[J];科技致富向?qū)?2013年20期

2 滿海霞;;漢語把字句及相關(guān)句式的CCG形式計(jì)算[J];湖北大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);2013年06期

3 于東洋;劉永恒;鄒璇;徐振忠;;船用大功率CCG傳動(dòng)系統(tǒng)研究[J];艦船科學(xué)技術(shù);2010年08期

4 王鑫;于東洋;陸輝;;CCG傳動(dòng)裝置動(dòng)態(tài)仿真初步研究[J];艦船科學(xué)技術(shù);2012年04期

5 李曉東;;貴州煤種的CCG干粉煤氣化工業(yè)實(shí)踐[J];煤化工;2017年03期

6 陳鵬;;組合范疇語法(CCG)的計(jì)算語言學(xué)價(jià)值[J];重慶理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué));2016年08期

7 周金龍;邱錫鵬;;基于啟發(fā)式搜索與預(yù)標(biāo)注的中文CCG句法分析[J];計(jì)算機(jī)應(yīng)用與軟件;2014年09期

8 王中慶;三維體元構(gòu)造切削法(CCG)造型原理研究[J];機(jī)械制造;2001年12期

9 苗綠;;中國社會(huì)智庫的政策影響機(jī)制分析——以中國與全球化智庫(CCG)推動(dòng)國際人才相關(guān)政策為例[J];智庫理論與實(shí)踐;2016年05期

10 全世超;瞿舒婧;陳素秀;趙璽華;潘景業(yè);黃躍躍;;英國國民衛(wèi)生服務(wù)CCG醫(yī)改帶給中國醫(yī)改的啟示與借鑒[J];中華全科醫(yī)學(xué);2017年03期

相關(guān)會(huì)議論文 前6條

1 宋彥;黃昌寧;揭春雨;;中文CCG樹庫的構(gòu)建[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

2 ;科林公司粉煤氣化技術(shù)(CCG)簡介[A];‘十二五’我國煤化工行業(yè)發(fā)展及節(jié)能減排技術(shù)論壇文集[C];2010年

3 徐苗;張延彬;吳志英;;中國漢族亨廷頓病患者CCG多態(tài)特點(diǎn)及遺傳方式特點(diǎn)[A];中華醫(yī)學(xué)會(huì)第十八次全國神經(jīng)病學(xué)學(xué)術(shù)會(huì)議論文匯編(下)[C];2015年

4 張寶榮;嚴(yán)雅萍;田均;殷鑫湞;趙國華;吳志英;夏昆;唐北沙;;中國大陸地區(qū)舞蹈病家系的CCG多態(tài)分析及脯氨酸富含區(qū)對(duì)聚集體的影響[A];中華醫(yī)學(xué)會(huì)第十三次全國神經(jīng)病學(xué)學(xué)術(shù)會(huì)議論文匯編[C];2010年

5 全世超;瞿舒婧;潘景業(yè);;英國NHS的CCG醫(yī)改備受爭議帶給中國醫(yī)改的啟示與借鑒[A];2015年浙江省全科醫(yī)學(xué)學(xué)術(shù)年會(huì)論文匯編[C];2015年

6 ;德國科林集團(tuán)清潔煤技術(shù)介紹-科林煤氣化(CCG)-科林褐煤干燥(DWT)[A];‘十二五’我國煤化工行業(yè)發(fā)展及節(jié)能減排技術(shù)論壇文集[C];2010年

相關(guān)重要報(bào)紙文章 前8條

1 本報(bào)記者 何芬蘭;應(yīng)對(duì)逆全球化CCG給出五招[N];國際商報(bào);2016年

2 本報(bào)記者 何芬蘭;CCG:英脫歐德示威并非“逆全球化”[N];國際商報(bào);2016年

3 記者 周武英;CCG熱議“一帶一路”國際合作共贏路徑[N];經(jīng)濟(jì)參考報(bào);2017年

4 本報(bào)實(shí)習(xí)記者 張婧;CCG:從展會(huì)翹楚到業(yè)界標(biāo)桿[N];中國文化報(bào);2017年

5 本報(bào)記者 何芬蘭;CCG:中美貿(mào)易平衡須何處著力[N];國際商報(bào);2017年

6 本報(bào)記者 何芬蘭;CCG:入境游全域效應(yīng)凸顯[N];國際商報(bào);2017年

7 本報(bào)記者 湯莉;CCG:中美可通過合作彌合分歧[N];國際商報(bào);2018年

8 本報(bào)記者 劉紅;CCG提出應(yīng)對(duì)中美貿(mào)易緊張局勢十點(diǎn)建議[N];金融時(shí)報(bào);2018年

相關(guān)博士學(xué)位論文 前1條

1 REKIA KADARI;基于深度學(xué)習(xí)模型的CCG超標(biāo)注[D];哈爾濱工業(yè)大學(xué);2018年

相關(guān)碩士學(xué)位論文 前3條

1 景越峰;基于CCG的閃光照相圖像重建研究[D];中國工程物理研究院;2005年

2 朱耀邦;基于CCG的語義解析算法改進(jìn)與組合方法研究[D];南京師范大學(xué);2015年

3 周金龍;基于啟發(fā)式搜索與預(yù)標(biāo)注的中文CCG句法分析[D];復(fù)旦大學(xué);2013年

,

本文編號(hào):2644995

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2644995.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶13eab***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com