基于CNN和LSTM混合模型的中文詞性標注
本文選題:詞性標注 + 卷積神經(jīng)網(wǎng)絡(luò); 參考:《武漢大學學報(理學版)》2017年03期
【摘要】:中文詞性標注具有重要的作用,它的準確性和標注速度直接影響到自然語言處理的后續(xù)任務(wù).提出一種基于CNN(convolutional neural network)和LSTM(long-short term memory)混合模型進行中文詞性標注.該模型采用三層結(jié)構(gòu),用詞向量和CNN的滑動窗口特性產(chǎn)生詞語表示特征,LSTM的時序性來產(chǎn)生詞性標注的序列標簽.分別在PFR《人民日報》語料庫、CTB7.0和CoNLL09語料庫上對該模型進行測試,在未加入任何人工特征的條件下,對詞語進行詞性標注,詞性標注效果好于HMM(hidden Markov model)、MLP(multi-layer perceptron)、CNN和LSTM.
[Abstract]:Chinese part-of-speech tagging plays an important role, and its accuracy and tagging speed directly affect the follow-up tasks of natural language processing. A hybrid model based on CNN(convolutional neural Network and LSTM(long-short term memory is proposed for Chinese part of speech tagging. The model uses three-layer structure, word vector and sliding window characteristic of CNN to produce sequential label of part of speech tagging. The model was tested on PFR < People's Daily > corpus CTB7.0 and CoNLL09 corpus, respectively. Without any artificial features, the effect of part of speech tagging was better than that of HMM(hidden Markov model.
【作者單位】: 武漢理工大學計算機科學與技術(shù)學院;
【基金】:國家高技術(shù)研究發(fā)展計劃(863)資助項目(2015AA015403)
【分類號】:TP391.1
【相似文獻】
相關(guān)期刊論文 前10條
1 完么才讓;安見才讓;;藏語詞性標注[J];信息與電腦(理論版);2013年08期
2 魏歐;孫玉芳;;漢語詞性標注方法的研究[J];計算機科學;2000年07期
3 王素格,張永奎;基于搭配模式的漢語詞性標注規(guī)則的獲取方法[J];計算機工程與應用;2001年05期
4 杜永萍,鄭家恒;分詞及詞性標注一致性校對系統(tǒng)的設(shè)計與實現(xiàn)[J];電腦開發(fā)與應用;2001年10期
5 劉健,鄭家恒;基于實例的詞性標注方法研究[J];山西氣象;2001年02期
6 錢揖麗,鄭家恒;漢語語料詞性標注自動校對方法的研究[J];中文信息學報;2004年02期
7 張虎,鄭家恒,劉江;語料庫詞性標注一致性檢查方法研究[J];中文信息學報;2004年05期
8 呂琳,周世斌,劉玉樹;一種高性能英文詞性標注器的設(shè)計與實現(xiàn)[J];北京理工大學學報;2005年10期
9 牛洪梅;吐爾根;伊不拉音;;維吾爾語的詞性標注校對初探[J];微型電腦應用;2006年12期
10 牛洪梅;加米拉·吾守爾;吐爾根·依布拉音;;現(xiàn)代維吾爾語的詞性標注校對技術(shù)研究[J];伊犁師范學院學報(自然科學版);2007年01期
相關(guān)會議論文 前10條
1 姜尚仆;陳群秀;;基于規(guī)則和統(tǒng)計的日語分詞和詞性標注的研究[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
2 通拉嘎;;漢、蒙、藏、維分詞與詞性標注技術(shù)發(fā)展現(xiàn)狀研究[A];第五屆全國青年計算語言學研討會論文集[C];2010年
3 帕里旦·吐爾遜;艾山·吾買爾;吐爾根·依布拉音;早克熱·卡德爾;阿力木江·艾沙;;基于最大熵的維吾爾語詞性標注模型[A];少數(shù)民族青年自然語言處理技術(shù)研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學術(shù)研討會論文集[C];2010年
4 蘇祺;昝紅英;胡景賀;項錕;;詞性標注對信息檢索系統(tǒng)性能的影響[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2004年
5 張艷;徐波;;基于轉(zhuǎn)換的錯誤學習方法的漢語詞性自動標注研究[A];輝煌二十年——中國中文信息學會二十周年學術(shù)會議論文集[C];2001年
6 溫鎖林;;漢語詞性自動標注軟件兼類詞鑒別規(guī)則庫的設(shè)計[A];世紀之交的中國應用語言學研究——第二屆全國語言文字應用學術(shù)研討會論文集[C];1998年
7 楊爾弘;方瑩;喬羽;;漢語自動分詞和詞性標注評測[A];第二屆全國學生計算語言學研討會論文集[C];2004年
8 袁彩霞;王小捷;;基于受限最大熵模型的漢語詞性標注的研究[A];第三屆學生計算語言學研討會論文集[C];2006年
9 張碧川;王小捷;徐文智;劉冬雪;;漢語兒童口語語料庫的建立及語料初步統(tǒng)計分析[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
10 邢富坤;宋柔;羅智勇;;SSD模型及其在詞性標注中的應用[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
相關(guān)博士學位論文 前1條
1 華卻才讓;基于樹到串藏語機器翻譯若干關(guān)鍵技術(shù)研究[D];陜西師范大學;2014年
相關(guān)碩士學位論文 前10條
1 劉慧敏;中文詞性標注及未登錄詞詞性預測研究[D];南京師范大學;2015年
2 劉海峰;基于web語科庫的哈薩克語詞法分析[D];中央民族大學;2015年
3 趙嘉億;中文詞性標注中異構(gòu)數(shù)據(jù)問題研究[D];復旦大學;2014年
4 米爾阿迪力江·麥麥提;基于Morfessor的維吾爾語詞干提取和詞性標注的研究[D];新疆大學;2015年
5 努爾曙阿克·阿斯哈爾;哈薩克語詞性標注軟件的開發(fā)[D];新疆大學;2015年
6 韓霞;基于半監(jiān)督隱馬爾科夫的漢語詞性標注研究[D];大連理工大學;2015年
7 洛桑嘎登;藏文自動分詞與詞性標注研究[D];中央民族大學;2016年
8 楊蓓;老撾語分詞和詞性標注方法研究[D];昆明理工大學;2016年
9 袁慧;輔助古詩詞研究的唐詩語料庫的構(gòu)建[D];河北大學;2016年
10 朱雷;中文分詞與詞性標注的一體化學習及領(lǐng)域適應性技術(shù)研究[D];東北大學;2010年
,本文編號:1936180
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1936180.html