基于CNN和LSTM混合模型的中文詞性標(biāo)注
本文選題:詞性標(biāo)注 + 卷積神經(jīng)網(wǎng)絡(luò); 參考:《武漢大學(xué)學(xué)報(bào)(理學(xué)版)》2017年03期
【摘要】:中文詞性標(biāo)注具有重要的作用,它的準(zhǔn)確性和標(biāo)注速度直接影響到自然語(yǔ)言處理的后續(xù)任務(wù).提出一種基于CNN(convolutional neural network)和LSTM(long-short term memory)混合模型進(jìn)行中文詞性標(biāo)注.該模型采用三層結(jié)構(gòu),用詞向量和CNN的滑動(dòng)窗口特性產(chǎn)生詞語(yǔ)表示特征,LSTM的時(shí)序性來(lái)產(chǎn)生詞性標(biāo)注的序列標(biāo)簽.分別在PFR《人民日?qǐng)?bào)》語(yǔ)料庫(kù)、CTB7.0和CoNLL09語(yǔ)料庫(kù)上對(duì)該模型進(jìn)行測(cè)試,在未加入任何人工特征的條件下,對(duì)詞語(yǔ)進(jìn)行詞性標(biāo)注,詞性標(biāo)注效果好于HMM(hidden Markov model)、MLP(multi-layer perceptron)、CNN和LSTM.
[Abstract]:Chinese part-of-speech tagging plays an important role, and its accuracy and tagging speed directly affect the follow-up tasks of natural language processing. A hybrid model based on CNN(convolutional neural Network and LSTM(long-short term memory is proposed for Chinese part of speech tagging. The model uses three-layer structure, word vector and sliding window characteristic of CNN to produce sequential label of part of speech tagging. The model was tested on PFR < People's Daily > corpus CTB7.0 and CoNLL09 corpus, respectively. Without any artificial features, the effect of part of speech tagging was better than that of HMM(hidden Markov model.
【作者單位】: 武漢理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【基金】:國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863)資助項(xiàng)目(2015AA015403)
【分類(lèi)號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 完么才讓;安見(jiàn)才讓;;藏語(yǔ)詞性標(biāo)注[J];信息與電腦(理論版);2013年08期
2 魏歐;孫玉芳;;漢語(yǔ)詞性標(biāo)注方法的研究[J];計(jì)算機(jī)科學(xué);2000年07期
3 王素格,張永奎;基于搭配模式的漢語(yǔ)詞性標(biāo)注規(guī)則的獲取方法[J];計(jì)算機(jī)工程與應(yīng)用;2001年05期
4 杜永萍,鄭家恒;分詞及詞性標(biāo)注一致性校對(duì)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦開(kāi)發(fā)與應(yīng)用;2001年10期
5 劉健,鄭家恒;基于實(shí)例的詞性標(biāo)注方法研究[J];山西氣象;2001年02期
6 錢(qián)揖麗,鄭家恒;漢語(yǔ)語(yǔ)料詞性標(biāo)注自動(dòng)校對(duì)方法的研究[J];中文信息學(xué)報(bào);2004年02期
7 張虎,鄭家恒,劉江;語(yǔ)料庫(kù)詞性標(biāo)注一致性檢查方法研究[J];中文信息學(xué)報(bào);2004年05期
8 呂琳,周世斌,劉玉樹(shù);一種高性能英文詞性標(biāo)注器的設(shè)計(jì)與實(shí)現(xiàn)[J];北京理工大學(xué)學(xué)報(bào);2005年10期
9 牛洪梅;吐?tīng)柛?伊不拉音;;維吾爾語(yǔ)的詞性標(biāo)注校對(duì)初探[J];微型電腦應(yīng)用;2006年12期
10 牛洪梅;加米拉·吾守爾;吐?tīng)柛ひ啦祭?;現(xiàn)代維吾爾語(yǔ)的詞性標(biāo)注校對(duì)技術(shù)研究[J];伊犁師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2007年01期
相關(guān)會(huì)議論文 前10條
1 姜尚仆;陳群秀;;基于規(guī)則和統(tǒng)計(jì)的日語(yǔ)分詞和詞性標(biāo)注的研究[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
2 通拉嘎;;漢、蒙、藏、維分詞與詞性標(biāo)注技術(shù)發(fā)展現(xiàn)狀研究[A];第五屆全國(guó)青年計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2010年
3 帕里旦·吐?tīng)栠d;艾山·吾買(mǎi)爾;吐?tīng)柛ひ啦祭?早克熱·卡德?tīng)?阿力木江·艾沙;;基于最大熵的維吾爾語(yǔ)詞性標(biāo)注模型[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年
4 蘇祺;昝紅英;胡景賀;項(xiàng)錕;;詞性標(biāo)注對(duì)信息檢索系統(tǒng)性能的影響[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
5 張艷;徐波;;基于轉(zhuǎn)換的錯(cuò)誤學(xué)習(xí)方法的漢語(yǔ)詞性自動(dòng)標(biāo)注研究[A];輝煌二十年——中國(guó)中文信息學(xué)會(huì)二十周年學(xué)術(shù)會(huì)議論文集[C];2001年
6 溫鎖林;;漢語(yǔ)詞性自動(dòng)標(biāo)注軟件兼類(lèi)詞鑒別規(guī)則庫(kù)的設(shè)計(jì)[A];世紀(jì)之交的中國(guó)應(yīng)用語(yǔ)言學(xué)研究——第二屆全國(guó)語(yǔ)言文字應(yīng)用學(xué)術(shù)研討會(huì)論文集[C];1998年
7 楊爾弘;方瑩;喬羽;;漢語(yǔ)自動(dòng)分詞和詞性標(biāo)注評(píng)測(cè)[A];第二屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2004年
8 袁彩霞;王小捷;;基于受限最大熵模型的漢語(yǔ)詞性標(biāo)注的研究[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
9 張碧川;王小捷;徐文智;劉冬雪;;漢語(yǔ)兒童口語(yǔ)語(yǔ)料庫(kù)的建立及語(yǔ)料初步統(tǒng)計(jì)分析[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
10 邢富坤;宋柔;羅智勇;;SSD模型及其在詞性標(biāo)注中的應(yīng)用[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
相關(guān)博士學(xué)位論文 前1條
1 華卻才讓;基于樹(shù)到串藏語(yǔ)機(jī)器翻譯若干關(guān)鍵技術(shù)研究[D];陜西師范大學(xué);2014年
相關(guān)碩士學(xué)位論文 前10條
1 劉慧敏;中文詞性標(biāo)注及未登錄詞詞性預(yù)測(cè)研究[D];南京師范大學(xué);2015年
2 劉海峰;基于web語(yǔ)科庫(kù)的哈薩克語(yǔ)詞法分析[D];中央民族大學(xué);2015年
3 趙嘉億;中文詞性標(biāo)注中異構(gòu)數(shù)據(jù)問(wèn)題研究[D];復(fù)旦大學(xué);2014年
4 米爾阿迪力江·麥麥提;基于Morfessor的維吾爾語(yǔ)詞干提取和詞性標(biāo)注的研究[D];新疆大學(xué);2015年
5 努爾曙阿克·阿斯哈爾;哈薩克語(yǔ)詞性標(biāo)注軟件的開(kāi)發(fā)[D];新疆大學(xué);2015年
6 韓霞;基于半監(jiān)督隱馬爾科夫的漢語(yǔ)詞性標(biāo)注研究[D];大連理工大學(xué);2015年
7 洛桑嘎登;藏文自動(dòng)分詞與詞性標(biāo)注研究[D];中央民族大學(xué);2016年
8 楊蓓;老撾語(yǔ)分詞和詞性標(biāo)注方法研究[D];昆明理工大學(xué);2016年
9 袁慧;輔助古詩(shī)詞研究的唐詩(shī)語(yǔ)料庫(kù)的構(gòu)建[D];河北大學(xué);2016年
10 朱雷;中文分詞與詞性標(biāo)注的一體化學(xué)習(xí)及領(lǐng)域適應(yīng)性技術(shù)研究[D];東北大學(xué);2010年
,本文編號(hào):1936180
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1936180.html