基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別
發(fā)布時(shí)間:2018-06-15 17:56
本文選題:命名實(shí)體識(shí)別 + 深度學(xué)習(xí) ; 參考:《中文信息學(xué)報(bào)》2017年04期
【摘要】:由于中文詞語(yǔ)缺乏明確的邊界和大小寫特征,單字在不同詞語(yǔ)下的意思也不盡相同,較于英文,中文命名實(shí)體識(shí)別顯得更加困難。該文利用詞向量的特點(diǎn),提出了一種用于深度學(xué)習(xí)框架的字詞聯(lián)合方法,將字特征和詞特征統(tǒng)一地結(jié)合起來,它彌補(bǔ)了詞特征分詞錯(cuò)誤蔓延和字典稀疏的不足,也改善了字特征因固定窗口大小導(dǎo)致的上下文缺失。在詞特征中加入詞性信息后,進(jìn)一步提高了系統(tǒng)的性能。在1998年《人民日?qǐng)?bào)》語(yǔ)料上的實(shí)驗(yàn)結(jié)果表明,該方法達(dá)到了良好的效果,在地名、人名、機(jī)構(gòu)名識(shí)別任務(wù)上分別提高1.6%、8%、3%,加入詞性特征的字詞聯(lián)合方法的F1值可以達(dá)到96.8%、94.6%、88.6%。
[Abstract]:Due to the lack of clear boundary and case characteristics of Chinese words, the meanings of words are different under different words, so it is more difficult to identify named entities in Chinese than in English. Based on the characteristics of word vector, this paper proposes a word association method for the framework of in-depth learning, which unifies the word feature and word feature, which makes up for the deficiency of word feature segmentation error spread and dictionary sparsity. It also improves the context loss caused by the fixed window size. After adding part of speech information into word features, the performance of the system is further improved. The experimental results on the 1998 People's Daily corpus show that the method has achieved good results. In the task of place name, person name, and agency name recognition, the F1 value of the word and word combination method with part of speech features can reach 96.894.68.688.
【作者單位】: 中國(guó)科學(xué)院計(jì)算技術(shù)研究所;煙臺(tái)中科網(wǎng)絡(luò)技術(shù)研究所;
【基金】:國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(“973”計(jì)劃)(2014CB340401) 國(guó)家自然基金(61232010,61433014,61425016,61472401,61203298) 中國(guó)科學(xué)院青年創(chuàng)新促進(jìn)會(huì)優(yōu)秀會(huì)員項(xiàng)目(20144310,2016102) 泰山學(xué)者工程專項(xiàng)經(jīng)費(fèi)(ts201511082)
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 向曉雯,史曉東,曾華琳;一個(gè)統(tǒng)計(jì)與規(guī)則相結(jié)合的中文命名實(shí)體識(shí)別系統(tǒng)[J];計(jì)算機(jī)應(yīng)用;2005年10期
2 張曉艷;王挺;陳火旺;;命名實(shí)體識(shí)別研究[J];計(jì)算機(jī)科學(xué);2005年04期
3 邱莎;;幾種基于機(jī)器學(xué)習(xí)的生物命名實(shí)體識(shí)別模型比較[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年05期
4 趙軍;;命名實(shí)體識(shí)別、排歧和跨語(yǔ)言關(guān)聯(lián)[J];中文信息學(xué)報(bào);2009年02期
5 鄭強(qiáng);劉齊軍;王正華;朱云平;;生物醫(yī)學(xué)命名實(shí)體識(shí)別的研究與進(jìn)展[J];計(jì)算機(jī)應(yīng)用研究;2010年03期
6 張向U,
本文編號(hào):2022967
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2022967.html
最近更新
教材專著