基于深度學(xué)習(xí)的中文微博命名實(shí)體識別
發(fā)布時(shí)間:2017-10-31 19:07
本文關(guān)鍵詞:基于深度學(xué)習(xí)的中文微博命名實(shí)體識別
更多相關(guān)文章: 微博 深度學(xué)習(xí) 自動(dòng)編碼器 卷積 命名實(shí)體識別
【摘要】:針對微博用語不規(guī)范、噪聲多、更新快、縮略語多,且數(shù)據(jù)量大等相關(guān)特點(diǎn),提出基于深度學(xué)習(xí)的方法進(jìn)行微博命名實(shí)體的識別。首先利用大量的未標(biāo)注的微博信息對自動(dòng)編碼器訓(xùn)練,獲得抽象特征,隨后將這些特征作為深度學(xué)習(xí)網(wǎng)絡(luò)的輸入,最后得出句子中每個(gè)字的類標(biāo)。在進(jìn)行自動(dòng)編碼器訓(xùn)練的過程中,使用卷積方法替代窗口移動(dòng)方法,以獲取句子中的長依賴信息。通過對新浪微博數(shù)據(jù)的實(shí)驗(yàn)結(jié)果表明,該深度學(xué)習(xí)方法能夠提高微博中命名實(shí)體識別的F1值,說明了本文算法的有效性。
【作者單位】: 四川大學(xué)計(jì)算機(jī)學(xué)院;
【關(guān)鍵詞】: 微博 深度學(xué)習(xí) 自動(dòng)編碼器 卷積 命名實(shí)體識別
【基金】:國家自然科學(xué)基金資助項(xiàng)目(61332066;81373239)
【分類號】:TP391.1
【正文快照】: 中文命名實(shí)體識別[1-3]是中文信息處理中一項(xiàng)重要的任務(wù)。隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,微博發(fā)展越來越快。據(jù)統(tǒng)計(jì),截止到2013年3月,新浪的微博注冊量已經(jīng)突破了5億[4]。如今的微博具有龐大的用戶群體和影響力,而微博中的命名實(shí)體通常又可以指示微博的主要內(nèi)容,識別微博中的命名實(shí)體
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張曉艷;王挺;陳火旺;;命名實(shí)體識別研究[J];計(jì)算機(jī)科學(xué);2005年04期
2 邱莎;;幾種基于機(jī)器學(xué)習(xí)的生物命名實(shí)體識別模型比較[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年05期
3 趙軍;;命名實(shí)體識別、排歧和跨語言關(guān)聯(lián)[J];中文信息學(xué)報(bào);2009年02期
4 鄭強(qiáng);劉齊軍;王正華;朱云平;;生物醫(yī)學(xué)命名實(shí)體識別的研究與進(jìn)展[J];計(jì)算機(jī)應(yīng)用研究;2010年03期
5 張向U,
本文編號:1123359
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1123359.html
最近更新
教材專著