基于深度學(xué)習(xí)的中文微博命名實(shí)體識(shí)別
發(fā)布時(shí)間:2017-10-31 19:07
本文關(guān)鍵詞:基于深度學(xué)習(xí)的中文微博命名實(shí)體識(shí)別
更多相關(guān)文章: 微博 深度學(xué)習(xí) 自動(dòng)編碼器 卷積 命名實(shí)體識(shí)別
【摘要】:針對(duì)微博用語(yǔ)不規(guī)范、噪聲多、更新快、縮略語(yǔ)多,且數(shù)據(jù)量大等相關(guān)特點(diǎn),提出基于深度學(xué)習(xí)的方法進(jìn)行微博命名實(shí)體的識(shí)別。首先利用大量的未標(biāo)注的微博信息對(duì)自動(dòng)編碼器訓(xùn)練,獲得抽象特征,隨后將這些特征作為深度學(xué)習(xí)網(wǎng)絡(luò)的輸入,最后得出句子中每個(gè)字的類標(biāo)。在進(jìn)行自動(dòng)編碼器訓(xùn)練的過(guò)程中,使用卷積方法替代窗口移動(dòng)方法,以獲取句子中的長(zhǎng)依賴信息。通過(guò)對(duì)新浪微博數(shù)據(jù)的實(shí)驗(yàn)結(jié)果表明,該深度學(xué)習(xí)方法能夠提高微博中命名實(shí)體識(shí)別的F1值,說(shuō)明了本文算法的有效性。
【作者單位】: 四川大學(xué)計(jì)算機(jī)學(xué)院;
【關(guān)鍵詞】: 微博 深度學(xué)習(xí) 自動(dòng)編碼器 卷積 命名實(shí)體識(shí)別
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(61332066;81373239)
【分類號(hào)】:TP391.1
【正文快照】: 中文命名實(shí)體識(shí)別[1-3]是中文信息處理中一項(xiàng)重要的任務(wù)。隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,微博發(fā)展越來(lái)越快。據(jù)統(tǒng)計(jì),截止到2013年3月,新浪的微博注冊(cè)量已經(jīng)突破了5億[4]。如今的微博具有龐大的用戶群體和影響力,而微博中的命名實(shí)體通常又可以指示微博的主要內(nèi)容,識(shí)別微博中的命名實(shí)體
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 張曉艷;王挺;陳火旺;;命名實(shí)體識(shí)別研究[J];計(jì)算機(jī)科學(xué);2005年04期
2 邱莎;;幾種基于機(jī)器學(xué)習(xí)的生物命名實(shí)體識(shí)別模型比較[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年05期
3 趙軍;;命名實(shí)體識(shí)別、排歧和跨語(yǔ)言關(guān)聯(lián)[J];中文信息學(xué)報(bào);2009年02期
4 鄭強(qiáng);劉齊軍;王正華;朱云平;;生物醫(yī)學(xué)命名實(shí)體識(shí)別的研究與進(jìn)展[J];計(jì)算機(jī)應(yīng)用研究;2010年03期
5 張向U,
本文編號(hào):1123357
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1123357.html
最近更新
教材專著