天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向微博文本的命名實(shí)體識(shí)別方法研究

發(fā)布時(shí)間:2021-01-16 04:22
  命名實(shí)體識(shí)別作為自然語言處理領(lǐng)域的基本任務(wù)之一,在信息檢索,自動(dòng)問答,知識(shí)圖譜等領(lǐng)域發(fā)揮著重要作用。目前,關(guān)于命名實(shí)體對(duì)規(guī)范性文本的識(shí)別研究相對(duì)成熟,但對(duì)微博等非標(biāo)準(zhǔn)文本的命名實(shí)體識(shí)別研究相對(duì)較少,而微博文本的命名實(shí)體識(shí)別效果不如規(guī)范性文本。面向微博文本的命名實(shí)體識(shí)別任務(wù)已成為研究的熱點(diǎn)。隨著深度學(xué)習(xí)方法在自然語言處理領(lǐng)域中的廣泛應(yīng)用,通過深度學(xué)習(xí)方法來提升命名實(shí)體識(shí)別任務(wù)的性能已經(jīng)成為一種普遍流行的方式,因此,如何充分利用網(wǎng)絡(luò)文本特性并結(jié)合深度學(xué)習(xí)方法,進(jìn)而提出適用于網(wǎng)絡(luò)文本的命名實(shí)體識(shí)別框架成為了本文的研究重點(diǎn)。鑒于微博媒體行業(yè)的文本內(nèi)容較為口語化的特點(diǎn),本文將微博文本規(guī)范化過程與命名實(shí)體識(shí)別任務(wù)聯(lián)合建模,提出聯(lián)合文本規(guī)范化的命名實(shí)體識(shí)別框架;將非規(guī)范的網(wǎng)絡(luò)文本通過查找非規(guī)范詞典替換非規(guī)范詞的方式進(jìn)行規(guī)范化處理,并提出了融合注意力機(jī)制的實(shí)體識(shí)別模型進(jìn)一步改善了面向微博文本的實(shí)體識(shí)別性能。本文的主要?jiǎng)?chuàng)新點(diǎn)和貢獻(xiàn)如下:1.提出一種基于非規(guī)范詞特征的word2vec訓(xùn)練詞向量的方法計(jì)算相似度,通過訓(xùn)練非規(guī)范詞的高維詞表,將組合實(shí)體向量表示與高維詞表的向量進(jìn)行相似度計(jì)算;提出K-means... 

【文章來源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:68 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

面向微博文本的命名實(shí)體識(shí)別方法研究


隱馬爾可夫模型

無向圖,隨機(jī)場(chǎng),條件,隨機(jī)變量


行全局范圍的計(jì)算。無向圖表示圖G的節(jié)點(diǎn)表示隨機(jī)變量,邊五表??隨機(jī)變量之間的依賴性。根據(jù)聯(lián)合概率分布的局部或全局馬爾可夫性質(zhì),??可以將其稱為概率無向圖模型或馬爾可夫隨機(jī)場(chǎng)。設(shè)有一組隨機(jī)變量r,其聯(lián)合分??布為p(y)由無向圖g?=?<y,£)表示。圖g的一個(gè)節(jié)點(diǎn)v?e?y表示一個(gè)隨機(jī)變量v,??一條邊e?e?£表示兩個(gè)隨機(jī)變量間的依賴關(guān)系。??

示意圖,神經(jīng)網(wǎng)絡(luò),示意圖,自然語言處理


深度學(xué)習(xí)(De印Learning)又稱為深度神經(jīng)網(wǎng)絡(luò),近年來在語音識(shí)別和圖像??處理領(lǐng)域取得了較大進(jìn)展,深度學(xué)習(xí)技術(shù)己經(jīng)被用于處理自然語言處理領(lǐng)域的各??項(xiàng)任務(wù)。在自然語言處理領(lǐng)域,深度學(xué)習(xí)彌補(bǔ)了統(tǒng)計(jì)模型的人力成本高昂的短板,??深度學(xué)習(xí)模擬人類大腦進(jìn)行分析學(xué)習(xí),通過祌經(jīng)網(wǎng)絡(luò)對(duì)句子序列進(jìn)行特征提取,??逐步地將低級(jí)特征抽象為髙級(jí)特征用于分析任務(wù)。深度學(xué)習(xí)的優(yōu)勢(shì)在于可以自動(dòng)??學(xué)習(xí)有效的特征并減少?gòu)?fù)雜特征工程的提取。如何將獨(dú)立的詞語轉(zhuǎn)換成向量形式,??如何挑選出有價(jià)值的特征都是深度學(xué)習(xí)需要考慮的范疇。在特征提取層,需要對(duì)??神經(jīng)網(wǎng)絡(luò)的特征進(jìn)行衡量和把握,可以通過人為或者采用Attention機(jī)制設(shè)置特征??權(quán)重,而神經(jīng)網(wǎng)絡(luò)可以自動(dòng)對(duì)相關(guān)特征進(jìn)行抽取,相關(guān)模型的提出在一定程度上??推動(dòng)了自然語言處理的熱潮。??2.3.2循環(huán)神經(jīng)網(wǎng)絡(luò)??神經(jīng)網(wǎng)絡(luò)最基本的單位是神經(jīng)元。神經(jīng)元以不同方式連接以形成不同功能的神??經(jīng)網(wǎng)絡(luò)模型如圖2-3所示。??

【參考文獻(xiàn)】:
期刊論文
[1]命名實(shí)體識(shí)別研究綜述[J]. 劉瀏,王東波.  情報(bào)學(xué)報(bào). 2018(03)
[2]《現(xiàn)代漢語詞典》(第7版)四字成語釋義修訂拾零[J]. 席欣圣.  語文月刊. 2018(02)
[3]《現(xiàn)代漢語詞典》(第7版)新增詞語研究[J]. 尹若男.  哈爾濱學(xué)院學(xué)報(bào). 2017(12)
[4]基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別[J]. 張海楠,伍大勇,劉悅,程學(xué)旗.  中文信息學(xué)報(bào). 2017(04)
[5]基于新詞發(fā)現(xiàn)與知識(shí)庫(kù)的微博命名實(shí)體識(shí)別研究——以教育話題為例[J]. 陳桂強(qiáng).  經(jīng)營(yíng)管理者. 2017(11)
[6]面向自然語言處理的深度學(xué)習(xí)研究[J]. 奚雪峰,周國(guó)棟.  自動(dòng)化學(xué)報(bào). 2016(10)
[7]中文微博命名體識(shí)別[J]. 韓春燕,劉玉嬌,琚生根,李若晨,蘇翀.  四川大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(03)
[8]網(wǎng)絡(luò)諧音詞的分類與應(yīng)用研究[J]. 朱陳靜.  現(xiàn)代語文(語言研究版). 2015(02)

碩士論文
[1]中文命名實(shí)體識(shí)別算法研究[D]. 謝志寧.浙江大學(xué) 2017
[2]基于深度學(xué)習(xí)的文本特征表示及分類應(yīng)用[D]. 梁軍.鄭州大學(xué) 2016
[3]基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別研究[D]. 王國(guó)昱.北京工業(yè)大學(xué) 2015
[4]中文命名實(shí)體識(shí)別與歧義消解研究[D]. 龔凌暉.復(fù)旦大學(xué) 2011
[5]基于語料調(diào)查和語言對(duì)比的網(wǎng)絡(luò)新詞語造詞方法研究[D]. 林界軍.華東師范大學(xué) 2005



本文編號(hào):2980146

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2980146.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d500d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com