基于XLNet與字詞融合編碼的中文命名實(shí)體識(shí)別研究
發(fā)布時(shí)間:2021-04-18 11:40
作為自然語言處理領(lǐng)域的子任務(wù)之一,命名實(shí)體識(shí)別已經(jīng)成為人工智能背景下的熱門研究對(duì)象,是信息檢索、機(jī)器翻譯、智能問答等諸多應(yīng)用領(lǐng)域研究中的核心問題。中文命名實(shí)體識(shí)別較英文命名實(shí)體識(shí)別相對(duì)困難,原因在于中文的最小語言元素是字,并且詞與詞之間沒有明顯的符號(hào)界限。為了進(jìn)一步提高中文命名實(shí)體的識(shí)別效率,本文提出了一種基于XLNet模型與字詞融合編碼的中文命名實(shí)體識(shí)別方法。首先,本文的方法將中文命名實(shí)體識(shí)別作為XLNet模型的一個(gè)新的應(yīng)用場(chǎng)景;赬LNet的中文命名實(shí)體識(shí)別方法繼承了Transformer模型的優(yōu)勢(shì),克服了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)在自然語言處理問題中并行性差的局限。此外,基于XLNet的命名實(shí)體識(shí)別引入了預(yù)訓(xùn)練模型,使語言模型在大規(guī)模語料庫的預(yù)訓(xùn)練之下能夠捕獲大量文本的先驗(yàn)知識(shí)。預(yù)訓(xùn)練后的模型再經(jīng)過下游任務(wù)的參數(shù)微調(diào)即可得出最終的目標(biāo)模型。同時(shí),本文的另一個(gè)創(chuàng)新點(diǎn)是在詞嵌入階段對(duì)輸入序列進(jìn)行分詞與分字的融合編碼。這使模型不僅克服了中文文本分詞困難的局限,而且能夠兼顧對(duì)輸入文本中詞與詞之間關(guān)聯(lián)性的關(guān)注。此外,為了將本文所提出的理論與實(shí)踐相結(jié)合,本文的工作還包含了一個(gè)中文命名實(shí)體識(shí)別演示系統(tǒng)...
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Encoder-Decoder基本框架
第2章基于注意力機(jī)制的命名實(shí)體識(shí)別模型11我們可以發(fā)現(xiàn),無論生成第幾個(gè)輸出,經(jīng)過Encoder編碼而成的語義向量C的長(zhǎng)度是固定的,并且語義向量C是編碼端和解碼端的唯一聯(lián)系,針對(duì)注意力機(jī)制來說,我們可以稱傳統(tǒng)的Encoder-Decoder框架是不具備“注意力能力”的,因?yàn)檎麄(gè)句子的語義被壓縮為一個(gè)語義向量,它無法體現(xiàn)相對(duì)較前的詞對(duì)當(dāng)前單詞的影響。同時(shí),語義向量C沒有表達(dá)整個(gè)輸入序列信息的能力并且如果輸入序列較長(zhǎng),越往前的語義信息在語義向量C中越容易被覆蓋。以上所說的傳統(tǒng)Encoder-Decoder框架的局限就促使了注意力機(jī)制的引進(jìn)。Attention被引進(jìn)的目的就是處理序列過長(zhǎng)和信息丟失的問題,Encoder-Decoder框架在注意力機(jī)制下的原理如圖2.2所示:圖2.2Encoder-Decoder在注意力機(jī)制下的框架由圖可知,注意力機(jī)制的引入使得Encoder部分的輸出不再是一個(gè)單一的語義向量C,此時(shí)產(chǎn)生的是幾個(gè)序列的集合,這樣一來,每一個(gè)輸出均可結(jié)合輸入部分豐富的語義信息。2.1.2注意力機(jī)制的原理談到注意力機(jī)制的原理,就不得不介紹幾個(gè)注意力模型中的向量,即Q,K,V。Q指的是Query,如果用機(jī)器翻譯作為模型的應(yīng)用載體,Q是在Decoder一端的,可以理解為目標(biāo)翻譯詞。K指的是Key,即源端的每一個(gè)詞,Q會(huì)與源端的每一個(gè)K進(jìn)行相似度的比較。V指的是Value,即源端的輸出的上下文向量,Value
第2章基于注意力機(jī)制的命名實(shí)體識(shí)別模型12與Key在自然語言處理領(lǐng)域下一般取等值。以下將以注意力機(jī)制的整體流程圖作為載體,詳細(xì)介紹注意力機(jī)制的原理。圖2.3展示了注意力機(jī)制的內(nèi)部工作原理:圖2.3注意力機(jī)制工作原理圖如圖所示,注意力機(jī)制的第一階段的工作可以概括為計(jì)算Query和Key的相似度。計(jì)算相似度的方法有很多,例如向量點(diǎn)積、Cosine相似度等等。本文用的F(Q,K)是相似度計(jì)算函數(shù)。計(jì)算所得的相似度則作為Encoder端詞的初始權(quán)重。在第二階段,模型將第一階段輸出的權(quán)重利用Softmax函數(shù)做歸一化處理,得到各詞歸一化后的權(quán)重ai,i代表詞在文本中的序號(hào)。這里Softmax的作用是將權(quán)重進(jìn)行一次得分轉(zhuǎn)換,一方面利用Softmax函數(shù)的內(nèi)在機(jī)制突出文本中重要元素的權(quán)重,另一方面將之前計(jì)算而得的權(quán)重做了一次整理,使各個(gè)詞的權(quán)重符合概率分布模型,更利于直觀表達(dá)不同詞受到的關(guān)注度不同。第三階段是Attention機(jī)制的核心步驟,即計(jì)算得出Attention的值。此過程就是將Value與權(quán)重ai進(jìn)行加權(quán)求和,最終得出針對(duì)Query的Attention值,目前的絕大多數(shù)注意力機(jī)制算法均符合以上介紹的三個(gè)階段的運(yùn)算過程。
【參考文獻(xiàn)】:
期刊論文
[1]自然語言處理技術(shù)中的中文分詞研究[J]. 陳開昌. 信息與電腦(理論版). 2016(19)
[2]六桿四面體單元組成球面網(wǎng)殼的節(jié)點(diǎn)構(gòu)造及裝配化施工全過程分析[J]. 董石麟,白光波,陳偉剛,鄭曉清. 空間結(jié)構(gòu). 2015(02)
[3]先秦古漢語典籍中的人名自動(dòng)識(shí)別研究[J]. 湯亞芬. 現(xiàn)代圖書情報(bào)技術(shù). 2013(Z1)
[4]命名實(shí)體識(shí)別研究進(jìn)展綜述[J]. 孫鎮(zhèn),王惠臨. 現(xiàn)代圖書情報(bào)技術(shù). 2010(06)
[5]基于篇章的中文地名識(shí)別研究[J]. 唐旭日,陳小荷,許超,李斌. 中文信息學(xué)報(bào). 2010(02)
[6]基于層疊條件隨機(jī)場(chǎng)的旅游領(lǐng)域命名實(shí)體識(shí)別[J]. 郭劍毅,薛征山,余正濤,張志坤,張宜浩,姚賢明. 中文信息學(xué)報(bào). 2009(05)
[7]面向短文本的命名實(shí)體識(shí)別[J]. 王丹,樊興華. 計(jì)算機(jī)應(yīng)用. 2009(01)
[8]基于支持向量機(jī)方法的中文組織機(jī)構(gòu)名的識(shí)別[J]. 陳霄,劉慧,陳玉泉. 計(jì)算機(jī)應(yīng)用研究. 2008(02)
[9]基于單字提示特征的中文命名實(shí)體識(shí)別快速算法[J]. 馮元勇,孫樂,李文波,張大鯤. 中文信息學(xué)報(bào). 2008(01)
[10]中文分詞技術(shù)[J]. 李淑英. 科技信息(科學(xué)教研). 2007(36)
碩士論文
[1]中文命名實(shí)體識(shí)別技術(shù)研究及檢驗(yàn)檢疫領(lǐng)域應(yīng)用[D]. 梁興政.浙江大學(xué) 2019
本文編號(hào):3145410
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Encoder-Decoder基本框架
第2章基于注意力機(jī)制的命名實(shí)體識(shí)別模型11我們可以發(fā)現(xiàn),無論生成第幾個(gè)輸出,經(jīng)過Encoder編碼而成的語義向量C的長(zhǎng)度是固定的,并且語義向量C是編碼端和解碼端的唯一聯(lián)系,針對(duì)注意力機(jī)制來說,我們可以稱傳統(tǒng)的Encoder-Decoder框架是不具備“注意力能力”的,因?yàn)檎麄(gè)句子的語義被壓縮為一個(gè)語義向量,它無法體現(xiàn)相對(duì)較前的詞對(duì)當(dāng)前單詞的影響。同時(shí),語義向量C沒有表達(dá)整個(gè)輸入序列信息的能力并且如果輸入序列較長(zhǎng),越往前的語義信息在語義向量C中越容易被覆蓋。以上所說的傳統(tǒng)Encoder-Decoder框架的局限就促使了注意力機(jī)制的引進(jìn)。Attention被引進(jìn)的目的就是處理序列過長(zhǎng)和信息丟失的問題,Encoder-Decoder框架在注意力機(jī)制下的原理如圖2.2所示:圖2.2Encoder-Decoder在注意力機(jī)制下的框架由圖可知,注意力機(jī)制的引入使得Encoder部分的輸出不再是一個(gè)單一的語義向量C,此時(shí)產(chǎn)生的是幾個(gè)序列的集合,這樣一來,每一個(gè)輸出均可結(jié)合輸入部分豐富的語義信息。2.1.2注意力機(jī)制的原理談到注意力機(jī)制的原理,就不得不介紹幾個(gè)注意力模型中的向量,即Q,K,V。Q指的是Query,如果用機(jī)器翻譯作為模型的應(yīng)用載體,Q是在Decoder一端的,可以理解為目標(biāo)翻譯詞。K指的是Key,即源端的每一個(gè)詞,Q會(huì)與源端的每一個(gè)K進(jìn)行相似度的比較。V指的是Value,即源端的輸出的上下文向量,Value
第2章基于注意力機(jī)制的命名實(shí)體識(shí)別模型12與Key在自然語言處理領(lǐng)域下一般取等值。以下將以注意力機(jī)制的整體流程圖作為載體,詳細(xì)介紹注意力機(jī)制的原理。圖2.3展示了注意力機(jī)制的內(nèi)部工作原理:圖2.3注意力機(jī)制工作原理圖如圖所示,注意力機(jī)制的第一階段的工作可以概括為計(jì)算Query和Key的相似度。計(jì)算相似度的方法有很多,例如向量點(diǎn)積、Cosine相似度等等。本文用的F(Q,K)是相似度計(jì)算函數(shù)。計(jì)算所得的相似度則作為Encoder端詞的初始權(quán)重。在第二階段,模型將第一階段輸出的權(quán)重利用Softmax函數(shù)做歸一化處理,得到各詞歸一化后的權(quán)重ai,i代表詞在文本中的序號(hào)。這里Softmax的作用是將權(quán)重進(jìn)行一次得分轉(zhuǎn)換,一方面利用Softmax函數(shù)的內(nèi)在機(jī)制突出文本中重要元素的權(quán)重,另一方面將之前計(jì)算而得的權(quán)重做了一次整理,使各個(gè)詞的權(quán)重符合概率分布模型,更利于直觀表達(dá)不同詞受到的關(guān)注度不同。第三階段是Attention機(jī)制的核心步驟,即計(jì)算得出Attention的值。此過程就是將Value與權(quán)重ai進(jìn)行加權(quán)求和,最終得出針對(duì)Query的Attention值,目前的絕大多數(shù)注意力機(jī)制算法均符合以上介紹的三個(gè)階段的運(yùn)算過程。
【參考文獻(xiàn)】:
期刊論文
[1]自然語言處理技術(shù)中的中文分詞研究[J]. 陳開昌. 信息與電腦(理論版). 2016(19)
[2]六桿四面體單元組成球面網(wǎng)殼的節(jié)點(diǎn)構(gòu)造及裝配化施工全過程分析[J]. 董石麟,白光波,陳偉剛,鄭曉清. 空間結(jié)構(gòu). 2015(02)
[3]先秦古漢語典籍中的人名自動(dòng)識(shí)別研究[J]. 湯亞芬. 現(xiàn)代圖書情報(bào)技術(shù). 2013(Z1)
[4]命名實(shí)體識(shí)別研究進(jìn)展綜述[J]. 孫鎮(zhèn),王惠臨. 現(xiàn)代圖書情報(bào)技術(shù). 2010(06)
[5]基于篇章的中文地名識(shí)別研究[J]. 唐旭日,陳小荷,許超,李斌. 中文信息學(xué)報(bào). 2010(02)
[6]基于層疊條件隨機(jī)場(chǎng)的旅游領(lǐng)域命名實(shí)體識(shí)別[J]. 郭劍毅,薛征山,余正濤,張志坤,張宜浩,姚賢明. 中文信息學(xué)報(bào). 2009(05)
[7]面向短文本的命名實(shí)體識(shí)別[J]. 王丹,樊興華. 計(jì)算機(jī)應(yīng)用. 2009(01)
[8]基于支持向量機(jī)方法的中文組織機(jī)構(gòu)名的識(shí)別[J]. 陳霄,劉慧,陳玉泉. 計(jì)算機(jī)應(yīng)用研究. 2008(02)
[9]基于單字提示特征的中文命名實(shí)體識(shí)別快速算法[J]. 馮元勇,孫樂,李文波,張大鯤. 中文信息學(xué)報(bào). 2008(01)
[10]中文分詞技術(shù)[J]. 李淑英. 科技信息(科學(xué)教研). 2007(36)
碩士論文
[1]中文命名實(shí)體識(shí)別技術(shù)研究及檢驗(yàn)檢疫領(lǐng)域應(yīng)用[D]. 梁興政.浙江大學(xué) 2019
本文編號(hào):3145410
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3145410.html
最近更新
教材專著