面向少量標(biāo)注數(shù)據(jù)的中文命名實(shí)體識別技術(shù)研究
發(fā)布時(shí)間:2021-11-25 22:59
人工智能的第三次浪潮正在改變著人類的生活。作為人工智能的一個(gè)分支,自然語言處理技術(shù)能夠幫助機(jī)器分析理解人類的自然語言,是連接人類語言和機(jī)器的橋梁。而命名實(shí)體識別作為自然語言處理的基礎(chǔ)技術(shù)之一,它的準(zhǔn)確與否對后續(xù)任務(wù)如信息檢索、推薦系統(tǒng)、情感分析等起著至關(guān)重要的作用。其中,中文命名實(shí)體識別由于語言的特殊性和復(fù)雜性,在命名實(shí)體識別研究工作中備受關(guān)注。高性能模型需要大量的標(biāo)注訓(xùn)練集用于模型訓(xùn)練泛化,而高質(zhì)量中文標(biāo)注數(shù)據(jù)由于其高成本已經(jīng)成為影響人工智能算法性能的最大瓶頸之一。因此面向少量標(biāo)注數(shù)據(jù)的中文命名實(shí)體識別的研究工作具有重要的現(xiàn)實(shí)意義和應(yīng)用價(jià)值。本文以少量標(biāo)注數(shù)據(jù)應(yīng)用場景下的中文命名實(shí)體識別為研究對象,從減少所需標(biāo)注數(shù)據(jù)量和減少單位樣本標(biāo)注成本兩方面出發(fā),利用主動(dòng)學(xué)習(xí)、遷移學(xué)習(xí)以及規(guī)則與統(tǒng)計(jì)混合的方法,致力于在使模型達(dá)到一定精度的條件下減少所需的標(biāo)注成本。本文研究工作包括:(1)為避免基于不確定性的樣本選擇策略的局限性,制定一種基于不確定性和代表性的主動(dòng)學(xué)習(xí)樣本選擇策略并應(yīng)用于中文命名實(shí)體識別任務(wù)。在通用和領(lǐng)域語料上充分對比幾種不同樣本選擇策略在提升模型泛化能力方面的作用。(2)提出一種...
【文章來源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1.1論文組織結(jié)構(gòu)??論文組織結(jié)構(gòu)如圖1.1所示
2.2主動(dòng)學(xué)習(xí)??模型具備高性能的前提是需要大量的標(biāo)注訓(xùn)練集用于模型訓(xùn)練泛化。那么模??型的性能是否和訓(xùn)練集的大小成正比?相關(guān)研究通過實(shí)驗(yàn)發(fā)現(xiàn),如圖2.1所示,??機(jī)器學(xué)習(xí)模型的性能并不是如左圖——隨著訓(xùn)練數(shù)據(jù)集的擴(kuò)充呈線性增長。實(shí)際??上,隨著訓(xùn)練集樣本數(shù)目的増加,在開始階段學(xué)習(xí)模型的性能會得到快速提升。??當(dāng)訓(xùn)練集的樣本數(shù)目達(dá)到某一臨界值時(shí),學(xué)習(xí)模型的性能逐漸趨于穩(wěn)定,即使訓(xùn)??練樣本數(shù)繼續(xù)增加,模型也基本不再發(fā)生變化。因此在一定訓(xùn)練集樣本數(shù)目的條??件下,更高效地利用訓(xùn)練集中有價(jià)值的樣本,使模型性能得到快速提升,在一定??程度上能夠減少對標(biāo)注數(shù)據(jù)量的需求,降低標(biāo)注成本。如圖2.1右圖中虛線所示。??performance?performance??〇〇?〇〇??#?of?training?dataset??圖2.〗模型性能與訓(xùn)練集規(guī)模的關(guān)系??主動(dòng)學(xué)習(xí)通過一定的算法查詢最有用的未標(biāo)記樣本,并交由專家標(biāo)注,然后??將帶標(biāo)注樣本加入訓(xùn)練樣本集迭代訓(xùn)練提升模型性能。如何在缺乏足夠標(biāo)注訓(xùn)練??數(shù)據(jù)的條件下克服標(biāo)注瓶頸,以低標(biāo)注成本訓(xùn)練高性能模型是主動(dòng)學(xué)習(xí)研究的熱??點(diǎn)問題。??12?
的不同表示子空間中獲取信息,通過使用多組的參數(shù)矩陣來分別對2、尺、F進(jìn)行??線性變換,并將所有自注意力機(jī)制的結(jié)果進(jìn)行拼接得到最后自注意力機(jī)制的結(jié)果,??多頭自注意力機(jī)制結(jié)構(gòu)見圖2.2。??MultiHead(Q,K,V)?=?ConcatQieadi,?"”headh)W0??where?headt?=?Attention{QW^,?KW^,?VW^)?公式(2.4)??t??f??Linear??MatMul?|??i?t?i?1?[?Go門cat??[SoftMax?I?1 ̄rr ̄??|?Mask?(opt,)?Scaled?Dot-Product????Attention?0??Scale?士?i?[?il??[ ̄MatMul?|?Linear?U?Linear?J?Linear?p??tt??〇?K?V?::??V?K?Q??圖2.2單頭(左)和多頭(右)注意力機(jī)制[38]??而縮放因子是為了避免由于維度過高導(dǎo)致點(diǎn)乘結(jié)果過大,從而造成的梯度過??小情況。Transformer模型中縮放因子取自注意力機(jī)制的數(shù)學(xué)表達(dá)式如公式??(2.5)所示:??AttentioniQ
【參考文獻(xiàn)】:
期刊論文
[1]主動(dòng)學(xué)習(xí)與自學(xué)習(xí)的中文命名實(shí)體識別[J]. 鐘志農(nóng),劉方馳,吳燁,伍江江. 國防科技大學(xué)學(xué)報(bào). 2014(04)
[2]中文機(jī)構(gòu)名稱的識別與分析[J]. 張小衡,王玲玲. 中文信息學(xué)報(bào). 1997(04)
[3]中文姓名的自動(dòng)辨識[J]. 孫茂松,黃昌寧,高海燕,方捷. 中文信息學(xué)報(bào). 1995(02)
本文編號:3518950
【文章來源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1.1論文組織結(jié)構(gòu)??論文組織結(jié)構(gòu)如圖1.1所示
2.2主動(dòng)學(xué)習(xí)??模型具備高性能的前提是需要大量的標(biāo)注訓(xùn)練集用于模型訓(xùn)練泛化。那么模??型的性能是否和訓(xùn)練集的大小成正比?相關(guān)研究通過實(shí)驗(yàn)發(fā)現(xiàn),如圖2.1所示,??機(jī)器學(xué)習(xí)模型的性能并不是如左圖——隨著訓(xùn)練數(shù)據(jù)集的擴(kuò)充呈線性增長。實(shí)際??上,隨著訓(xùn)練集樣本數(shù)目的増加,在開始階段學(xué)習(xí)模型的性能會得到快速提升。??當(dāng)訓(xùn)練集的樣本數(shù)目達(dá)到某一臨界值時(shí),學(xué)習(xí)模型的性能逐漸趨于穩(wěn)定,即使訓(xùn)??練樣本數(shù)繼續(xù)增加,模型也基本不再發(fā)生變化。因此在一定訓(xùn)練集樣本數(shù)目的條??件下,更高效地利用訓(xùn)練集中有價(jià)值的樣本,使模型性能得到快速提升,在一定??程度上能夠減少對標(biāo)注數(shù)據(jù)量的需求,降低標(biāo)注成本。如圖2.1右圖中虛線所示。??performance?performance??〇〇?〇〇??#?of?training?dataset??圖2.〗模型性能與訓(xùn)練集規(guī)模的關(guān)系??主動(dòng)學(xué)習(xí)通過一定的算法查詢最有用的未標(biāo)記樣本,并交由專家標(biāo)注,然后??將帶標(biāo)注樣本加入訓(xùn)練樣本集迭代訓(xùn)練提升模型性能。如何在缺乏足夠標(biāo)注訓(xùn)練??數(shù)據(jù)的條件下克服標(biāo)注瓶頸,以低標(biāo)注成本訓(xùn)練高性能模型是主動(dòng)學(xué)習(xí)研究的熱??點(diǎn)問題。??12?
的不同表示子空間中獲取信息,通過使用多組的參數(shù)矩陣來分別對2、尺、F進(jìn)行??線性變換,并將所有自注意力機(jī)制的結(jié)果進(jìn)行拼接得到最后自注意力機(jī)制的結(jié)果,??多頭自注意力機(jī)制結(jié)構(gòu)見圖2.2。??MultiHead(Q,K,V)?=?ConcatQieadi,?"”headh)W0??where?headt?=?Attention{QW^,?KW^,?VW^)?公式(2.4)??t??f??Linear??MatMul?|??i?t?i?1?[?Go門cat??[SoftMax?I?1 ̄rr ̄??|?Mask?(opt,)?Scaled?Dot-Product????Attention?0??Scale?士?i?[?il??[ ̄MatMul?|?Linear?U?Linear?J?Linear?p??tt??〇?K?V?::??V?K?Q??圖2.2單頭(左)和多頭(右)注意力機(jī)制[38]??而縮放因子是為了避免由于維度過高導(dǎo)致點(diǎn)乘結(jié)果過大,從而造成的梯度過??小情況。Transformer模型中縮放因子取自注意力機(jī)制的數(shù)學(xué)表達(dá)式如公式??(2.5)所示:??AttentioniQ
【參考文獻(xiàn)】:
期刊論文
[1]主動(dòng)學(xué)習(xí)與自學(xué)習(xí)的中文命名實(shí)體識別[J]. 鐘志農(nóng),劉方馳,吳燁,伍江江. 國防科技大學(xué)學(xué)報(bào). 2014(04)
[2]中文機(jī)構(gòu)名稱的識別與分析[J]. 張小衡,王玲玲. 中文信息學(xué)報(bào). 1997(04)
[3]中文姓名的自動(dòng)辨識[J]. 孫茂松,黃昌寧,高海燕,方捷. 中文信息學(xué)報(bào). 1995(02)
本文編號:3518950
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3518950.html
最近更新
教材專著