當(dāng)前位置：主頁(yè) > 科技論文 > 計(jì)算機(jī)應(yīng)用論文 >

面向少量標(biāo)注數(shù)據(jù)的中文命名實(shí)體識(shí)別技術(shù)研究

發(fā)布時(shí)間：2021-11-25 22:59

　　人工智能的第三次浪潮正在改變著人類的生活。作為人工智能的一個(gè)分支,自然語(yǔ)言處理技術(shù)能夠幫助機(jī)器分析理解人類的自然語(yǔ)言,是連接人類語(yǔ)言和機(jī)器的橋梁。而命名實(shí)體識(shí)別作為自然語(yǔ)言處理的基礎(chǔ)技術(shù)之一,它的準(zhǔn)確與否對(duì)后續(xù)任務(wù)如信息檢索、推薦系統(tǒng)、情感分析等起著至關(guān)重要的作用。其中,中文命名實(shí)體識(shí)別由于語(yǔ)言的特殊性和復(fù)雜性,在命名實(shí)體識(shí)別研究工作中備受關(guān)注。高性能模型需要大量的標(biāo)注訓(xùn)練集用于模型訓(xùn)練泛化,而高質(zhì)量中文標(biāo)注數(shù)據(jù)由于其高成本已經(jīng)成為影響人工智能算法性能的最大瓶頸之一。因此面向少量標(biāo)注數(shù)據(jù)的中文命名實(shí)體識(shí)別的研究工作具有重要的現(xiàn)實(shí)意義和應(yīng)用價(jià)值。本文以少量標(biāo)注數(shù)據(jù)應(yīng)用場(chǎng)景下的中文命名實(shí)體識(shí)別為研究對(duì)象,從減少所需標(biāo)注數(shù)據(jù)量和減少單位樣本標(biāo)注成本兩方面出發(fā),利用主動(dòng)學(xué)習(xí)、遷移學(xué)習(xí)以及規(guī)則與統(tǒng)計(jì)混合的方法,致力于在使模型達(dá)到一定精度的條件下減少所需的標(biāo)注成本。本文研究工作包括:（1）為避免基于不確定性的樣本選擇策略的局限性,制定一種基于不確定性和代表性的主動(dòng)學(xué)習(xí)樣本選擇策略并應(yīng)用于中文命名實(shí)體識(shí)別任務(wù)。在通用和領(lǐng)域語(yǔ)料上充分對(duì)比幾種不同樣本選擇策略在提升模型泛化能力方面的作用。（2）提出一種...

【文章來(lái)源】：浙江大學(xué)浙江省 211工程院校 985工程院校教育部直屬院校

【文章頁(yè)數(shù)】：79 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

圖１．１論文組織結(jié)構(gòu)??論文組織結(jié)構(gòu)如圖１．１所示

模型性能,訓(xùn)練集

２．２主動(dòng)學(xué)習(xí)??模型具備高性能的前提是需要大量的標(biāo)注訓(xùn)練集用于模型訓(xùn)練泛化。那么模??型的性能是否和訓(xùn)練集的大小成正比？相關(guān)研究通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)，如圖２．１所示，??機(jī)器學(xué)習(xí)模型的性能并不是如左圖——隨著訓(xùn)練數(shù)據(jù)集的擴(kuò)充呈線性增長(zhǎng)。實(shí)際??上，隨著訓(xùn)練集樣本數(shù)目的増加，在開(kāi)始階段學(xué)習(xí)模型的性能會(huì)得到快速提升。??當(dāng)訓(xùn)練集的樣本數(shù)目達(dá)到某一臨界值時(shí)，學(xué)習(xí)模型的性能逐漸趨于穩(wěn)定，即使訓(xùn)??練樣本數(shù)繼續(xù)增加，模型也基本不再發(fā)生變化。因此在一定訓(xùn)練集樣本數(shù)目的條??件下，更高效地利用訓(xùn)練集中有價(jià)值的樣本，使模型性能得到快速提升，在一定??程度上能夠減少對(duì)標(biāo)注數(shù)據(jù)量的需求，降低標(biāo)注成本。如圖２．１右圖中虛線所示。??ｐｅｒｆｏｒｍａｎｃｅ?ｐｅｒｆｏｒｍａｎｃｅ??〇〇?〇〇??＃?ｏｆ?ｔｒａｉｎｉｎｇ?ｄａｔａｓｅｔ??圖２．〗模型性能與訓(xùn)練集規(guī)模的關(guān)系??主動(dòng)學(xué)習(xí)通過(guò)一定的算法查詢最有用的未標(biāo)記樣本，并交由專家標(biāo)注，然后??將帶標(biāo)注樣本加入訓(xùn)練樣本集迭代訓(xùn)練提升模型性能。如何在缺乏足夠標(biāo)注訓(xùn)練??數(shù)據(jù)的條件下克服標(biāo)注瓶頸，以低標(biāo)注成本訓(xùn)練高性能模型是主動(dòng)學(xué)習(xí)研究的熱??點(diǎn)問(wèn)題。??１２?

注意力機(jī)制,多頭

的不同表示子空間中獲取信息，通過(guò)使用多組的參數(shù)矩陣來(lái)分別對(duì)２、尺、Ｆ進(jìn)行??線性變換，并將所有自注意力機(jī)制的結(jié)果進(jìn)行拼接得到最后自注意力機(jī)制的結(jié)果，??多頭自注意力機(jī)制結(jié)構(gòu)見(jiàn)圖２．２。??ＭｕｌｔｉＨｅａｄ（Ｑ，Ｋ，Ｖ）?＝?ＣｏｎｃａｔＱｉｅａｄｉ，?＂”ｈｅａｄｈ）Ｗ０??ｗｈｅｒｅ?ｈｅａｄｔ?＝?Ａｔｔｅｎｔｉｏｎ｛ＱＷ＾，?ＫＷ＾，?ＶＷ＾）?公式（２．４）??ｔ??ｆ??Ｌｉｎｅａｒ??ＭａｔＭｕｌ?｜??ｉ?ｔ?ｉ?１?［?Ｇｏ門(mén)ｃａｔ??［ＳｏｆｔＭａｘ?Ｉ?１￣ｒｒ￣??｜?Ｍａｓｋ?（ｏｐｔ，）?Ｓｃａｌｅｄ?Ｄｏｔ－Ｐｒｏｄｕｃｔ??？?Ａｔｔｅｎｔｉｏｎ?０??Ｓｃａｌｅ?士?ｉ?［?ｉｌ??［￣ＭａｔＭｕｌ?｜?Ｌｉｎｅａｒ?Ｕ?Ｌｉｎｅａｒ?Ｊ?Ｌｉｎｅａｒ?ｐ??ｔｔ??〇?Ｋ?Ｖ?：：??Ｖ?Ｋ?Ｑ??圖２．２單頭（左）和多頭（右）注意力機(jī)制［３８］??而縮放因子是為了避免由于維度過(guò)高導(dǎo)致點(diǎn)乘結(jié)果過(guò)大，從而造成的梯度過(guò)??小情況。Ｔｒａｎｓｆｏｒｍｅｒ模型中縮放因子取自注意力機(jī)制的數(shù)學(xué)表達(dá)式如公式??（２．５）所示：??ＡｔｔｅｎｔｉｏｎｉＱ

【參考文獻(xiàn)】：
期刊論文
[1]主動(dòng)學(xué)習(xí)與自學(xué)習(xí)的中文命名實(shí)體識(shí)別[J]. 鐘志農(nóng),劉方馳,吳燁,伍江江.  國(guó)防科技大學(xué)學(xué)報(bào). 2014(04)
[2]中文機(jī)構(gòu)名稱的識(shí)別與分析[J]. 張小衡,王玲玲.  中文信息學(xué)報(bào). 1997(04)
[3]中文姓名的自動(dòng)辨識(shí)[J]. 孫茂松,黃昌寧,高海燕,方捷.  中文信息學(xué)報(bào). 1995(02)

本文編號(hào)：3518950

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3518950.html

上一篇：面向電子病歷的信息抽取技術(shù)研究
下一篇：基于Wikipedia語(yǔ)料擴(kuò)展的短文本數(shù)據(jù)流分類方法研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向少量標(biāo)注數(shù)據(jù)的中文命名實(shí)體識(shí)別技術(shù)研究