天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向少量標(biāo)注數(shù)據(jù)的中文命名實(shí)體識別技術(shù)研究

發(fā)布時(shí)間:2021-11-25 22:59
  人工智能的第三次浪潮正在改變著人類的生活。作為人工智能的一個(gè)分支,自然語言處理技術(shù)能夠幫助機(jī)器分析理解人類的自然語言,是連接人類語言和機(jī)器的橋梁。而命名實(shí)體識別作為自然語言處理的基礎(chǔ)技術(shù)之一,它的準(zhǔn)確與否對后續(xù)任務(wù)如信息檢索、推薦系統(tǒng)、情感分析等起著至關(guān)重要的作用。其中,中文命名實(shí)體識別由于語言的特殊性和復(fù)雜性,在命名實(shí)體識別研究工作中備受關(guān)注。高性能模型需要大量的標(biāo)注訓(xùn)練集用于模型訓(xùn)練泛化,而高質(zhì)量中文標(biāo)注數(shù)據(jù)由于其高成本已經(jīng)成為影響人工智能算法性能的最大瓶頸之一。因此面向少量標(biāo)注數(shù)據(jù)的中文命名實(shí)體識別的研究工作具有重要的現(xiàn)實(shí)意義和應(yīng)用價(jià)值。本文以少量標(biāo)注數(shù)據(jù)應(yīng)用場景下的中文命名實(shí)體識別為研究對象,從減少所需標(biāo)注數(shù)據(jù)量和減少單位樣本標(biāo)注成本兩方面出發(fā),利用主動(dòng)學(xué)習(xí)、遷移學(xué)習(xí)以及規(guī)則與統(tǒng)計(jì)混合的方法,致力于在使模型達(dá)到一定精度的條件下減少所需的標(biāo)注成本。本文研究工作包括:(1)為避免基于不確定性的樣本選擇策略的局限性,制定一種基于不確定性和代表性的主動(dòng)學(xué)習(xí)樣本選擇策略并應(yīng)用于中文命名實(shí)體識別任務(wù)。在通用和領(lǐng)域語料上充分對比幾種不同樣本選擇策略在提升模型泛化能力方面的作用。(2)提出一種... 

【文章來源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:79 頁

【學(xué)位級別】:碩士

【部分圖文】:

面向少量標(biāo)注數(shù)據(jù)的中文命名實(shí)體識別技術(shù)研究


圖1.1論文組織結(jié)構(gòu)??論文組織結(jié)構(gòu)如圖1.1所示

模型性能,訓(xùn)練集


2.2主動(dòng)學(xué)習(xí)??模型具備高性能的前提是需要大量的標(biāo)注訓(xùn)練集用于模型訓(xùn)練泛化。那么模??型的性能是否和訓(xùn)練集的大小成正比?相關(guān)研究通過實(shí)驗(yàn)發(fā)現(xiàn),如圖2.1所示,??機(jī)器學(xué)習(xí)模型的性能并不是如左圖——隨著訓(xùn)練數(shù)據(jù)集的擴(kuò)充呈線性增長。實(shí)際??上,隨著訓(xùn)練集樣本數(shù)目的増加,在開始階段學(xué)習(xí)模型的性能會得到快速提升。??當(dāng)訓(xùn)練集的樣本數(shù)目達(dá)到某一臨界值時(shí),學(xué)習(xí)模型的性能逐漸趨于穩(wěn)定,即使訓(xùn)??練樣本數(shù)繼續(xù)增加,模型也基本不再發(fā)生變化。因此在一定訓(xùn)練集樣本數(shù)目的條??件下,更高效地利用訓(xùn)練集中有價(jià)值的樣本,使模型性能得到快速提升,在一定??程度上能夠減少對標(biāo)注數(shù)據(jù)量的需求,降低標(biāo)注成本。如圖2.1右圖中虛線所示。??performance?performance??〇〇?〇〇??#?of?training?dataset??圖2.〗模型性能與訓(xùn)練集規(guī)模的關(guān)系??主動(dòng)學(xué)習(xí)通過一定的算法查詢最有用的未標(biāo)記樣本,并交由專家標(biāo)注,然后??將帶標(biāo)注樣本加入訓(xùn)練樣本集迭代訓(xùn)練提升模型性能。如何在缺乏足夠標(biāo)注訓(xùn)練??數(shù)據(jù)的條件下克服標(biāo)注瓶頸,以低標(biāo)注成本訓(xùn)練高性能模型是主動(dòng)學(xué)習(xí)研究的熱??點(diǎn)問題。??12?

注意力機(jī)制,多頭


的不同表示子空間中獲取信息,通過使用多組的參數(shù)矩陣來分別對2、尺、F進(jìn)行??線性變換,并將所有自注意力機(jī)制的結(jié)果進(jìn)行拼接得到最后自注意力機(jī)制的結(jié)果,??多頭自注意力機(jī)制結(jié)構(gòu)見圖2.2。??MultiHead(Q,K,V)?=?ConcatQieadi,?"”headh)W0??where?headt?=?Attention{QW^,?KW^,?VW^)?公式(2.4)??t??f??Linear??MatMul?|??i?t?i?1?[?Go門cat??[SoftMax?I?1 ̄rr ̄??|?Mask?(opt,)?Scaled?Dot-Product????Attention?0??Scale?士?i?[?il??[ ̄MatMul?|?Linear?U?Linear?J?Linear?p??tt??〇?K?V?::??V?K?Q??圖2.2單頭(左)和多頭(右)注意力機(jī)制[38]??而縮放因子是為了避免由于維度過高導(dǎo)致點(diǎn)乘結(jié)果過大,從而造成的梯度過??小情況。Transformer模型中縮放因子取自注意力機(jī)制的數(shù)學(xué)表達(dá)式如公式??(2.5)所示:??AttentioniQ

【參考文獻(xiàn)】:
期刊論文
[1]主動(dòng)學(xué)習(xí)與自學(xué)習(xí)的中文命名實(shí)體識別[J]. 鐘志農(nóng),劉方馳,吳燁,伍江江.  國防科技大學(xué)學(xué)報(bào). 2014(04)
[2]中文機(jī)構(gòu)名稱的識別與分析[J]. 張小衡,王玲玲.  中文信息學(xué)報(bào). 1997(04)
[3]中文姓名的自動(dòng)辨識[J]. 孫茂松,黃昌寧,高海燕,方捷.  中文信息學(xué)報(bào). 1995(02)



本文編號:3518950

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3518950.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b0608***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
人妻乱近亲奸中文字幕| 2019年国产最新视频| 三级高清有码在线观看| 又黄又爽禁片视频在线观看| 高中女厕偷拍一区二区三区| 激情五月天免费在线观看| 欧美日韩有码一二三区| 日韩国产亚洲欧美另类| 日本最新不卡免费一区二区| 91日韩欧美国产视频| 99热九九热这里只有精品| 中文字幕一区二区久久综合| 国产高清一区二区不卡| 精品精品国产欧美在线| 色综合视频一区二区观看| 小草少妇视频免费看视频| 国产伦精品一区二区三区精品视频| 中文字幕欧美精品人妻一区| 国产又黄又猛又粗又爽的片| 久久国产青偷人人妻潘金莲| 熟女免费视频一区二区| 国产不卡在线免费观看视频| 观看日韩精品在线视频| 深夜福利欲求不满的人妻| 亚洲中文字幕三区四区| 精品一区二区三区中文字幕| 在线免费不卡亚洲国产| 字幕日本欧美一区二区| 日本加勒比在线观看不卡| 我的性感妹妹在线观看| 日韩一区二区三区在线日| 后入美臀少妇一区二区| 国产美女精品午夜福利视频| 在线观看欧美视频一区| 欧美精品在线观看国产| 五月婷婷缴情七月丁香| 亚洲精品熟女国产多毛| 亚洲精品一二三区不卡| 国产女性精品一区二区三区 | 国产成人精品国内自产拍| 日韩人妻毛片中文字幕|