天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

少樣本關(guān)系抽取方法研究

發(fā)布時間:2021-08-10 04:46
  在互聯(lián)網(wǎng)中存在著大量的文本數(shù)據(jù),信息抽取可以從文本中提取出有效信息為我們所用,而關(guān)系抽取是信息抽取中重要的步驟之一,現(xiàn)有的關(guān)系抽取方法通常需要較多的標注語料,這需要大量的人力物力,而遠程監(jiān)督的方法又存在著噪聲和長尾分布問題。由此,少樣本關(guān)系抽取問題被提出。在少樣本關(guān)系抽取任務(wù)中,模型需要使用極少數(shù)據(jù)進行關(guān)系抽取。本文針對少樣本關(guān)系抽取問題,從以下幾個方面進行研究:(1)基于類別特征表示的少樣本關(guān)系抽取方法研究;陬悇e特征表示的少樣本關(guān)系抽取方法有著較快的預(yù)測速度和較低的硬件資源占用,有著廣闊的應(yīng)用場景。本文使用與訓練模型BERT作為關(guān)系實例的編碼器,研究了兩種類別特征表示方法,分別基于圖注意力網(wǎng)絡(luò)和動態(tài)路由機制進行類別特征表示。(2)基于匹配的少樣本關(guān)系抽取方法研究。針對類別特征表示方法中存在的實例特征表示過程和類別特征表示過程中所存在的特征損失問題,使用查詢實例與支持集合中的每個實例進行匹配,得到查詢實例與該支持集合的相似度。提出模型BERT+ESIM,并從編碼層,句子匹配層,損失函數(shù),對抗訓練多個方面進行研究。(3)進一步研究基于匹配的少樣本關(guān)系抽取方法,提出分段注意力匹配網(wǎng)絡(luò),... 

【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:67 頁

【學位級別】:碩士

【部分圖文】:

少樣本關(guān)系抽取方法研究


通過BERT編碼句子向量

樣本,句子,相似度


哈爾濱工業(yè)大學工學碩士學位論文-22-3.2基于匹配的少樣本關(guān)系抽取總體架構(gòu)3.2.1總體架構(gòu)對于基于匹配的少樣本關(guān)系方法,我們設(shè)計了如下的通用算法流程:對于給定的查詢實例12(,,,),{1,...,}tqxeertN與N個支持集合,,1,,2{{(,,,)|1,...,}|1,...,}iijijijijiSSsxeerjKiN。我們通過句子相似度計算的方式來計算查詢實例和支持集合的相似度。首先,我們計算查詢實例q和第i個支持集合Si中第j個實例sij的相似度ijsim,然后取均值mean(),{1,...,}iijSimsimjK作為q與Si的相似度,最后取argmaxitSim作為預(yù)測類別。在計算q與sij相似度時經(jīng)過編碼層和句子匹配層。編碼層用來對輸入的關(guān)系實例進行詞向量嵌入,句子匹配層用來計算實例間的句子相似度。基于匹配的少樣本關(guān)系抽取網(wǎng)絡(luò)通用結(jié)構(gòu)如圖3-1所示:圖3-1基于匹配的少樣本關(guān)系抽取網(wǎng)絡(luò)通用結(jié)構(gòu)3.2.2句子相似度算法介紹在句子匹配層,我們需要使用句子相似度算法來計算經(jīng)過編碼后的兩個句子的相似度,句子相似度算法在這部分起到主導作用。句子相似度計算任務(wù)或自然語言推理任務(wù)(NaturalLanguageInference)是自然語言處理中的基礎(chǔ)任務(wù)之一,在搜索系統(tǒng)、問答系統(tǒng)、推薦系統(tǒng)中均有著廣泛的應(yīng)用。根據(jù)句子相似度算法的發(fā)展,主要分為:單語義模型,深層次的句間交互模型以及預(yù)訓練模型。單語義模型中較為典型的是Huang等[48]于2013年提出的DSSM模型,該模型使用wordhashing代替詞袋模型,有效減小了詞表大小,然后使用全連接層輸出句子向量,最后使用句子向量的余弦相似度作為文本相似度。該

架構(gòu)圖,架構(gòu),模型,句子


哈爾濱工業(yè)大學工學碩士學位論文-24-3.3.1模型總體架構(gòu)在基于匹配的通用架構(gòu)基礎(chǔ)上,我們在編碼層使用BERT模型,在句子匹配層使用ESIM模型,模型總體架構(gòu)如圖3-2所示:圖3-2BERT+ESIM模型總體架構(gòu)接下來我們將詳細介紹在BERT+ESIM模型的編碼層和句子匹配層中如何對數(shù)據(jù)進行操作。3.3.2編碼層我們使用BERT作為實例編碼方式,將查詢實例q和第i個支持集合中的第j個實例sij輸入BERT中,輸入前句子表示的方式與2.3.2節(jié)相同:11,start11,end2,start2,end-2[cls]..sep].[imsentencexeeexeeex2(3-1)但是輸出部分與2.3.2節(jié)中僅取[cls]位置的向量作為句子特征表示不同,我們?nèi)≌麄句子的所有單詞的向量表示作為編碼層的輸出結(jié)果,如圖3-3所示:

【參考文獻】:
期刊論文
[1]基于深度學習的關(guān)系抽取研究綜述[J]. 莊傳志,靳小龍,朱偉建,劉靜偉,白龍,程學旗.  中文信息學報. 2019(12)



本文編號:3333490

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3333490.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6c4a6***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com