天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機應(yīng)用論文 >

基于迭代式多層級遠(yuǎn)程監(jiān)督的關(guān)系抽取技術(shù)的研究

發(fā)布時間:2021-11-17 16:03
  遠(yuǎn)程監(jiān)督思想可將關(guān)系抽取任務(wù)擴(kuò)展到包含上萬種語義關(guān)系的大規(guī)模語料庫上,因此基于遠(yuǎn)程監(jiān)督的關(guān)系抽取技術(shù)已被廣泛地應(yīng)用到了從自然文本中識別新關(guān)系事實的任務(wù)中。但因為:(1)語義關(guān)系相近的實例容易被混淆;(2)不同語義關(guān)系間訓(xùn)練數(shù)據(jù)的不平衡會導(dǎo)致模型忽略對只有少量訓(xùn)練數(shù)據(jù)的關(guān)系的學(xué)習(xí),所以只依賴單個節(jié)點的分類模型在同時區(qū)分成千上萬種關(guān)系時,不可避免地會出現(xiàn)嚴(yán)重的分類錯誤問題。雖然前人為解決該問題做出了很多的努力,但到目前為止都沒有取得令人滿意的進(jìn)展。本文創(chuàng)造性地提出了一種基于多層級遠(yuǎn)程監(jiān)督的關(guān)系抽取模型,該模型通過建立一個樹狀的分類結(jié)構(gòu),將原始的單節(jié)點分類任務(wù)劃分成多個不同層級上的子分類任務(wù)。根據(jù)構(gòu)建的樹狀結(jié)構(gòu),一個未標(biāo)注的關(guān)系實例將會從根節(jié)點開始一步步地被劃分到某個葉子節(jié)點,且葉子節(jié)點劃分的關(guān)系標(biāo)簽是該實例的最終標(biāo)注結(jié)果。除此之外,我們提出了迭代式的遠(yuǎn)程監(jiān)督算法,該算法利用新學(xué)習(xí)到的關(guān)系事實迭代式地更新分類模型,可以有效地提高抽取的精確率和召回率。在兩個真實數(shù)據(jù)集上的實驗結(jié)果表明,和以往方法相比,我們的方法提高了10%的抽取精確率。但迭代式關(guān)系抽取方法中存在一個很常見的問題,即語義漂移問題... 

【文章來源】:蘇州大學(xué)江蘇省 211工程院校

【文章頁數(shù)】:80 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于迭代式多層級遠(yuǎn)程監(jiān)督的關(guān)系抽取技術(shù)的研究


圖2-1基于bootstrapping算法的關(guān)系抽取流程圖??

示意圖,迭代,概念,方法


an?beings”?lion?and?cat.”??S3=ilCommon?food?from?animals?such?as?pork,?beef?and?chicken."??S4-'Animals?from?African?countries?such?as?Giraffe?and?Lion.1'??(a)?"syntax-based"?bootstrapping?mechanism?(b)?"semantic-based”?bootstrapping?mechanism??圖2-2兩種不同的迭代式方法抽勸Animal”概念下實體的過程示意圖??任意一個種子實例的句子,從這些句子中可以學(xué)習(xí)到兩個pattern:?“...Xisakindof??mammal...”?和?“Sometime,?X?is?as?clever?as?human?beings’’。第二輪迭代中,根據(jù)學(xué)習(xí)??到的兩個pattern,我們先從語料庫中找到可以匹配任意一個pattern的句子,通過解析??句子可以抽取到?“elephant”,“donkey”,“mule”,“dolphin”,“computer”,“robot”??這幾個新的實例。不斷重復(fù)上述步驟直至沒有新的實例或者pattern出現(xiàn)。??(2)?Semantic-based自增迭代式的抽取方法在迭代開始之前沒有預(yù)備知識,艮P??沒有Syntax-based過程中的初始種子集,只有一些質(zhì)量較高的語法pattern。這種方法??根據(jù)目標(biāo)語義類C和給定的pattern,首先從文本中抽取大量的和給定pattern相匹配的??句子,然后根據(jù)語義分析工具,從句子中抽取我們需要的實例。如圖2-2

模型結(jié)構(gòu),單詞,向量


基于迭代式多層級遠(yuǎn)程監(jiān)督的關(guān)系抽取技術(shù)的研究?第二章基于迭代式多層級遠(yuǎn)程監(jiān)鋝的關(guān)系抽取技術(shù)??法的基礎(chǔ),下面將詳細(xì)介紹該模型的實現(xiàn)細(xì)節(jié)。??PCNNs模型結(jié)構(gòu)如圖3-1所示,該模型的目的在于從句子中抽取特征構(gòu)成以包??(實體對)為單位的特征向量,模型主要由四個部分組成:向量表示層、卷積層、分??段式最大池化層、softmax分類器。??Obama?\?▲??was???籲魯1?V—*? ̄1?ffl、、??br?::::::體;i??the?A?A?A1?4?▲??United?States?????v???▲?▲?▲?牛?豐??just?????v??A?A?>IA?+??as?????',s??said.?籲參春魯|?^?A?'?'44J.--???C2?l^J-??Word?Position?r??向最表示層?卷積層?分段式最大池化層?Softmax分類器??(Vector?Representation)?(Convolution?Layer)?(Piecewise?Max?Pooling)??圖3-1?PCNNs模型結(jié)構(gòu)??3.2.1向量表示層??模型的輸入是以包為單位,其初始輸入是從包中的每個句子獲得的原始單詞??(token)。首先利用詞嵌入矩陣將這些單詞轉(zhuǎn)換成低維度的詞向量,然后我們還將每??個單詞的相對位置信息添加到位置向量里。??詞向量詞嵌入(word?embedding)將單詞轉(zhuǎn)換成分布式的表示,同時可以獲取??單詞的語義和語法信息。很多的研究都表明詞嵌入在NLP任務(wù)中的有效性。在??過去幾年里,文獻(xiàn)[51_53]提出了很多詞向量訓(xùn)練模型,其中使用最多的是文獻(xiàn)[5


本文編號:3501247

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3501247.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dbf3d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com