天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

學(xué)術(shù)文獻(xiàn)的實(shí)體關(guān)系抽取研究及實(shí)現(xiàn)

發(fā)布時(shí)間:2021-03-30 00:59
  利用自然語(yǔ)言處理等人工智能技術(shù)從海量學(xué)術(shù)文獻(xiàn)中抽取科學(xué)實(shí)體以及它們之間的關(guān)系能夠?qū)崿F(xiàn)文獻(xiàn)的結(jié)構(gòu)化、知識(shí)化,提高研究人員檢索文獻(xiàn)、分析文獻(xiàn)和把握科研動(dòng)態(tài)的效率,并能為政府部門(mén)布局科研規(guī)劃、社會(huì)組織構(gòu)建核心技術(shù)群提供依據(jù)。本文側(cè)重集成深度學(xué)習(xí)中不同網(wǎng)絡(luò)模型和注意力機(jī)制的技術(shù)特點(diǎn),去抽取文獻(xiàn)中的任務(wù)、方法等科學(xué)實(shí)體以及它們之間的上下位或同義關(guān)系。針對(duì)學(xué)術(shù)文獻(xiàn)中的語(yǔ)言描述特點(diǎn),通過(guò)集成雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)和自注意力機(jī)制去解決科學(xué)實(shí)體識(shí)別中的上下文依賴(lài)和遠(yuǎn)距離相關(guān)性;通過(guò)集成卷積神經(jīng)網(wǎng)絡(luò)和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)去解決關(guān)系抽取中的局部相關(guān)性和長(zhǎng)距離依賴(lài),具體工作包括:(1)科學(xué)實(shí)體識(shí)別:提出一種結(jié)合BiLSTM-CRF和自注意力機(jī)制的SAFE-BiLSTMCRF模型。該模型將科學(xué)實(shí)體識(shí)別抽象成句子級(jí)別的序列標(biāo)注任務(wù),首先從大規(guī)模文獻(xiàn)文本中學(xué)習(xí)詞向量,并引入對(duì)大小寫(xiě)和特殊字符敏感的字符級(jí)向量;然后使用BiLSTM提取單詞的上下文依賴(lài)特征,利用自注意力機(jī)制去獲取單詞的全局相關(guān)特征,解決主流方法難以捕捉遠(yuǎn)距離相關(guān)信息的問(wèn)題;最后通過(guò)CRF獲得最優(yōu)標(biāo)簽序列。(2)科學(xué)實(shí)體關(guān)系抽取:提出一種融合CNN、BiLST... 

【文章來(lái)源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:73 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

學(xué)術(shù)文獻(xiàn)的實(shí)體關(guān)系抽取研究及實(shí)現(xiàn)


卷積

學(xué)術(shù)文獻(xiàn)的實(shí)體關(guān)系抽取研究及實(shí)現(xiàn)


最大池化

神經(jīng)網(wǎng)絡(luò),隱藏層,序列


恢終攵孕蛄惺?荻?杓?的一種神經(jīng)網(wǎng)絡(luò),它對(duì)輸入序列中的每個(gè)元素都執(zhí)行相同的計(jì)算,并且在處理每個(gè)元素時(shí)都會(huì)考慮上一個(gè)元素的隱層狀態(tài),這形成了一個(gè)循環(huán),從而解決了其他網(wǎng)絡(luò)不具有記憶功能的缺陷。卷積神經(jīng)網(wǎng)絡(luò)、多層感知機(jī)等常用的神經(jīng)網(wǎng)絡(luò)都是不具備記憶力的,其假設(shè)輸入是獨(dú)立的、沒(méi)有上下文聯(lián)系的,但是在有些場(chǎng)景中輸入之間是存在依賴(lài)的,例如,在預(yù)測(cè)句子中的第t個(gè)單詞時(shí),其輸出依賴(lài)于之前t-1個(gè)時(shí)刻的輸入,這就要求網(wǎng)絡(luò)必須具有記憶力才能適用于這樣的場(chǎng)景。因此,RNN在處理序列數(shù)據(jù)的場(chǎng)景中得到了廣泛的應(yīng)用,圖2.3展示了RNN未展開(kāi)和展開(kāi)的結(jié)構(gòu)圖。圖2.3循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)通過(guò)將RNN的結(jié)構(gòu)展開(kāi),可以看到其會(huì)一步步處理輸入序列X中的每一個(gè)元素,而且每個(gè)元素都有著相同的處理流程,即先經(jīng)過(guò)隱藏層再經(jīng)過(guò)輸出層。例如,若當(dāng)前的輸入序列是包含10個(gè)單詞的的詞向量序列,那么展開(kāi)后的網(wǎng)絡(luò)將會(huì)有10個(gè)一模一樣的模塊,這些模塊共享參數(shù),且每個(gè)模塊的隱藏層都依賴(lài)于上一個(gè)模塊的隱藏層輸出。在第t個(gè)模塊中,其輸入是序列中當(dāng)前位置元素和上一模塊的隱藏層狀態(tài)h1,則當(dāng)前模塊的隱藏層狀態(tài)由公式(2.1-2.2)計(jì)算得到。z=Wih+Whhh1(2.1)h=(z)(2.2)其中,Wih、Whh均是待學(xué)習(xí)的參數(shù),是激活函數(shù),常用的有S型函數(shù)sigmoid、雙曲正切函數(shù)tanh以及修正線性單元函數(shù)ReLU等。最后,可以通過(guò)隱藏層狀態(tài)h計(jì)算得到當(dāng)前位置的輸出:y=Wohh(2.3)從理論上來(lái)講,RNN能夠處理任意長(zhǎng)的序列,并且應(yīng)該在序列的每個(gè)位置能夠利用之前的信息,但是在實(shí)際使用中,RNN通常只能用于處理較短的序列,原因是在序列過(guò)長(zhǎng)時(shí),其反向傳播過(guò)程中會(huì)發(fā)生梯度消失或梯度爆炸問(wèn)題。根據(jù)鏈?zhǔn)椒▌t,可以計(jì)算任意位置對(duì)每個(gè)參數(shù)?


本文編號(hào):3108534

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3108534.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)daff3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com