天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

學(xué)術(shù)文獻(xiàn)的實(shí)體關(guān)系抽取研究及實(shí)現(xiàn)

發(fā)布時間:2021-03-30 00:59
  利用自然語言處理等人工智能技術(shù)從海量學(xué)術(shù)文獻(xiàn)中抽取科學(xué)實(shí)體以及它們之間的關(guān)系能夠?qū)崿F(xiàn)文獻(xiàn)的結(jié)構(gòu)化、知識化,提高研究人員檢索文獻(xiàn)、分析文獻(xiàn)和把握科研動態(tài)的效率,并能為政府部門布局科研規(guī)劃、社會組織構(gòu)建核心技術(shù)群提供依據(jù)。本文側(cè)重集成深度學(xué)習(xí)中不同網(wǎng)絡(luò)模型和注意力機(jī)制的技術(shù)特點(diǎn),去抽取文獻(xiàn)中的任務(wù)、方法等科學(xué)實(shí)體以及它們之間的上下位或同義關(guān)系。針對學(xué)術(shù)文獻(xiàn)中的語言描述特點(diǎn),通過集成雙向長短時記憶網(wǎng)絡(luò)和自注意力機(jī)制去解決科學(xué)實(shí)體識別中的上下文依賴和遠(yuǎn)距離相關(guān)性;通過集成卷積神經(jīng)網(wǎng)絡(luò)和雙向長短時記憶網(wǎng)絡(luò)去解決關(guān)系抽取中的局部相關(guān)性和長距離依賴,具體工作包括:(1)科學(xué)實(shí)體識別:提出一種結(jié)合BiLSTM-CRF和自注意力機(jī)制的SAFE-BiLSTMCRF模型。該模型將科學(xué)實(shí)體識別抽象成句子級別的序列標(biāo)注任務(wù),首先從大規(guī)模文獻(xiàn)文本中學(xué)習(xí)詞向量,并引入對大小寫和特殊字符敏感的字符級向量;然后使用BiLSTM提取單詞的上下文依賴特征,利用自注意力機(jī)制去獲取單詞的全局相關(guān)特征,解決主流方法難以捕捉遠(yuǎn)距離相關(guān)信息的問題;最后通過CRF獲得最優(yōu)標(biāo)簽序列。(2)科學(xué)實(shí)體關(guān)系抽取:提出一種融合CNN、BiLST... 

【文章來源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:73 頁

【學(xué)位級別】:碩士

【部分圖文】:

學(xué)術(shù)文獻(xiàn)的實(shí)體關(guān)系抽取研究及實(shí)現(xiàn)


卷積

學(xué)術(shù)文獻(xiàn)的實(shí)體關(guān)系抽取研究及實(shí)現(xiàn)


最大池化

神經(jīng)網(wǎng)絡(luò),隱藏層,序列


恢終攵孕蛄惺?荻?杓?的一種神經(jīng)網(wǎng)絡(luò),它對輸入序列中的每個元素都執(zhí)行相同的計(jì)算,并且在處理每個元素時都會考慮上一個元素的隱層狀態(tài),這形成了一個循環(huán),從而解決了其他網(wǎng)絡(luò)不具有記憶功能的缺陷。卷積神經(jīng)網(wǎng)絡(luò)、多層感知機(jī)等常用的神經(jīng)網(wǎng)絡(luò)都是不具備記憶力的,其假設(shè)輸入是獨(dú)立的、沒有上下文聯(lián)系的,但是在有些場景中輸入之間是存在依賴的,例如,在預(yù)測句子中的第t個單詞時,其輸出依賴于之前t-1個時刻的輸入,這就要求網(wǎng)絡(luò)必須具有記憶力才能適用于這樣的場景。因此,RNN在處理序列數(shù)據(jù)的場景中得到了廣泛的應(yīng)用,圖2.3展示了RNN未展開和展開的結(jié)構(gòu)圖。圖2.3循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)通過將RNN的結(jié)構(gòu)展開,可以看到其會一步步處理輸入序列X中的每一個元素,而且每個元素都有著相同的處理流程,即先經(jīng)過隱藏層再經(jīng)過輸出層。例如,若當(dāng)前的輸入序列是包含10個單詞的的詞向量序列,那么展開后的網(wǎng)絡(luò)將會有10個一模一樣的模塊,這些模塊共享參數(shù),且每個模塊的隱藏層都依賴于上一個模塊的隱藏層輸出。在第t個模塊中,其輸入是序列中當(dāng)前位置元素和上一模塊的隱藏層狀態(tài)h1,則當(dāng)前模塊的隱藏層狀態(tài)由公式(2.1-2.2)計(jì)算得到。z=Wih+Whhh1(2.1)h=(z)(2.2)其中,Wih、Whh均是待學(xué)習(xí)的參數(shù),是激活函數(shù),常用的有S型函數(shù)sigmoid、雙曲正切函數(shù)tanh以及修正線性單元函數(shù)ReLU等。最后,可以通過隱藏層狀態(tài)h計(jì)算得到當(dāng)前位置的輸出:y=Wohh(2.3)從理論上來講,RNN能夠處理任意長的序列,并且應(yīng)該在序列的每個位置能夠利用之前的信息,但是在實(shí)際使用中,RNN通常只能用于處理較短的序列,原因是在序列過長時,其反向傳播過程中會發(fā)生梯度消失或梯度爆炸問題。根據(jù)鏈?zhǔn)椒▌t,可以計(jì)算任意位置對每個參數(shù)?


本文編號:3108534

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3108534.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶daff3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com