基于分段卷積神經(jīng)網(wǎng)絡的關系抽取方法研究
發(fā)布時間:2024-04-23 00:59
自然語言處理是人工智能一個重要的子領域,對人類生活的影響重要且深遠。目前如何從海量、冗余的信息中提取用戶感興趣且有意義的內(nèi)容是亟待解決的問題。信息抽取的兩項核心性任務是命名實體識別和關系抽取,近年來深度學習技術在兩任務中得到了廣泛應用,在效果上取得了很大的進步。關系抽取任務建立在實體識別任務之上,目的是對識別出有意義的實體進行關系提取。本文采用管道方式,研究了以詞向量預訓練模型為基礎的命名實體識別模型,進而利用識別出的實體與神經(jīng)網(wǎng)絡結合完成關系抽取任務。下面對本文工作和創(chuàng)新點進行介紹:1.完成了基于BERT-BiLSTM-CRF模型的命名實體識別工作。通過BERT預訓練模型獲得詞的向量表示,該方法有效縮短了訓練時間,對一詞多義問題處理效果顯著。接著將向量表示序列輸入BiLSTM網(wǎng)絡層獲取文本上下文特征,最后通過CRF層對序列特征進行標注得到最終實體識別結果。2.提出了一種分段卷積神經(jīng)網(wǎng)絡完成關系抽取任務。模型的輸入內(nèi)容為一個句子與其實體,將輸入內(nèi)容轉換成表示向量后送入卷積層。在卷積層把向量分成兩段并分別采用不同卷積操作,融合了句子和實體信息的模型能更好地提取文本特征。兩段卷積結果拼接后...
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
本文編號:3962389
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
圖2.1Word2vec模型圖
第2章相關技術介紹10距離兩種方法計算向量距離。假設兩個文本的向量分別表示為:=12(,,...,)nXxxx和=12(,,...,)nYyyy。歐式距離衡量的是多維空間中兩個點之間的絕對距離。歐式距離越小表示兩個文本相似度越高,計算方法如公式(2.1)所示。==21dist(,....
圖2.2ELMo模型結構圖
第2章相關技術介紹12圖2.2ELMo模型結構圖3.GPTGPT模型由OpenAI團隊提出,它的目標是追求應用在大量任務上,學習一個通用表示。GPT的網(wǎng)絡結構較ELMo更深更廣,為了更好捕捉句子中的長距離語義依賴關系。研究團隊用Transformer[35]代替了ELMo中的多層....
圖2.3BERT模型圖
第2章相關技術介紹12圖2.2ELMo模型結構圖3.GPTGPT模型由OpenAI團隊提出,它的目標是追求應用在大量任務上,學習一個通用表示。GPT的網(wǎng)絡結構較ELMo更深更廣,為了更好捕捉句子中的長距離語義依賴關系。研究團隊用Transformer[35]代替了ELMo中的多層....
圖2.4經(jīng)典RNN基本結構圖
第2章相關技術介紹13向結構,雙向結構使BERT更好融合上下文信息。BERT訓練過程類似完形填空問題,首先在訓練時遮蓋住15%左右的詞,這些詞用人工遮蓋符號[MASK]代替,語言模型通過預測這些詞,不斷對比評估上下文來讓網(wǎng)絡學習通用的語義、詞法信息。BERT成功在11項NLP任務....
本文編號:3962389
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3962389.html
最近更新
教材專著