基于神經(jīng)網(wǎng)絡的實體識別和關系抽取的聯(lián)合模型研究
發(fā)布時間:2021-02-06 12:02
隨著信息時代的到來,網(wǎng)絡上的信息越來越呈現(xiàn)出指數(shù)形式爆發(fā)增長的態(tài)勢,在這其中,文本信息占據(jù)了相當重要的組成部分,如何準確高效的獲取知識成為亟待解決的問題。實體識別和關系抽取的聯(lián)合模型的主要目標是同時從非結構化的文本中抽取實體類別和它們之間的語義關系。作為自然語言處理技術的底層技術,對于上層的應用有著顯著的意義。本文圍繞著實體識別和關系抽取的聯(lián)合模型進行了深入的研究,主要工作內(nèi)容和階段成果如下:(1)復現(xiàn)了基于神經(jīng)網(wǎng)絡的實體識別和關系抽取的聯(lián)合模型基線系統(tǒng),并對當前模型可能存在的問題進行了討論。(2)提出了一種基于參數(shù)共享的雙向長短期記憶網(wǎng)絡-圖卷積神經(jīng)網(wǎng)絡的混合神經(jīng)網(wǎng)絡結構。模型通過引入句法的圖卷積神經(jīng)網(wǎng)絡,用于更好的抽取句子中的關系。在公開數(shù)據(jù)集上,這個聯(lián)合模型取得了相較之前工作更好的性能。(3)提出了一種基于特殊標注策略的融合自注意力機制的聯(lián)合模型,將信息抽取任務轉化為序列標注任務,通過自注意力子層學習句子內(nèi)部的詞依賴關系,在公開數(shù)據(jù)集上也取得了較好的表現(xiàn)。(4)初步搭建了基于實體識別關系抽取聯(lián)合模型的知識圖譜構建系統(tǒng),實現(xiàn)了從非結構化文本中抽取三元組的解決方案。
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:76 頁
【學位級別】:碩士
【部分圖文】:
圖3-2加入窺孔機制的LSTM變體??24??
?S3??圖3-3抽取樣本中預測錯誤樣本統(tǒng)計??由圖3-3可以發(fā)現(xiàn),相對來說找到配的實體對是目前需要解決的問題,在實??體對預測正確關系預測錯誤的樣本較少,這和前面的實驗結果是相一致的。???表3-4?實例分析???[Panama?City?Beach]?Elcontain?has?condos,?but?the?area?was?one?of?only??two?in?[Florida]?Elcontain?where?sales?rose?in?March?,?compared?with?a??year?earlier.??[Panama?City?Beach]?E2?has?condos?,?but?the?area?was?one?of?only?two?in??SPTi.ee??[Florida]?El?where?sales?rose?in?March?,?compai*ed?with?a?year?earlier.??[Panama?City?Beach]?E2?has?condos?,?but?the?area?was?one?of?only?two?in??BiLSTM+CNNs??[Florida]?E\?where?sales?rose?in?March?,?compared?with?a?year?earlier.??[Panama?City?Beach]?Elcontain?has?condos
圖4-1當前標注策略下的黃金標注??現(xiàn)在己經(jīng)解決了訓練數(shù)據(jù)標注的問題,下面將介紹如何從預測的標簽得到最??終的結果。從圖4-1中可以看出,“Trump”和“United?States”在相同的關系類??別“0卩”中,“人?咖1加”和“316\他1?&111_1(^”在相同的關系類別“?”中。通?過連接相同關系類別的實體得到最終的結果!埃裕恚恚稹焙汀埃眨睿椋簦澹?States”可以??連接為一個關系為“Country-President”的三元組。因為“Trump”在關系角色??中的標簽為“2”,而“UnitedStates”在關系角色中的標簽為“1”,因此得到最終??白勺三元組{United?States,?Country-President,?Trump}?〇??如果一個句子中包含相同關系類別兩個或多個三元組,本文按照最近準則將??每兩個實體轉成一個三元組!埃眨睿椋簦澹?States”最接近實體“Trump”,“AppleInc”??最接近“Jobs'?所以結果將是{United?States,Company-Founder,Trump}和{Apple??Inc,?Company?-?Founder,?Steven?Paul?Jobs}。??在本文中
【參考文獻】:
期刊論文
[1]知識圖譜構建技術綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計算機研究與發(fā)展. 2016(03)
博士論文
[1]短文本信息抽取若干技術研究[D]. 鄭立洲.中國科學技術大學 2016
[2]漢語命名實體識別研究[D]. 江會星.北京郵電大學 2012
本文編號:3020580
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:76 頁
【學位級別】:碩士
【部分圖文】:
圖3-2加入窺孔機制的LSTM變體??24??
?S3??圖3-3抽取樣本中預測錯誤樣本統(tǒng)計??由圖3-3可以發(fā)現(xiàn),相對來說找到配的實體對是目前需要解決的問題,在實??體對預測正確關系預測錯誤的樣本較少,這和前面的實驗結果是相一致的。???表3-4?實例分析???[Panama?City?Beach]?Elcontain?has?condos,?but?the?area?was?one?of?only??two?in?[Florida]?Elcontain?where?sales?rose?in?March?,?compared?with?a??year?earlier.??[Panama?City?Beach]?E2?has?condos?,?but?the?area?was?one?of?only?two?in??SPTi.ee??[Florida]?El?where?sales?rose?in?March?,?compai*ed?with?a?year?earlier.??[Panama?City?Beach]?E2?has?condos?,?but?the?area?was?one?of?only?two?in??BiLSTM+CNNs??[Florida]?E\?where?sales?rose?in?March?,?compared?with?a?year?earlier.??[Panama?City?Beach]?Elcontain?has?condos
圖4-1當前標注策略下的黃金標注??現(xiàn)在己經(jīng)解決了訓練數(shù)據(jù)標注的問題,下面將介紹如何從預測的標簽得到最??終的結果。從圖4-1中可以看出,“Trump”和“United?States”在相同的關系類??別“0卩”中,“人?咖1加”和“316\他1?&111_1(^”在相同的關系類別“?”中。通?過連接相同關系類別的實體得到最終的結果!埃裕恚恚稹焙汀埃眨睿椋簦澹?States”可以??連接為一個關系為“Country-President”的三元組。因為“Trump”在關系角色??中的標簽為“2”,而“UnitedStates”在關系角色中的標簽為“1”,因此得到最終??白勺三元組{United?States,?Country-President,?Trump}?〇??如果一個句子中包含相同關系類別兩個或多個三元組,本文按照最近準則將??每兩個實體轉成一個三元組!埃眨睿椋簦澹?States”最接近實體“Trump”,“AppleInc”??最接近“Jobs'?所以結果將是{United?States,Company-Founder,Trump}和{Apple??Inc,?Company?-?Founder,?Steven?Paul?Jobs}。??在本文中
【參考文獻】:
期刊論文
[1]知識圖譜構建技術綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計算機研究與發(fā)展. 2016(03)
博士論文
[1]短文本信息抽取若干技術研究[D]. 鄭立洲.中國科學技術大學 2016
[2]漢語命名實體識別研究[D]. 江會星.北京郵電大學 2012
本文編號:3020580
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3020580.html
最近更新
教材專著