天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向企業(yè)圖譜構(gòu)建的關(guān)系抽取技術(shù)研究

發(fā)布時(shí)間:2024-06-28 05:26
  實(shí)體關(guān)系抽取是自然語(yǔ)言處理領(lǐng)域中的重要任務(wù)之一,同時(shí)也是知識(shí)圖譜構(gòu)建過(guò)程中的關(guān)鍵一步。實(shí)體關(guān)系抽取的目的是從自然語(yǔ)言文本中提取出實(shí)體之間的關(guān)聯(lián)關(guān)系,從而把實(shí)體聯(lián)系起來(lái),形成以三元組為知識(shí)單元的網(wǎng)狀知識(shí)庫(kù),成為知識(shí)圖譜的知識(shí)來(lái)源。在實(shí)體關(guān)系抽取領(lǐng)域,已經(jīng)有很多的方法提出來(lái),但是仍然存在各種問(wèn)題。本文通過(guò)深入研究各種關(guān)系抽取方法,針對(duì)企業(yè)圖譜構(gòu)建這一實(shí)際目標(biāo),提出了兩種基于深度學(xué)習(xí)的關(guān)系抽取模型。由于目前的研究主要是基于英文數(shù)據(jù)集的,而且中文標(biāo)準(zhǔn)數(shù)據(jù)集缺乏。本文通過(guò)網(wǎng)絡(luò)爬蟲(chóng)的方式,并利用遠(yuǎn)程監(jiān)督的方法構(gòu)建了一個(gè)用于企業(yè)關(guān)系抽取的數(shù)據(jù)集。數(shù)據(jù)的主要來(lái)源是上市公司公告和企業(yè)新聞。為了使實(shí)驗(yàn)更具有說(shuō)服力,本文在最后的實(shí)驗(yàn)階段,還使用了一個(gè)標(biāo)準(zhǔn)的英文關(guān)系抽取數(shù)據(jù)集。傳統(tǒng)的關(guān)系抽取方法通常需要制定大量的規(guī)則,或者構(gòu)造復(fù)雜的特征工程,隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的關(guān)系抽取算法漸漸被提出來(lái)了。本文在目前研究的基礎(chǔ)上,提出了兩種改進(jìn)的基于深度學(xué)習(xí)的關(guān)系抽取模型。第一種模型是BiGRU-CNN模型,該模型是將BiGRU網(wǎng)絡(luò)和CNN網(wǎng)絡(luò)以串聯(lián)的方式組合,同時(shí)利用了CNN網(wǎng)絡(luò)和RNN網(wǎng)絡(luò)的優(yōu)勢(shì)。另一種模型是...

【文章頁(yè)數(shù)】:72 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖2-1基于傳統(tǒng)模式匹配方法的信息抽取系統(tǒng)體系結(jié)構(gòu)

圖2-1基于傳統(tǒng)模式匹配方法的信息抽取系統(tǒng)體系結(jié)構(gòu)

東南大學(xué)碩士學(xué)位論文8圖2-1基于傳統(tǒng)模式匹配方法的信息抽取系統(tǒng)體系結(jié)構(gòu)上述部分并不是每個(gè)信息抽取系統(tǒng)必須包含的。圖2-1為基于傳統(tǒng)模式匹配方法的信息抽取系統(tǒng)體系結(jié)構(gòu)。在知識(shí)圖譜構(gòu)建中,實(shí)體消歧和共指消解被劃分到知識(shí)融合而不是信息抽取中。2.1.2關(guān)系抽取任務(wù)中的相關(guān)概念基本概念....


圖2-2基于機(jī)器學(xué)習(xí)的關(guān)系抽取流程

圖2-2基于機(jī)器學(xué)習(xí)的關(guān)系抽取流程

11圖2-2基于機(jī)器學(xué)習(xí)的關(guān)系抽取流程機(jī)器學(xué)習(xí)的分類(lèi)算法有:樸素貝葉斯,邏輯斯諦回歸,最近鄰算法,決策樹(shù),支持向量機(jī),最大熵模型等等。在關(guān)系抽取任務(wù)中,最常用的機(jī)器學(xué)習(xí)算法是邏輯斯諦回歸算法、支持向量機(jī)和最大熵模型。下面簡(jiǎn)要描述三種分類(lèi)器。邏輯斯諦回歸:邏輯斯諦回歸分類(lèi)器是一種廣....


圖2-3邏輯斯諦分布的分布函數(shù)和密度函數(shù)

圖2-3邏輯斯諦分布的分布函數(shù)和密度函數(shù)

11圖2-2基于機(jī)器學(xué)習(xí)的關(guān)系抽取流程機(jī)器學(xué)習(xí)的分類(lèi)算法有:樸素貝葉斯,邏輯斯諦回歸,最近鄰算法,決策樹(shù),支持向量機(jī),最大熵模型等等。在關(guān)系抽取任務(wù)中,最常用的機(jī)器學(xué)習(xí)算法是邏輯斯諦回歸算法、支持向量機(jī)和最大熵模型。下面簡(jiǎn)要描述三種分類(lèi)器。邏輯斯諦回歸:邏輯斯諦回歸分類(lèi)器是一種廣....


圖2-4SVM示意圖

圖2-4SVM示意圖

13隔的分離超平面。對(duì)于線性可分離的訓(xùn)練數(shù)據(jù)集,存在無(wú)限多個(gè)線性可分離的超平面。但是,具有最大幾何間距的超平面是唯一的。圖2-4SVM示意圖如圖2-4所示,其中的實(shí)線就是SVM最優(yōu)分類(lèi)超平面,距離該超平面最近的樣本點(diǎn)被稱為“支持向量機(jī)”?紤]如何找到具有最大幾何間距的另一個(gè)超平面....



本文編號(hào):3996494

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3996494.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶67117***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com