面向短文本問句的命名實體識別及實體鏈接方法研究
發(fā)布時間:2021-06-14 05:09
命名實體識別和實體鏈接作為自然語言處理領域中的基本任務,目標是識別出語句中的實體指稱,并映射到知識庫中的相應實體上。隨著知識庫問答系統(tǒng)的出現(xiàn),作為問答系統(tǒng)的基礎步驟,面向短文本問句的命名實體識別和實體鏈接技術的研究具有重要的意義和價值。對于命名實體識別,本文將命名實體識別看作序列標注任務,使用神經網(wǎng)絡模型實現(xiàn),并在模型的輸入層和解碼層進行了改進。對于實體連接,本文針對面向短文本問句的實體鏈接面臨的挑戰(zhàn),提出了通過外部語料擴充實體指稱的背景知識以及抽取實體類型、實體關系和鄰近實體作為候選實體在結構化知識庫中的表示形式。本文主要研究內容如下:(1)基于BiLSTM+SoftMax的神經網(wǎng)絡模型實現(xiàn)了命名實體識別,在預訓練的單詞向量后拼接單詞的字符級別和詞性特征作為模型的輸入,同時由于BiLSTM和SoftMax無法考慮命名實體標簽之間的依賴關系,解碼層使用CRF替換SoftMax,為每個單詞選擇全局最優(yōu)的標簽。(2)抽取Freebase知識庫中包含實體名稱屬性的三元組,進行數(shù)據(jù)清洗,構建成指稱-實體映射詞典,并利用實體流行度對候選實體集合進行有效篩選,得到大小合適的候選實體集合,最后重新定...
【文章來源】:東南大學江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:58 頁
【學位級別】:碩士
【部分圖文】:
課題研究框架
由于擁有不同的上下文內容,導致指向的是知識庫中不同的實體,前者表示退役的籃球運動員,后者表示機器學習方向的教授,因此,指稱上下文內容可以作為實體消歧的衡量標準。本文的目標知識庫是Freebase,對于結構化組織的知識庫,往往會存在實體描述信息不全或缺失的問題,因此,需要通過其他特征來表示知識庫中的實體。于是,本文根據(jù)知識庫本身的特點,使用實體類別和實體關系作為實體在知識庫中的表示,并且分別計算與指稱上下文內容的相似度,選擇相似度最大的實體作為目標實體。Freebase為每個實體提供了豐富的類別信息,圖4-2是實體“NewYorkCity”的類別結構,這里只列舉了部分類別。知識庫中對實體類別分為兩個層次,第一層是相對泛化的概念,第二層則細化為具體類別,第一層包含第二層的概念,比如圖中的“film_screening_venue”作為“film”這個概念集合的一個元素。圖4-2實體類別結構圖當問句提及到一個實體指稱時,問句的內容極有可能出現(xiàn)與實體類別相關的詞匯,因此本文將實體類別和指稱的上下文內容間的相似度作為實體消歧的特征。實體類別的兩層概念是包含與被包含的關系,同時將兩層概念作為考慮的話,一方面會給實體類別的描述帶來不少噪聲;另一方面特征計算的復雜度較高。于是,本文僅保留第一層概念
第五章系統(tǒng)實現(xiàn)39的MTV模式中的T(模版),也就是網(wǎng)頁,db.sqlite3是框架提供的一個輕量級數(shù)據(jù)庫,支持數(shù)據(jù)存儲,manage.py是服務器相關,可通過下面代碼啟動服務器,pythonmanage.pystartappLinksys圖5-2系統(tǒng)代碼結構Web應用項目通常包含前端頁面、后臺服務器、數(shù)據(jù)庫等,基于Django的項目中,linksys文件夾包含應用后臺代碼,詳細的內容見圖5-3,這里的文件在項目創(chuàng)建時自動生成,其中的models.py是存放的是數(shù)據(jù)存取操作,views.py是業(yè)務邏輯層對應的代碼,即處理請求的操作,其它主要是系統(tǒng)的配置文件。圖5-3linksys文件夾內容客戶端向服務端發(fā)送請求的過程,其實是瀏覽器和服務器的WebServer發(fā)生一個
【參考文獻】:
期刊論文
[1]一種基于概率主題模型的命名實體鏈接方法[J]. 懷寶興,寶騰飛,祝恒書,劉淇. 軟件學報. 2014(09)
本文編號:3229132
【文章來源】:東南大學江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:58 頁
【學位級別】:碩士
【部分圖文】:
課題研究框架
由于擁有不同的上下文內容,導致指向的是知識庫中不同的實體,前者表示退役的籃球運動員,后者表示機器學習方向的教授,因此,指稱上下文內容可以作為實體消歧的衡量標準。本文的目標知識庫是Freebase,對于結構化組織的知識庫,往往會存在實體描述信息不全或缺失的問題,因此,需要通過其他特征來表示知識庫中的實體。于是,本文根據(jù)知識庫本身的特點,使用實體類別和實體關系作為實體在知識庫中的表示,并且分別計算與指稱上下文內容的相似度,選擇相似度最大的實體作為目標實體。Freebase為每個實體提供了豐富的類別信息,圖4-2是實體“NewYorkCity”的類別結構,這里只列舉了部分類別。知識庫中對實體類別分為兩個層次,第一層是相對泛化的概念,第二層則細化為具體類別,第一層包含第二層的概念,比如圖中的“film_screening_venue”作為“film”這個概念集合的一個元素。圖4-2實體類別結構圖當問句提及到一個實體指稱時,問句的內容極有可能出現(xiàn)與實體類別相關的詞匯,因此本文將實體類別和指稱的上下文內容間的相似度作為實體消歧的特征。實體類別的兩層概念是包含與被包含的關系,同時將兩層概念作為考慮的話,一方面會給實體類別的描述帶來不少噪聲;另一方面特征計算的復雜度較高。于是,本文僅保留第一層概念
第五章系統(tǒng)實現(xiàn)39的MTV模式中的T(模版),也就是網(wǎng)頁,db.sqlite3是框架提供的一個輕量級數(shù)據(jù)庫,支持數(shù)據(jù)存儲,manage.py是服務器相關,可通過下面代碼啟動服務器,pythonmanage.pystartappLinksys圖5-2系統(tǒng)代碼結構Web應用項目通常包含前端頁面、后臺服務器、數(shù)據(jù)庫等,基于Django的項目中,linksys文件夾包含應用后臺代碼,詳細的內容見圖5-3,這里的文件在項目創(chuàng)建時自動生成,其中的models.py是存放的是數(shù)據(jù)存取操作,views.py是業(yè)務邏輯層對應的代碼,即處理請求的操作,其它主要是系統(tǒng)的配置文件。圖5-3linksys文件夾內容客戶端向服務端發(fā)送請求的過程,其實是瀏覽器和服務器的WebServer發(fā)生一個
【參考文獻】:
期刊論文
[1]一種基于概率主題模型的命名實體鏈接方法[J]. 懷寶興,寶騰飛,祝恒書,劉淇. 軟件學報. 2014(09)
本文編號:3229132
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3229132.html
最近更新
教材專著