面向短文本問句的命名實(shí)體識(shí)別及實(shí)體鏈接方法研究
發(fā)布時(shí)間:2021-06-14 05:09
命名實(shí)體識(shí)別和實(shí)體鏈接作為自然語言處理領(lǐng)域中的基本任務(wù),目標(biāo)是識(shí)別出語句中的實(shí)體指稱,并映射到知識(shí)庫中的相應(yīng)實(shí)體上。隨著知識(shí)庫問答系統(tǒng)的出現(xiàn),作為問答系統(tǒng)的基礎(chǔ)步驟,面向短文本問句的命名實(shí)體識(shí)別和實(shí)體鏈接技術(shù)的研究具有重要的意義和價(jià)值。對于命名實(shí)體識(shí)別,本文將命名實(shí)體識(shí)別看作序列標(biāo)注任務(wù),使用神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn),并在模型的輸入層和解碼層進(jìn)行了改進(jìn)。對于實(shí)體連接,本文針對面向短文本問句的實(shí)體鏈接面臨的挑戰(zhàn),提出了通過外部語料擴(kuò)充實(shí)體指稱的背景知識(shí)以及抽取實(shí)體類型、實(shí)體關(guān)系和鄰近實(shí)體作為候選實(shí)體在結(jié)構(gòu)化知識(shí)庫中的表示形式。本文主要研究內(nèi)容如下:(1)基于BiLSTM+SoftMax的神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)了命名實(shí)體識(shí)別,在預(yù)訓(xùn)練的單詞向量后拼接單詞的字符級(jí)別和詞性特征作為模型的輸入,同時(shí)由于BiLSTM和SoftMax無法考慮命名實(shí)體標(biāo)簽之間的依賴關(guān)系,解碼層使用CRF替換SoftMax,為每個(gè)單詞選擇全局最優(yōu)的標(biāo)簽。(2)抽取Freebase知識(shí)庫中包含實(shí)體名稱屬性的三元組,進(jìn)行數(shù)據(jù)清洗,構(gòu)建成指稱-實(shí)體映射詞典,并利用實(shí)體流行度對候選實(shí)體集合進(jìn)行有效篩選,得到大小合適的候選實(shí)體集合,最后重新定...
【文章來源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:58 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
課題研究框架
由于擁有不同的上下文內(nèi)容,導(dǎo)致指向的是知識(shí)庫中不同的實(shí)體,前者表示退役的籃球運(yùn)動(dòng)員,后者表示機(jī)器學(xué)習(xí)方向的教授,因此,指稱上下文內(nèi)容可以作為實(shí)體消歧的衡量標(biāo)準(zhǔn)。本文的目標(biāo)知識(shí)庫是Freebase,對于結(jié)構(gòu)化組織的知識(shí)庫,往往會(huì)存在實(shí)體描述信息不全或缺失的問題,因此,需要通過其他特征來表示知識(shí)庫中的實(shí)體。于是,本文根據(jù)知識(shí)庫本身的特點(diǎn),使用實(shí)體類別和實(shí)體關(guān)系作為實(shí)體在知識(shí)庫中的表示,并且分別計(jì)算與指稱上下文內(nèi)容的相似度,選擇相似度最大的實(shí)體作為目標(biāo)實(shí)體。Freebase為每個(gè)實(shí)體提供了豐富的類別信息,圖4-2是實(shí)體“NewYorkCity”的類別結(jié)構(gòu),這里只列舉了部分類別。知識(shí)庫中對實(shí)體類別分為兩個(gè)層次,第一層是相對泛化的概念,第二層則細(xì)化為具體類別,第一層包含第二層的概念,比如圖中的“film_screening_venue”作為“film”這個(gè)概念集合的一個(gè)元素。圖4-2實(shí)體類別結(jié)構(gòu)圖當(dāng)問句提及到一個(gè)實(shí)體指稱時(shí),問句的內(nèi)容極有可能出現(xiàn)與實(shí)體類別相關(guān)的詞匯,因此本文將實(shí)體類別和指稱的上下文內(nèi)容間的相似度作為實(shí)體消歧的特征。實(shí)體類別的兩層概念是包含與被包含的關(guān)系,同時(shí)將兩層概念作為考慮的話,一方面會(huì)給實(shí)體類別的描述帶來不少噪聲;另一方面特征計(jì)算的復(fù)雜度較高。于是,本文僅保留第一層概念
第五章系統(tǒng)實(shí)現(xiàn)39的MTV模式中的T(模版),也就是網(wǎng)頁,db.sqlite3是框架提供的一個(gè)輕量級(jí)數(shù)據(jù)庫,支持?jǐn)?shù)據(jù)存儲(chǔ),manage.py是服務(wù)器相關(guān),可通過下面代碼啟動(dòng)服務(wù)器,pythonmanage.pystartappLinksys圖5-2系統(tǒng)代碼結(jié)構(gòu)Web應(yīng)用項(xiàng)目通常包含前端頁面、后臺(tái)服務(wù)器、數(shù)據(jù)庫等,基于Django的項(xiàng)目中,linksys文件夾包含應(yīng)用后臺(tái)代碼,詳細(xì)的內(nèi)容見圖5-3,這里的文件在項(xiàng)目創(chuàng)建時(shí)自動(dòng)生成,其中的models.py是存放的是數(shù)據(jù)存取操作,views.py是業(yè)務(wù)邏輯層對應(yīng)的代碼,即處理請求的操作,其它主要是系統(tǒng)的配置文件。圖5-3linksys文件夾內(nèi)容客戶端向服務(wù)端發(fā)送請求的過程,其實(shí)是瀏覽器和服務(wù)器的WebServer發(fā)生一個(gè)
【參考文獻(xiàn)】:
期刊論文
[1]一種基于概率主題模型的命名實(shí)體鏈接方法[J]. 懷寶興,寶騰飛,祝恒書,劉淇. 軟件學(xué)報(bào). 2014(09)
本文編號(hào):3229132
【文章來源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:58 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
課題研究框架
由于擁有不同的上下文內(nèi)容,導(dǎo)致指向的是知識(shí)庫中不同的實(shí)體,前者表示退役的籃球運(yùn)動(dòng)員,后者表示機(jī)器學(xué)習(xí)方向的教授,因此,指稱上下文內(nèi)容可以作為實(shí)體消歧的衡量標(biāo)準(zhǔn)。本文的目標(biāo)知識(shí)庫是Freebase,對于結(jié)構(gòu)化組織的知識(shí)庫,往往會(huì)存在實(shí)體描述信息不全或缺失的問題,因此,需要通過其他特征來表示知識(shí)庫中的實(shí)體。于是,本文根據(jù)知識(shí)庫本身的特點(diǎn),使用實(shí)體類別和實(shí)體關(guān)系作為實(shí)體在知識(shí)庫中的表示,并且分別計(jì)算與指稱上下文內(nèi)容的相似度,選擇相似度最大的實(shí)體作為目標(biāo)實(shí)體。Freebase為每個(gè)實(shí)體提供了豐富的類別信息,圖4-2是實(shí)體“NewYorkCity”的類別結(jié)構(gòu),這里只列舉了部分類別。知識(shí)庫中對實(shí)體類別分為兩個(gè)層次,第一層是相對泛化的概念,第二層則細(xì)化為具體類別,第一層包含第二層的概念,比如圖中的“film_screening_venue”作為“film”這個(gè)概念集合的一個(gè)元素。圖4-2實(shí)體類別結(jié)構(gòu)圖當(dāng)問句提及到一個(gè)實(shí)體指稱時(shí),問句的內(nèi)容極有可能出現(xiàn)與實(shí)體類別相關(guān)的詞匯,因此本文將實(shí)體類別和指稱的上下文內(nèi)容間的相似度作為實(shí)體消歧的特征。實(shí)體類別的兩層概念是包含與被包含的關(guān)系,同時(shí)將兩層概念作為考慮的話,一方面會(huì)給實(shí)體類別的描述帶來不少噪聲;另一方面特征計(jì)算的復(fù)雜度較高。于是,本文僅保留第一層概念
第五章系統(tǒng)實(shí)現(xiàn)39的MTV模式中的T(模版),也就是網(wǎng)頁,db.sqlite3是框架提供的一個(gè)輕量級(jí)數(shù)據(jù)庫,支持?jǐn)?shù)據(jù)存儲(chǔ),manage.py是服務(wù)器相關(guān),可通過下面代碼啟動(dòng)服務(wù)器,pythonmanage.pystartappLinksys圖5-2系統(tǒng)代碼結(jié)構(gòu)Web應(yīng)用項(xiàng)目通常包含前端頁面、后臺(tái)服務(wù)器、數(shù)據(jù)庫等,基于Django的項(xiàng)目中,linksys文件夾包含應(yīng)用后臺(tái)代碼,詳細(xì)的內(nèi)容見圖5-3,這里的文件在項(xiàng)目創(chuàng)建時(shí)自動(dòng)生成,其中的models.py是存放的是數(shù)據(jù)存取操作,views.py是業(yè)務(wù)邏輯層對應(yīng)的代碼,即處理請求的操作,其它主要是系統(tǒng)的配置文件。圖5-3linksys文件夾內(nèi)容客戶端向服務(wù)端發(fā)送請求的過程,其實(shí)是瀏覽器和服務(wù)器的WebServer發(fā)生一個(gè)
【參考文獻(xiàn)】:
期刊論文
[1]一種基于概率主題模型的命名實(shí)體鏈接方法[J]. 懷寶興,寶騰飛,祝恒書,劉淇. 軟件學(xué)報(bào). 2014(09)
本文編號(hào):3229132
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3229132.html
最近更新
教材專著