基于多源信息的實體鏈接算法研究及應用
發(fā)布時間:2021-03-07 15:29
實體鏈接(Entity Linking)是知識圖譜領(lǐng)域一項關(guān)鍵的基礎(chǔ)技術(shù),其任務是要將非結(jié)構(gòu)化文本中提及的實體和知識庫中存儲的實體進行一一映射,以幫助計算機更精準地理解輸入的自然語言。實體鏈接在知識庫擴展、信息檢索、智能問答、內(nèi)容推薦等場景下有著廣泛的應用,是知識圖譜領(lǐng)域的熱點研究問題之一。本文通過對國內(nèi)外基于圖結(jié)構(gòu)和實體嵌入的實體鏈接相關(guān)研究進行調(diào)研,針對實體鏈接研究中生成的候選實體集噪聲過大,候選實體一致性衡量不精確,相似候選實體消歧能力不足等問題,提出了兩種基于圖結(jié)構(gòu)的聯(lián)合實體鏈接算法。具體地,本文的主要工作包括:1、提出了基于LeaderRank的聯(lián)合實體鏈接算法—LRCEL,該算法主要包括實體識別模塊、候選實體集生成模塊、實體關(guān)聯(lián)圖構(gòu)造模塊、候選實體排序模塊這四個主要模塊。首先考慮輸入文本中潛在的語義信息和本地知識庫中蘊含的語義信息,生成規(guī)模小而精確的候選實體集,隨后通過候選實體集構(gòu)造包含候選實體強弱語義關(guān)系的實體關(guān)聯(lián)圖,最后利用關(guān)聯(lián)圖中包含的多源信息結(jié)合LeaderRank進行候選實體排序,選擇一組候選實體作為輸入中各實體提及的最終鏈接對象,完成各實體提及與知識庫實體的鏈接...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【部分圖文】:
實體鏈
第三章基于圖的鏈接算法研究27們還需要建設同義別名詞典,同義別名詞典記錄了每個常用提及的別名。實體提及映射字典通常通過挖掘用戶日志,利用啟發(fā)式規(guī)則,利用知識庫信息等方式得到。同義別名詞典的構(gòu)建方法包括但不限于:1)借助外部數(shù)據(jù)構(gòu)建2)文本同義詞挖掘3)人工編撰。百度百科作為全球最大的中文百科網(wǎng)站,我們可以借助百度百科中實體頁面的Infobox信息來構(gòu)建同義別名詞典。在實體頁面的Infobox欄中我們可以找到實體的中文名稱,外文名稱,常用別名等信息,這些信息可以幫助我們初步快速構(gòu)建同義別名詞典。圖3-2給出在百度百科中關(guān)于“北京”這個實體的Infobox。圖3-2百度百科實體Infobox信息在得到上述兩個輔助詞典后,就可以基于這兩個詞典得到實體提及的候選實體集。首先通過同義詞別名詞典將提及映射為統(tǒng)一規(guī)范的形式,然后通過實體提及映射詞典獲取提及可能鏈接到的候選實體。例如輸入文本中存在實體提及“燕京”,首先通過同義別名詞典將提及“燕京”映射為提及“北京”,然后分別以“燕京”和“北京”為主鍵通過實體提及映射字典查詢得到提及“燕京”的候選實體<北京(中華人民共和國首都)>,<北京(朱剛演唱的歌曲)>,<北京(小行星)>等。本文依賴的部分同義別名詞典結(jié)構(gòu)如表3-2所示,實體提及映射詞典如表3-3所示。
第五章實傼與分析53圖結(jié)構(gòu)數(shù)據(jù)的不二之眩圖5-1DB-Engines最新發(fā)布的圖數(shù)據(jù)庫排名本文采用Neo4j數(shù)據(jù)庫作為本地知識庫的存儲工具。Neo4j作為存儲工具的好處有如下幾點:1)Neo4j數(shù)據(jù)庫是為圖結(jié)構(gòu)數(shù)據(jù)存儲而設計,非常適合大規(guī)模存儲實體和實體關(guān)系這種圖結(jié)構(gòu)數(shù)據(jù)。2)Neo4j數(shù)據(jù)庫自帶可視化工具,用該數(shù)據(jù)庫存儲數(shù)據(jù)可讀性較強。3)Neo4j數(shù)據(jù)庫具有成熟數(shù)據(jù)庫的特性,在大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)上有極儈的查詢效率,是一個儈性能的圖引擎。在選定好知識庫的存儲工具之后,將三元組數(shù)據(jù)進行清洗處理后,導入到Neo4j數(shù)據(jù)庫中,即可完成本文所使用的知識庫的構(gòu)建存儲。圖5-2為CN-Dbpedia通用知識庫在Neo4j中關(guān)于“復旦大學”實體的相關(guān)數(shù)據(jù)組織結(jié)構(gòu),圖5-3為本文自行構(gòu)建的金融知識庫在Neo4j中存儲的數(shù)據(jù)組織結(jié)構(gòu)。在Neo4j數(shù)據(jù)庫中,每個節(jié)點表示一個實體或者字符屬性,連接實體節(jié)點的邊表示實體間的關(guān)系。例如圖5-2中“中國平安”和“平安銀行”是實體,實體“王群”和實體“平安銀行”間存在著管理關(guān)系。
【參考文獻】:
期刊論文
[1]基于詞向量和條件隨機場的領(lǐng)域術(shù)語識別方法[J]. 馮艷紅,于紅,孫庚,趙禹錦. 計算機應用. 2016(11)
[2]基于條件隨機場與時間詞庫的中文時間表達式識別[J]. 吳瓊,黃德根. 中文信息學報. 2014(06)
[3]基于層疊隱馬爾可夫模型的中文命名實體識別[J]. 俞鴻魁,張華平,劉群,呂學強,施水才. 通信學報. 2006(02)
本文編號:3069363
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【部分圖文】:
實體鏈
第三章基于圖的鏈接算法研究27們還需要建設同義別名詞典,同義別名詞典記錄了每個常用提及的別名。實體提及映射字典通常通過挖掘用戶日志,利用啟發(fā)式規(guī)則,利用知識庫信息等方式得到。同義別名詞典的構(gòu)建方法包括但不限于:1)借助外部數(shù)據(jù)構(gòu)建2)文本同義詞挖掘3)人工編撰。百度百科作為全球最大的中文百科網(wǎng)站,我們可以借助百度百科中實體頁面的Infobox信息來構(gòu)建同義別名詞典。在實體頁面的Infobox欄中我們可以找到實體的中文名稱,外文名稱,常用別名等信息,這些信息可以幫助我們初步快速構(gòu)建同義別名詞典。圖3-2給出在百度百科中關(guān)于“北京”這個實體的Infobox。圖3-2百度百科實體Infobox信息在得到上述兩個輔助詞典后,就可以基于這兩個詞典得到實體提及的候選實體集。首先通過同義詞別名詞典將提及映射為統(tǒng)一規(guī)范的形式,然后通過實體提及映射詞典獲取提及可能鏈接到的候選實體。例如輸入文本中存在實體提及“燕京”,首先通過同義別名詞典將提及“燕京”映射為提及“北京”,然后分別以“燕京”和“北京”為主鍵通過實體提及映射字典查詢得到提及“燕京”的候選實體<北京(中華人民共和國首都)>,<北京(朱剛演唱的歌曲)>,<北京(小行星)>等。本文依賴的部分同義別名詞典結(jié)構(gòu)如表3-2所示,實體提及映射詞典如表3-3所示。
第五章實傼與分析53圖結(jié)構(gòu)數(shù)據(jù)的不二之眩圖5-1DB-Engines最新發(fā)布的圖數(shù)據(jù)庫排名本文采用Neo4j數(shù)據(jù)庫作為本地知識庫的存儲工具。Neo4j作為存儲工具的好處有如下幾點:1)Neo4j數(shù)據(jù)庫是為圖結(jié)構(gòu)數(shù)據(jù)存儲而設計,非常適合大規(guī)模存儲實體和實體關(guān)系這種圖結(jié)構(gòu)數(shù)據(jù)。2)Neo4j數(shù)據(jù)庫自帶可視化工具,用該數(shù)據(jù)庫存儲數(shù)據(jù)可讀性較強。3)Neo4j數(shù)據(jù)庫具有成熟數(shù)據(jù)庫的特性,在大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)上有極儈的查詢效率,是一個儈性能的圖引擎。在選定好知識庫的存儲工具之后,將三元組數(shù)據(jù)進行清洗處理后,導入到Neo4j數(shù)據(jù)庫中,即可完成本文所使用的知識庫的構(gòu)建存儲。圖5-2為CN-Dbpedia通用知識庫在Neo4j中關(guān)于“復旦大學”實體的相關(guān)數(shù)據(jù)組織結(jié)構(gòu),圖5-3為本文自行構(gòu)建的金融知識庫在Neo4j中存儲的數(shù)據(jù)組織結(jié)構(gòu)。在Neo4j數(shù)據(jù)庫中,每個節(jié)點表示一個實體或者字符屬性,連接實體節(jié)點的邊表示實體間的關(guān)系。例如圖5-2中“中國平安”和“平安銀行”是實體,實體“王群”和實體“平安銀行”間存在著管理關(guān)系。
【參考文獻】:
期刊論文
[1]基于詞向量和條件隨機場的領(lǐng)域術(shù)語識別方法[J]. 馮艷紅,于紅,孫庚,趙禹錦. 計算機應用. 2016(11)
[2]基于條件隨機場與時間詞庫的中文時間表達式識別[J]. 吳瓊,黃德根. 中文信息學報. 2014(06)
[3]基于層疊隱馬爾可夫模型的中文命名實體識別[J]. 俞鴻魁,張華平,劉群,呂學強,施水才. 通信學報. 2006(02)
本文編號:3069363
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3069363.html
最近更新
教材專著