一種基于概率主題模型的命名實(shí)體鏈接方法
發(fā)布時(shí)間:2017-09-20 01:41
本文關(guān)鍵詞:一種基于概率主題模型的命名實(shí)體鏈接方法
更多相關(guān)文章: 命名實(shí)體鏈接 概率主題模型 維基百科
【摘要】:命名實(shí)體鏈接(named entity linking,簡稱NEL)是把文檔中給定的命名實(shí)體鏈接到知識(shí)庫中一個(gè)無歧義實(shí)體的過程,包括同義實(shí)體的合并、歧義實(shí)體的消歧等.該技術(shù)可以提升在線推薦系統(tǒng)、互聯(lián)網(wǎng)搜索引擎等實(shí)際應(yīng)用的信息過濾能力.然而,實(shí)體數(shù)量的激增給實(shí)體消歧等帶來了巨大挑戰(zhàn),使得當(dāng)前的命名實(shí)體鏈接技術(shù)越來越難以滿足人們對鏈接準(zhǔn)確率的要求.考慮到文檔中的詞和實(shí)體往往具有不同的語義主題(如"蘋果"既能表示水果又可以是某電子品牌),而同一文檔中的詞與實(shí)體應(yīng)當(dāng)具有相似的主題,因此提出在語義層面對文檔進(jìn)行建模和實(shí)體消歧的思想.基于此設(shè)計(jì)一種完整的、基于概率主題模型的命名實(shí)體鏈接方法.首先,利用維基百科(Wikipedia)構(gòu)建知識(shí)庫;然后,利用概率主題模型將詞和命名實(shí)體映射到同一個(gè)主題空間,并根據(jù)實(shí)體在主題空間中的位置向量,把給定文本中的命名實(shí)體鏈接到知識(shí)庫中一個(gè)無歧義的命名實(shí)體;最后,在真實(shí)的數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn),并與標(biāo)準(zhǔn)方法進(jìn)行對比.實(shí)驗(yàn)結(jié)果表明:所提出的框架能夠較好地解決了實(shí)體歧義問題,取得了更高的實(shí)體鏈接準(zhǔn)確度.
【作者單位】: 中國科學(xué)技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【關(guān)鍵詞】: 命名實(shí)體鏈接 概率主題模型 維基百科
【基金】:國家杰出青年科學(xué)基金(61325010) 國家高技術(shù)研究發(fā)展計(jì)劃(863)(2014AA015203) 安徽省科技專項(xiàng)資金(13Z02008-5) 安徽省國際科技合作計(jì)劃(1303063008) 安徽省科技攻關(guān)計(jì)劃(1301022064) 安徽省自然科學(xué)基金(1408085QF110)
【分類號(hào)】:TP391.1
【正文快照】: 人們在使用互聯(lián)網(wǎng)的過程中,接觸頻率最高的信息載體就是文字信息,如新聞、博客、評論等,這些文本蘊(yùn)含了大量的命名實(shí)體(named entity).所謂命名實(shí)體,即包括名稱(組織名、人名、地名、商品名)、表達(dá)式(日期、時(shí)間)等在內(nèi)的具有明確語義信息的文本實(shí)體[1].為此,許多學(xué)者專注于研
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 譚紅葉;趙鐵軍;;一種基于軟模式的語義類發(fā)現(xiàn)方法[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2007年11期
2 劉路;李弼程;張先飛;;基于向量相似度修正策略的命名實(shí)體關(guān)聯(lián)分析[J];計(jì)算機(jī)工程與應(yīng)用;2008年02期
3 潘淵;李弼程;張先飛;;一種基于自適應(yīng)重心向量的主題檢測方法[J];計(jì)算機(jī)工程;2009年03期
4 潘正高;侯傳宇;談成訪;;基于命名實(shí)體的Web新聞文本分類方法[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年08期
5 王睿,張潔,張由儀,于y,
本文編號(hào):885191
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/885191.html
最近更新
教材專著