基于互信息的知識(shí)圖譜實(shí)體關(guān)聯(lián)關(guān)系建模與補(bǔ)全
發(fā)布時(shí)間:2020-03-29 12:41
【摘要】:知識(shí)圖譜(knowledge graph,KG)中實(shí)體間缺失關(guān)系的補(bǔ)全,是目前KG領(lǐng)域研究的熱點(diǎn)之一。隨著Web2.0的快速發(fā)展,用戶生成數(shù)據(jù)(user-generated data,UGD)中體現(xiàn)出來(lái)的實(shí)體間的關(guān)聯(lián)關(guān)系是KG所描述知識(shí)的有益補(bǔ)充。目前基于路徑的KG知識(shí)推理方法,由于存在稀疏或者錯(cuò)誤實(shí)體關(guān)系,且連通性差,從而導(dǎo)致實(shí)體間關(guān)系抽取不準(zhǔn)確。針對(duì)該問(wèn)題,提出一種借助UGD中實(shí)體間關(guān)聯(lián)關(guān)系來(lái)補(bǔ)全KG的方法。首先從UGD出發(fā),使用互信息來(lái)計(jì)算實(shí)體節(jié)點(diǎn)間的關(guān)聯(lián)關(guān)系,從而構(gòu)建實(shí)體節(jié)點(diǎn)關(guān)聯(lián)圖(entity association graph,EAG);然后給出關(guān)聯(lián)影響疊加方法來(lái)定量計(jì)算EAG中互不相鄰實(shí)體間的潛在關(guān)聯(lián)關(guān)系,從而得到一個(gè)關(guān)聯(lián)影響值;最后對(duì)不相鄰的實(shí)體節(jié)點(diǎn)之間的多個(gè)關(guān)聯(lián)影響值再次進(jìn)行疊加計(jì)算,從而判斷實(shí)體間是否存在強(qiáng)的潛在關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)KG的補(bǔ)全。建立在真實(shí)數(shù)據(jù)之上的實(shí)驗(yàn)結(jié)果表明,所提方法對(duì)KG的補(bǔ)全是有效的。
【圖文】:
建[5]、表示學(xué)習(xí)[6-7]和補(bǔ)全(completion)[8-9]等方面開(kāi)展了大量的研究。KG是一種節(jié)點(diǎn)和邊組成的圖結(jié)構(gòu),其中節(jié)點(diǎn)表示相應(yīng)的實(shí)體,邊表示實(shí)體之間的關(guān)系。因?yàn)镵G中節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系能夠更好地完善搜索結(jié)果,服務(wù)用戶,所以KG的完備性和準(zhǔn)確性尤為重要。雖然當(dāng)前知識(shí)庫(kù)數(shù)量不斷增多,規(guī)模不斷擴(kuò)大,但是仍然有許多知識(shí)庫(kù)并不完整,例如GoogleKnowledgeVault[7]項(xiàng)目核心元素Freebase[10]中71%的個(gè)人信息缺失“出生地”,75%的個(gè)人信息缺失“國(guó)籍說(shuō)明”,這使得KG的補(bǔ)全具有重要的實(shí)際意義。針對(duì)圖1中描述用戶瀏覽商品相關(guān)信息的KG,補(bǔ)全就是判斷和添加圖1中虛線部分商品節(jié)點(diǎn)之間缺失的關(guān)系。針對(duì)KG補(bǔ)全,目前國(guó)內(nèi)外學(xué)者開(kāi)展了許多系統(tǒng)性的研究。例如,Liu等人[2]綜述了KG中通過(guò)實(shí)體間關(guān)系抽取來(lái)補(bǔ)全KG的相關(guān)概念和研究領(lǐng)域,介紹了關(guān)系抽取的經(jīng)典模型,大多數(shù)KG補(bǔ)全的方法都是以表示學(xué)習(xí)和知識(shí)推理為基矗其中,從表示學(xué)習(xí)方面,Zhang等人[11]提出一種實(shí)體間相似性度量標(biāo)準(zhǔn),showtheefficiencyandeffectivenessoftheproposedKGcompletion.Keywords:knowledgegraph;completion;user-generateddata;mutualinformation;associationimpact摘要:知識(shí)圖譜(knowledgegraph,KG)中實(shí)體間缺失關(guān)系的補(bǔ)全,是目前KG領(lǐng)域研究的熱點(diǎn)之一。隨著Web2.0的快速發(fā)展,用戶生成數(shù)據(jù)(user-generateddata,UGD)中體現(xiàn)出來(lái)的實(shí)體間的關(guān)聯(lián)關(guān)系是KG所描述知識(shí)的有益補(bǔ)充。目前基于路徑的KG知識(shí)推理方法,由于存在稀疏或者錯(cuò)誤實(shí)體關(guān)系,且連通性差,從而導(dǎo)致實(shí)體間關(guān)系抽取不準(zhǔn)確。針對(duì)該問(wèn)題,提出一種借助UGD中實(shí)體間關(guān)聯(lián)關(guān)系來(lái)補(bǔ)全KG的方法。首先從UGD出發(fā),使用互信息來(lái)計(jì)算實(shí)體節(jié)點(diǎn)間的關(guān)聯(lián)關(guān)系,從而構(gòu)建實(shí)體節(jié)點(diǎn)關(guān)聯(lián)圖(
9的執(zhí)行時(shí)間為O(n2),因此算法1的時(shí)間復(fù)雜度為O(n2)。針對(duì)實(shí)際中規(guī)模較大的UGD,下文進(jìn)一步通過(guò)實(shí)驗(yàn)來(lái)測(cè)試算法的有效性。例1以用戶瀏覽商品為例,若UGD中包含1000條用戶行為記錄,由算法1的步驟5得到N(“鼠標(biāo)”)=325,N(“鍵盤(pán)”)=400,由步驟6得到N(“鼠標(biāo)”,“鍵盤(pán)”)=187,則根據(jù)上述式(2)、(3)、(4)、(5)、(6)得到0.71>0.58,因此“鼠標(biāo)”和“鍵盤(pán)”之間邊的方向?yàn)椤笆髽?biāo)”“鍵盤(pán)”。同理可計(jì)算出其他實(shí)體節(jié)點(diǎn)間的關(guān)聯(lián)度以及它們之間邊的方向,如圖2所示。3KG的補(bǔ)全若GK中實(shí)體節(jié)點(diǎn)間缺失的邊在G中真實(shí)存在,則把這條邊添加到GK中;若GK中實(shí)體節(jié)點(diǎn)間缺失的邊在G中不存在,則把這樣的節(jié)點(diǎn)之間的關(guān)聯(lián)稱為潛在關(guān)聯(lián),進(jìn)而通過(guò)判斷潛在關(guān)聯(lián)的強(qiáng)弱來(lái)確定這兩個(gè)節(jié)點(diǎn)之間是否需要添加邊。3.1實(shí)體節(jié)點(diǎn)間潛在的關(guān)聯(lián)關(guān)系度量G中一個(gè)實(shí)體節(jié)點(diǎn)op均與兩個(gè)不相鄰的實(shí)體節(jié)點(diǎn)oq和oz相鄰,且它們之間的關(guān)聯(lián)值分別記為I(op,oq)和I(op,oz)。在實(shí)際情形中,一個(gè)實(shí)體節(jié)點(diǎn)與兩個(gè)不相鄰的實(shí)體節(jié)點(diǎn)之間關(guān)聯(lián)值越高,,且關(guān)聯(lián)值越接近,則這兩個(gè)不相鄰的實(shí)體節(jié)點(diǎn)之間的潛在關(guān)聯(lián)關(guān)系越高,反之,則越低。本文綜合考慮一個(gè)實(shí)體節(jié)點(diǎn)對(duì)兩個(gè)不相鄰的實(shí)體節(jié)點(diǎn)之間產(chǎn)生的關(guān)聯(lián)影響,引入“疊加”的概念[18]。將該實(shí)體節(jié)點(diǎn)對(duì)兩個(gè)不相鄰的實(shí)體節(jié)點(diǎn)之間的影響而產(chǎn)生的關(guān)聯(lián)影響值記為I(op,oq)"旾(op,oz),且疊加算子"曈β悖海
本文編號(hào):2605984
【圖文】:
建[5]、表示學(xué)習(xí)[6-7]和補(bǔ)全(completion)[8-9]等方面開(kāi)展了大量的研究。KG是一種節(jié)點(diǎn)和邊組成的圖結(jié)構(gòu),其中節(jié)點(diǎn)表示相應(yīng)的實(shí)體,邊表示實(shí)體之間的關(guān)系。因?yàn)镵G中節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系能夠更好地完善搜索結(jié)果,服務(wù)用戶,所以KG的完備性和準(zhǔn)確性尤為重要。雖然當(dāng)前知識(shí)庫(kù)數(shù)量不斷增多,規(guī)模不斷擴(kuò)大,但是仍然有許多知識(shí)庫(kù)并不完整,例如GoogleKnowledgeVault[7]項(xiàng)目核心元素Freebase[10]中71%的個(gè)人信息缺失“出生地”,75%的個(gè)人信息缺失“國(guó)籍說(shuō)明”,這使得KG的補(bǔ)全具有重要的實(shí)際意義。針對(duì)圖1中描述用戶瀏覽商品相關(guān)信息的KG,補(bǔ)全就是判斷和添加圖1中虛線部分商品節(jié)點(diǎn)之間缺失的關(guān)系。針對(duì)KG補(bǔ)全,目前國(guó)內(nèi)外學(xué)者開(kāi)展了許多系統(tǒng)性的研究。例如,Liu等人[2]綜述了KG中通過(guò)實(shí)體間關(guān)系抽取來(lái)補(bǔ)全KG的相關(guān)概念和研究領(lǐng)域,介紹了關(guān)系抽取的經(jīng)典模型,大多數(shù)KG補(bǔ)全的方法都是以表示學(xué)習(xí)和知識(shí)推理為基矗其中,從表示學(xué)習(xí)方面,Zhang等人[11]提出一種實(shí)體間相似性度量標(biāo)準(zhǔn),showtheefficiencyandeffectivenessoftheproposedKGcompletion.Keywords:knowledgegraph;completion;user-generateddata;mutualinformation;associationimpact摘要:知識(shí)圖譜(knowledgegraph,KG)中實(shí)體間缺失關(guān)系的補(bǔ)全,是目前KG領(lǐng)域研究的熱點(diǎn)之一。隨著Web2.0的快速發(fā)展,用戶生成數(shù)據(jù)(user-generateddata,UGD)中體現(xiàn)出來(lái)的實(shí)體間的關(guān)聯(lián)關(guān)系是KG所描述知識(shí)的有益補(bǔ)充。目前基于路徑的KG知識(shí)推理方法,由于存在稀疏或者錯(cuò)誤實(shí)體關(guān)系,且連通性差,從而導(dǎo)致實(shí)體間關(guān)系抽取不準(zhǔn)確。針對(duì)該問(wèn)題,提出一種借助UGD中實(shí)體間關(guān)聯(lián)關(guān)系來(lái)補(bǔ)全KG的方法。首先從UGD出發(fā),使用互信息來(lái)計(jì)算實(shí)體節(jié)點(diǎn)間的關(guān)聯(lián)關(guān)系,從而構(gòu)建實(shí)體節(jié)點(diǎn)關(guān)聯(lián)圖(
9的執(zhí)行時(shí)間為O(n2),因此算法1的時(shí)間復(fù)雜度為O(n2)。針對(duì)實(shí)際中規(guī)模較大的UGD,下文進(jìn)一步通過(guò)實(shí)驗(yàn)來(lái)測(cè)試算法的有效性。例1以用戶瀏覽商品為例,若UGD中包含1000條用戶行為記錄,由算法1的步驟5得到N(“鼠標(biāo)”)=325,N(“鍵盤(pán)”)=400,由步驟6得到N(“鼠標(biāo)”,“鍵盤(pán)”)=187,則根據(jù)上述式(2)、(3)、(4)、(5)、(6)得到0.71>0.58,因此“鼠標(biāo)”和“鍵盤(pán)”之間邊的方向?yàn)椤笆髽?biāo)”“鍵盤(pán)”。同理可計(jì)算出其他實(shí)體節(jié)點(diǎn)間的關(guān)聯(lián)度以及它們之間邊的方向,如圖2所示。3KG的補(bǔ)全若GK中實(shí)體節(jié)點(diǎn)間缺失的邊在G中真實(shí)存在,則把這條邊添加到GK中;若GK中實(shí)體節(jié)點(diǎn)間缺失的邊在G中不存在,則把這樣的節(jié)點(diǎn)之間的關(guān)聯(lián)稱為潛在關(guān)聯(lián),進(jìn)而通過(guò)判斷潛在關(guān)聯(lián)的強(qiáng)弱來(lái)確定這兩個(gè)節(jié)點(diǎn)之間是否需要添加邊。3.1實(shí)體節(jié)點(diǎn)間潛在的關(guān)聯(lián)關(guān)系度量G中一個(gè)實(shí)體節(jié)點(diǎn)op均與兩個(gè)不相鄰的實(shí)體節(jié)點(diǎn)oq和oz相鄰,且它們之間的關(guān)聯(lián)值分別記為I(op,oq)和I(op,oz)。在實(shí)際情形中,一個(gè)實(shí)體節(jié)點(diǎn)與兩個(gè)不相鄰的實(shí)體節(jié)點(diǎn)之間關(guān)聯(lián)值越高,,且關(guān)聯(lián)值越接近,則這兩個(gè)不相鄰的實(shí)體節(jié)點(diǎn)之間的潛在關(guān)聯(lián)關(guān)系越高,反之,則越低。本文綜合考慮一個(gè)實(shí)體節(jié)點(diǎn)對(duì)兩個(gè)不相鄰的實(shí)體節(jié)點(diǎn)之間產(chǎn)生的關(guān)聯(lián)影響,引入“疊加”的概念[18]。將該實(shí)體節(jié)點(diǎn)對(duì)兩個(gè)不相鄰的實(shí)體節(jié)點(diǎn)之間的影響而產(chǎn)生的關(guān)聯(lián)影響值記為I(op,oq)"旾(op,oz),且疊加算子"曈β悖海
本文編號(hào):2605984
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2605984.html
最近更新
教材專著