基于知識圖譜的實體標簽可視化
發(fā)布時間:2020-12-19 12:30
針對實體理解中實體識別問題,傳統(tǒng)的實體標簽方法致力于在不同實體中找到其獨特特征。為了便于理解知識圖譜(KG)中每個實體的區(qū)分性,提出了一種基于KG的實體標簽方法來識別出獨特的實體特征,通過HAS模型衡量了特征的區(qū)分性。HAS模型是一種可擴展的表示學習模型,用于生成多模式實體嵌入。最后,評估了真實KG生成的實體標簽質量,結果表明該方法有助于人們理解KG中的實體。
【文章來源】:指揮信息系統(tǒng)與技術. 2020年03期
【文章頁數(shù)】:9 頁
【部分圖文】:
3種路徑查找策略徑
指揮信息系統(tǒng)與技術2020年6月指通過提取一個簡明的摘要來縮短冗長的實體描述,并在摘要中保留重要信息。雖然摘要能夠幫助用戶快速理解實體,但僅依靠摘要來理解實體仍很困難,區(qū)分實體的問題仍未解決。由于實體摘要只包含了實體本身的“局部”信息,缺少了體現(xiàn)實體相對于其他實體唯一性的“全局”信息,實體的區(qū)分性無法在摘要中表現(xiàn)出來。本文提出用一種抽象方法來描述KG中的實體,通過圖分析,從KG中提取出能夠體現(xiàn)實體獨特特征的結構化標簽。實體標簽可視化示例如圖1所示,給出了用本文方法生成的2個實體標簽可視化示例。圖1(a)中實體是定義在電影知識圖譜LinkedMDB(http://www.linkedmdb.org/)中的電影實體Léon;圖1(b)中實體是定義在DBpedia[4]中的一個樂隊實體BeastieBoys。每個實體有5個標簽,每個標簽從KG中提取,并用綠色標注,其中,“≠80%”表明該實體在該特征上與其他80%的電影或樂隊不同;“>60%”或“<95%”表明該實體在該特征上與其他電影或樂隊相比,具有比60%更大或比95%更小的值。本文主要開展了以下工作:1)提出了KG中的實體標簽可視化問題,并提供了解決方案;2)知識圖譜提出了一種具有可擴展性多模式表示學習模型——HAS模型,能夠高效查找出KG中最具區(qū)分性的標簽;3)對本文方法進行了全面的試驗研究。內部試驗和外部試驗均表明,該方法能幫助人們理解實體的區(qū)分性。2相關工作近年來,實體標簽化逐漸受到學術界的關注,但總體上還未得到充分研究。文獻[5]引入了實體標簽方法來描述真實世界的實體,這些實體能夠以不同方式用重疊的信息來描述。文獻[6]引入了語料庫來
性值標簽(Attributivevaluelabels),其中標簽的值不是一個區(qū)間,而是具體值,如<人,性別,“女”>;RAL指關系屬性標簽(Relationalattributivelabels),表明某類實體與其他具有具體屬性的實體間存在聯(lián)系,如標簽<導演,拍攝,<電影,評分,[8.0,9.0]>>描述了拍高分電影的導演;REL(Relationalentitylabels)指某類實體與一個具體的實體有聯(lián)系,如iPhone、iPad和其他蘋果產品均為帶有標簽<產品,生產商,蘋果公司>的實體。本文實體標簽可視化流程如圖2所示。首先,給定一個知識圖譜作為輸入,所有可能的標簽都會自動枚舉到一個標簽池中,但枚舉可能產生大量候選標簽,通過候選過濾器將這些候選標簽進行初步的啟發(fā)式過濾,丟棄其不具備區(qū)分性的特征;然后,每個候選標簽由獨特性評估器進行徹底檢查,用HAS模型來衡量正例和負例間的差異性,只有具有區(qū)分性的標簽留在標簽集中,本文使用重排序來減少標簽空間中的冗余;最后,將標簽可視化輸出。本文將正例定義為符合該標簽的實體;負例定義為不符合該標簽的實體。3.2構建候選標簽池在無先驗知識情況下,通過自動化生成標簽方式從KG中暴力枚舉出所有標簽。通過枚舉所有屬性和屬性值的組合或關系和實體的組合可以直接生成候選AVL和REL標簽,而候選AIL和RAL標簽的生成較復雜。例如,給定一個三元組<ForrestGump,rating,8.3>,僅簡單生成候選標簽<Film,rating,8.3>是毫無意義的,因為該標簽過于特殊,幾乎無法表明其他電影的特征。在本文方法中,將屬性的連續(xù)值生成為包含該值的一個更廣泛的區(qū)間。<Film,rating,[8.0,9.0]>優(yōu)于<Film,rating,8.3>,這是因為前者更能代
【參考文獻】:
期刊論文
[1]一種基于密度分布函數(shù)聚類的屬性離散化方法[J]. 李興生,李德毅. 系統(tǒng)仿真學報. 2003(06)
本文編號:2925905
【文章來源】:指揮信息系統(tǒng)與技術. 2020年03期
【文章頁數(shù)】:9 頁
【部分圖文】:
3種路徑查找策略徑
指揮信息系統(tǒng)與技術2020年6月指通過提取一個簡明的摘要來縮短冗長的實體描述,并在摘要中保留重要信息。雖然摘要能夠幫助用戶快速理解實體,但僅依靠摘要來理解實體仍很困難,區(qū)分實體的問題仍未解決。由于實體摘要只包含了實體本身的“局部”信息,缺少了體現(xiàn)實體相對于其他實體唯一性的“全局”信息,實體的區(qū)分性無法在摘要中表現(xiàn)出來。本文提出用一種抽象方法來描述KG中的實體,通過圖分析,從KG中提取出能夠體現(xiàn)實體獨特特征的結構化標簽。實體標簽可視化示例如圖1所示,給出了用本文方法生成的2個實體標簽可視化示例。圖1(a)中實體是定義在電影知識圖譜LinkedMDB(http://www.linkedmdb.org/)中的電影實體Léon;圖1(b)中實體是定義在DBpedia[4]中的一個樂隊實體BeastieBoys。每個實體有5個標簽,每個標簽從KG中提取,并用綠色標注,其中,“≠80%”表明該實體在該特征上與其他80%的電影或樂隊不同;“>60%”或“<95%”表明該實體在該特征上與其他電影或樂隊相比,具有比60%更大或比95%更小的值。本文主要開展了以下工作:1)提出了KG中的實體標簽可視化問題,并提供了解決方案;2)知識圖譜提出了一種具有可擴展性多模式表示學習模型——HAS模型,能夠高效查找出KG中最具區(qū)分性的標簽;3)對本文方法進行了全面的試驗研究。內部試驗和外部試驗均表明,該方法能幫助人們理解實體的區(qū)分性。2相關工作近年來,實體標簽化逐漸受到學術界的關注,但總體上還未得到充分研究。文獻[5]引入了實體標簽方法來描述真實世界的實體,這些實體能夠以不同方式用重疊的信息來描述。文獻[6]引入了語料庫來
性值標簽(Attributivevaluelabels),其中標簽的值不是一個區(qū)間,而是具體值,如<人,性別,“女”>;RAL指關系屬性標簽(Relationalattributivelabels),表明某類實體與其他具有具體屬性的實體間存在聯(lián)系,如標簽<導演,拍攝,<電影,評分,[8.0,9.0]>>描述了拍高分電影的導演;REL(Relationalentitylabels)指某類實體與一個具體的實體有聯(lián)系,如iPhone、iPad和其他蘋果產品均為帶有標簽<產品,生產商,蘋果公司>的實體。本文實體標簽可視化流程如圖2所示。首先,給定一個知識圖譜作為輸入,所有可能的標簽都會自動枚舉到一個標簽池中,但枚舉可能產生大量候選標簽,通過候選過濾器將這些候選標簽進行初步的啟發(fā)式過濾,丟棄其不具備區(qū)分性的特征;然后,每個候選標簽由獨特性評估器進行徹底檢查,用HAS模型來衡量正例和負例間的差異性,只有具有區(qū)分性的標簽留在標簽集中,本文使用重排序來減少標簽空間中的冗余;最后,將標簽可視化輸出。本文將正例定義為符合該標簽的實體;負例定義為不符合該標簽的實體。3.2構建候選標簽池在無先驗知識情況下,通過自動化生成標簽方式從KG中暴力枚舉出所有標簽。通過枚舉所有屬性和屬性值的組合或關系和實體的組合可以直接生成候選AVL和REL標簽,而候選AIL和RAL標簽的生成較復雜。例如,給定一個三元組<ForrestGump,rating,8.3>,僅簡單生成候選標簽<Film,rating,8.3>是毫無意義的,因為該標簽過于特殊,幾乎無法表明其他電影的特征。在本文方法中,將屬性的連續(xù)值生成為包含該值的一個更廣泛的區(qū)間。<Film,rating,[8.0,9.0]>優(yōu)于<Film,rating,8.3>,這是因為前者更能代
【參考文獻】:
期刊論文
[1]一種基于密度分布函數(shù)聚類的屬性離散化方法[J]. 李興生,李德毅. 系統(tǒng)仿真學報. 2003(06)
本文編號:2925905
本文鏈接:http://sikaile.net/tushudanganlunwen/2925905.html