基于隨機(jī)游走的實(shí)體類型補(bǔ)全方法
本文選題:知識(shí)庫(kù) 切入點(diǎn):類型補(bǔ)全 出處:《計(jì)算機(jī)學(xué)報(bào)》2017年10期 論文類型:期刊論文
【摘要】:伴隨著大數(shù)據(jù)的大量涌現(xiàn)以及開(kāi)放鏈接數(shù)據(jù)(LOD)等項(xiàng)目的開(kāi)展,語(yǔ)義網(wǎng)知識(shí)庫(kù)的數(shù)量激增,語(yǔ)義網(wǎng)知識(shí)庫(kù)正在引起學(xué)術(shù)界和工業(yè)界越來(lái)越多的關(guān)注,在信息檢索系統(tǒng)中起著重要的作用,如實(shí)體搜索和問(wèn)答系統(tǒng)等.實(shí)體類型信息在信息檢索中扮演著重要的角色,例如,查詢"湯姆·漢克斯所出演的電影",該查詢限定了返回的實(shí)體類型是"電影",這對(duì)提高查詢結(jié)果的精度具有重要作用.然而,知識(shí)庫(kù)中實(shí)體類型信息的缺失是十分嚴(yán)重的,影響了知識(shí)庫(kù)在信息檢索等領(lǐng)域中使用的正確性和廣泛性.據(jù)統(tǒng)計(jì),在DBpedia2014中,8%的實(shí)體沒(méi)有任何類型信息,28%的實(shí)體只有高度抽象的類型信息(比如類型為"Thing"),因此對(duì)于實(shí)體類型補(bǔ)全的研究尤其是實(shí)體細(xì)粒度類型的補(bǔ)全是十分重要的.目前已有的方法包括基于概率模型和表示學(xué)習(xí)兩類.以基于概率模型的SDType算法為例.首先,SDType為每個(gè)謂詞計(jì)算對(duì)各個(gè)類型的區(qū)分能力得分,然后,在為實(shí)體做類型補(bǔ)全時(shí),累加該實(shí)體所具有的謂詞對(duì)各個(gè)類型的得分.此類方法沒(méi)有考慮謂詞與謂詞之間的相互增強(qiáng)作用,在存在知識(shí)缺失的情況下會(huì)影響補(bǔ)全效果.以表示學(xué)習(xí)的類型補(bǔ)全方法TransE為例,此方法對(duì)于簡(jiǎn)單的關(guān)系(1-1的關(guān)系)補(bǔ)全是可以的,但是對(duì)于補(bǔ)全實(shí)體類型這種復(fù)雜的關(guān)系效果并不理想,另外,表示學(xué)習(xí)的訓(xùn)練集尤其是負(fù)例難以獲得.由于模型需要學(xué)習(xí)大量的參數(shù),在大數(shù)據(jù)量的背景下,性能也是一個(gè)問(wèn)題.文中提出一種基于謂詞-類型推理圖的隨機(jī)游走方法來(lái)補(bǔ)全缺失的實(shí)體類型.首先對(duì)知識(shí)庫(kù)中已有知識(shí)進(jìn)行統(tǒng)計(jì),包括具有某個(gè)謂詞的實(shí)體數(shù)目、屬于某個(gè)類型的實(shí)體數(shù)目以及屬于某個(gè)類型并且具有某個(gè)謂詞的實(shí)體數(shù)目.其次,基于得到的統(tǒng)計(jì)信息構(gòu)建結(jié)點(diǎn)由謂詞和類型組成的有向推理圖,推理圖的邊包括謂詞-謂詞和謂詞-類型兩種.在構(gòu)建推理圖時(shí),作者考慮了謂詞之間的相互增強(qiáng)作用,在類型補(bǔ)全中是有效果的,尤其是在知識(shí)庫(kù)存在知識(shí)缺失的背景下.最后,對(duì)于一個(gè)缺失類型信息的實(shí)體,根據(jù)該實(shí)體所具有的謂詞在推理圖上做隨機(jī)游走來(lái)補(bǔ)全類型.為了解決由于知識(shí)庫(kù)中存在錯(cuò)誤知識(shí)等原因?qū)е碌念愋驼Z(yǔ)義漂移現(xiàn)象,文中使用PMI(點(diǎn)互信息)技術(shù)對(duì)結(jié)果進(jìn)行了進(jìn)一步的優(yōu)化.在真實(shí)DBpedia知識(shí)庫(kù)上的實(shí)驗(yàn),驗(yàn)證了文中提出的算法相比于已有的典型算法有更高的精確度.
[Abstract]:With the emergence of big data and the development of open link data (LOD) and other projects, the number of semantic web knowledge base has increased rapidly, and the semantic web knowledge base is attracting more and more attention from academia and industry. It plays an important role in information retrieval system, such as entity search and question answering system. Entity type information plays an important role in information retrieval, for example, The query "Tom Hanks' movie," which limits the type of entity returned to "film," is important to improve the accuracy of the query results. However, the lack of entity type information in the knowledge base is serious. It affects the correctness and universality of the knowledge base used in information retrieval and other fields. According to statistics, In DBpedia2014, 8% of entities do not have any type information. 28% of entities only have highly abstract type information (such as type "Thing"), so it is very important to study the completion of entity types, especially for fine-grained types of entities. The existing methods include probabilistic model and representation learning. Take the probabilistic model-based SDType algorithm as an example. Then, on a type-by-day basis for an entity, it accumulates scores for each type of predicate that the entity has. Such methods do not take into account the interaction between predicates and predicates, When there is a lack of knowledge, the effect of complement can be affected. Take TransE, a type complement method representing learning, as an example, this method can be used for simple relationships (1-1). However, the complex relation effect of complement entity type is not ideal. In addition, the training set of representation learning, especially the negative case, is difficult to obtain. Because the model needs to learn a large number of parameters, under the background of large amount of data, In this paper, a random walk method based on predicate-type inference graph is proposed to complement the missing entity types. Firstly, the existing knowledge in the knowledge base is counted, including the number of entities with a predicate. The number of entities belonging to a certain type and the number of entities belonging to a certain type and having a predicate. Secondly, based on the statistical information obtained, a directed inference graph consisting of predicates and types is constructed. The edges of inference graph include predicate-predicate and predicate-type. Especially in the knowledge base where there is a lack of knowledge. Finally, for an entity with missing type information, In order to solve the problem of type semantic drift caused by the error knowledge in knowledge base, the entity does random walk on the inference graph according to the predicate of the entity. In this paper, the PMI (Point Mutual Information) technique is used to further optimize the results. Experiments on the real DBpedia knowledge base show that the proposed algorithm is more accurate than the existing typical algorithms.
【作者單位】: 數(shù)據(jù)工程與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室(中國(guó)人民大學(xué));中國(guó)人民大學(xué)信息學(xué)院;天津工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與軟件學(xué)院;
【基金】:國(guó)家自然科學(xué)基金(61472426,61402329)資助~~
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王家華;周潤(rùn);;自回避隨機(jī)游走算法的研究與應(yīng)用[J];軟件導(dǎo)刊;2010年11期
2 陳君華;胡昌振;;基于隨機(jī)游走的蠕蟲(chóng)網(wǎng)絡(luò)演化研究[J];信息網(wǎng)絡(luò)安全;2009年07期
3 吳迪;周利娟;林鴻飛;;基于隨機(jī)游走的就業(yè)推薦系統(tǒng)研究與實(shí)現(xiàn)[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年01期
4 李星;鐘志農(nóng);李洋;;一種隨機(jī)游走中心性的快速算法[J];計(jì)算機(jī)應(yīng)用研究;2013年08期
5 曹穎;郝欣;朱曉恩;夏順仁;;基于自動(dòng)隨機(jī)游走的乳腺腫塊分割算法[J];浙江大學(xué)學(xué)報(bào)(工學(xué)版);2011年10期
6 李靖;冀中;;圖像多樣性重排序技術(shù)綜述[J];信息技術(shù);2013年06期
7 楊永向;吳為民;;隱含因子在隨機(jī)游走模型中的應(yīng)用[J];計(jì)算機(jī)應(yīng)用研究;2014年07期
8 肖杰斌;張紹武;;基于隨機(jī)游走和增量相關(guān)節(jié)點(diǎn)的動(dòng)態(tài)網(wǎng)絡(luò)社團(tuán)挖掘算法[J];電子與信息學(xué)報(bào);2013年04期
9 徐穎;;油氣儲(chǔ)層隨機(jī)游走建模軟件的設(shè)計(jì)[J];軟件導(dǎo)刊;2009年01期
10 吳瓊;譚松波;許洪波;段m#毅;程學(xué)旗;;基于隨機(jī)游走模型的跨領(lǐng)域傾向性分析研究[J];計(jì)算機(jī)研究與發(fā)展;2010年12期
相關(guān)會(huì)議論文 前2條
1 鄭偉;王朝坤;劉璋;王建民;;一種基于隨機(jī)游走模型的多標(biāo)簽分類算法[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集A輯一[C];2010年
2 朱松豪;羅青青;梁志偉;;一種改進(jìn)圖像標(biāo)注的新方法[A];第24屆中國(guó)控制與決策會(huì)議論文集[C];2012年
相關(guān)博士學(xué)位論文 前1條
1 孫甲申;基于主題模型和隨機(jī)游走的標(biāo)簽技術(shù)研究[D];北京郵電大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 鞠薇;基于隨機(jī)游走和圖割算法的PET-CT肺腫瘤分割[D];蘇州大學(xué);2015年
2 孫星;基于部分吸收隨機(jī)游走的協(xié)同顯著性檢測(cè)[D];大連理工大學(xué);2015年
3 宋文靜;基于多條隨機(jī)游走的圖像檢索[D];河南大學(xué);2015年
4 汪幫菊;基于隨機(jī)游走的復(fù)雜網(wǎng)絡(luò)聚類算法研究[D];安徽大學(xué);2016年
5 金連寶;基于分層信息融合和隨機(jī)游走的顯著性檢測(cè)[D];南昌航空大學(xué);2016年
6 馮維思;多屬性隨機(jī)游走在社會(huì)網(wǎng)絡(luò)中的應(yīng)用[D];西南大學(xué);2016年
7 唐小龍;基于隨機(jī)游走的圖像分割相關(guān)算法研究[D];電子科技大學(xué);2016年
8 顧瀟蒙;基于隨機(jī)游走算法的CT圖像肺區(qū)域和肺腫瘤的分割研究[D];河北大學(xué);2016年
9 趙倩倩;基于量子隨機(jī)游走的偽隨機(jī)發(fā)生器及圖像加密算法的研究[D];北京工業(yè)大學(xué);2016年
10 白坤;基于本體與基因網(wǎng)絡(luò)的致病基因預(yù)測(cè)研究[D];哈爾濱工業(yè)大學(xué);2016年
,本文編號(hào):1583684
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1583684.html