天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

上下文感知的實體鏈接技術(shù)研究

發(fā)布時間:2018-02-09 20:05

  本文關(guān)鍵詞: 實體鏈接 文檔向量 信息抽取 分布式表達 出處:《浙江大學(xué)》2017年碩士論文 論文類型:學(xué)位論文


【摘要】:將互聯(lián)網(wǎng)上海量的非結(jié)構(gòu)化文本數(shù)據(jù)轉(zhuǎn)為應(yīng)用所需的結(jié)構(gòu)化知識,使其可被計算機高效地利用是改進搜索系統(tǒng),實現(xiàn)智能問答與機器閱讀的基礎(chǔ)。在這個過程中,實體鏈接技術(shù)扮演了一個關(guān)鍵的角色,其主要目標是消除由于別名、指代、一詞多意等語言學(xué)現(xiàn)象引發(fā)的歧義,建立文本中出現(xiàn)的專有名詞(實體名)與知識庫中其所指代的實體之間的對應(yīng)關(guān)系。如何從對應(yīng)同一實體名的多個候選實體中找出最佳候選是實體鏈接的研究重點。本文對此展開了深入的研究,提出了一種基于融合實體信息的文檔向量的實體鏈接方法:首先,本文提出了一種新穎的文檔分布式向量表達學(xué)習(xí)模型,在傳統(tǒng)文檔向量表達學(xué)習(xí)過程中融合上下文實體、實體共現(xiàn)性等對于實體鏈接至關(guān)重要的額外信息,使得新的文檔向量表達在實體鏈接中具有更好鑒別力;針對上述模型難以直接訓(xùn)練的問題,研究了一種通過隨機采樣訓(xùn)練樣本,并結(jié)合Hierarchical Softmax或Negative Sampling進行訓(xùn)練的方法,不但使得信息融合成為可能,更提高了訓(xùn)練速度;隨后,基于該模型學(xué)習(xí)得到的文檔向量特征,本研究構(gòu)建了候選實體與當前輸入文檔的語義匹配程度模型;最后,結(jié)合求出的語義匹配程度與候選實體本身的屬性協(xié)同地探索實體鏈接最佳候選,形成了完整的實體鏈接系統(tǒng);诜植际较蛄勘磉_的實體鏈接系統(tǒng)克服了傳統(tǒng)方法需手工構(gòu)造特征的缺點,自動地利用了同一文檔中提及的不同實體之間通常存在一定關(guān)聯(lián)的假設(shè),在鏈接時聯(lián)合感知了上下文中的普通詞信息和提及實體信息。相比近年來提出的基于深度神經(jīng)網(wǎng)絡(luò)的方法,具有無需大量實體鏈接標注數(shù)據(jù)、模型訓(xùn)練時間短等突出優(yōu)勢。在實體鏈接研究常用的TAC KBP實體鏈接數(shù)據(jù)集上的一系列實驗結(jié)果表明,本研究設(shè)計的實體鏈接系統(tǒng)性能優(yōu)越,其準確率可高于現(xiàn)有最新實體鏈接方法2個百分點以上。基于本研究的實體鏈接系統(tǒng),在2016年NIST(美國國家標準技術(shù)研究所)組織的國際知識庫構(gòu)建大賽(TAC KBP)英文EDL(實體發(fā)現(xiàn)與鏈接)任務(wù)的全部8項指標中,取得了6項第一,2項第二,綜合性能排名第一的好成績。同時參與任務(wù)的國內(nèi)外高校與研究機構(gòu)還包括CMU、IIBM、科大訊飛等共13個參賽隊伍。本研究所述的實體鏈接系統(tǒng),不但得到了國際競賽的認可,還直接應(yīng)用于中國工程院牽頭的中國工程科技知識中心建設(shè)項目等多個國家級項目中,為實現(xiàn)其中的自動知識庫構(gòu)建與數(shù)據(jù)結(jié)構(gòu)化發(fā)揮了重要的作用。
[Abstract]:It is the foundation of improving search system, realizing intelligent question and answer and machine reading to convert the unstructured text data of Shanghai quantity of Internet into the structured knowledge needed for application, so that it can be used efficiently by computer. Physical link technology plays a key role, the main goal of which is to eliminate ambiguity caused by linguistic phenomena such as aliases, references, multiple meanings, etc. Establish the correspondence between the proper nouns (entity names) appearing in the text and the entities they refer to in the knowledge base. How to find out the best candidate from multiple candidate entities corresponding to the same entity name is the study of entity link. This paper has carried out a deep research on this, This paper proposes an entity linking method based on document vector fusion of entity information. Firstly, a novel document distributed vector representation learning model is proposed, in which context entities are fused in the traditional document vector representation learning process. The additional information, such as entity co-occurrence, which is crucial to entity link, makes the new document vector expression more discriminant in entity link, aiming at the problem that the above model is difficult to be trained directly. This paper studies a training method based on random sampling and combining with Hierarchical Softmax or Negative Sampling, which not only makes information fusion possible, but also improves the training speed. In this study, the semantic matching degree model between candidate entity and current input document is constructed. Finally, the best candidate for entity link is explored in combination with the semantic matching degree and the attributes of the candidate entity. The entity link system based on distributed vector expression overcomes the disadvantage of traditional method which needs to construct features manually. The assumption that the different entities mentioned in the same document are usually related is automatically exploited, The common word information and the reference entity information in the context are jointly perceived when linking. Compared with the method based on depth neural network proposed in recent years, there is no need for a large number of entity link tagging data. The model training time is short and so on. A series of experimental results on the TAC KBP entity link data set, which are commonly used in entity link research, show that the physical link system designed in this paper is superior in performance. The accuracy of the method can be more than 2 percentage points higher than that of the latest entity link method. In 2016, NIST (National Institute of National Standards and Technology) organized the International knowledge Base Building Competition (TAC KBP) in English EDL (entity discovery and link) task of all eight indicators, obtained 6 first and second, At the same time, the participating universities and research institutions at home and abroad also included 13 teams, such as CMU I IBM, iFLYTEK, etc. The physical link system described in this study has not only been recognized by international competitions. It is also directly applied to many state-level projects such as the construction project of China Engineering Science and Technology knowledge Center led by the Chinese Academy of Engineering which plays an important role in the realization of automatic knowledge base construction and data structure.
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1

【相似文獻】

相關(guān)期刊論文 前10條

1 霍然;王宏志;朱摂;李建中;高宏;;基于Map-Reduce的大數(shù)據(jù)實體識別算法[J];計算機研究與發(fā)展;2013年S2期

2 徐福緣;對IDEF1的擴充[J];計算機工程;1988年05期

3 李天柱;O-O數(shù)據(jù)模型中實體聯(lián)系的表達方法[J];計算機研究與發(fā)展;1997年04期

4 楊丹;申德榮;于戈;聶鐵錚;寇月;;數(shù)據(jù)空間中時間為中心的集合實體識別策略[J];計算機科學(xué)與探索;2012年11期

5 劉軍華;張麗敏;;基于數(shù)據(jù)字典的實體類設(shè)計與實現(xiàn)[J];湖南工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報;2012年05期

6 閆寶華;;信息管理系統(tǒng)中實體bean問題之解決方案研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2011年01期

7 朱立;;淺談實體框架[J];電腦知識與技術(shù);2011年18期

8 朱曉林;;基于Java創(chuàng)建游戲?qū)嶓w類[J];科技廣場;2006年05期

9 劉杰;;基于規(guī)則和統(tǒng)計相結(jié)合的地名實體識別的研究[J];佳木斯大學(xué)學(xué)報(自然科學(xué)版);2009年04期

10 李金良,陳恩平;集成CAD/CAPP的制造資源擴展實體聯(lián)系模型[J];組合機床與自動化加工技術(shù);2001年11期

相關(guān)博士學(xué)位論文 前6條

1 劉健;實體檢索的理論與關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2014年

2 寇月;Deep Web實體搜索的關(guān)鍵技術(shù)研究[D];東北大學(xué);2009年

3 姜麗麗;實體搜索與實體解析方法研究[D];蘭州大學(xué);2012年

4 張俊三;Web中相關(guān)實體發(fā)現(xiàn)研究[D];北京交通大學(xué);2013年

5 毛存禮;有色金屬領(lǐng)域?qū)嶓w檢索關(guān)鍵技術(shù)研究[D];昆明理工大學(xué);2014年

6 王金剛;在線知識庫累積引文推薦技術(shù)研究[D];北京理工大學(xué);2015年

相關(guān)碩士學(xué)位論文 前10條

1 郭云龍;微博實體與百科條目鏈接的多策略研究[D];西南大學(xué);2015年

2 吳佳君;多階段混合屬性的景點實體解析研究[D];江西師范大學(xué);2015年

3 王睿;實體鏈接的研究與實現(xiàn)[D];北京郵電大學(xué);2015年

4 王福海;貴陽學(xué)院學(xué)生公寓管理系統(tǒng)的研究與分析[D];云南大學(xué);2015年

5 蘇永浩;基于知識圖譜的跨語言實體鏈接與語義查詢[D];華東師范大學(xué);2016年

6 周曉聰;開平市教育局固定資產(chǎn)管理系統(tǒng)的研究與分析[D];云南大學(xué);2016年

7 鄒先奇;基于貪心森林的微博實體鏈接方法研究[D];哈爾濱工業(yè)大學(xué);2014年

8 周習(xí)曼;基于關(guān)聯(lián)數(shù)據(jù)的實體鏈接發(fā)現(xiàn)研究[D];華中師范大學(xué);2015年

9 戴洪良;上下文感知的實體鏈接技術(shù)研究[D];浙江大學(xué);2017年

10 高艷紅;基于上下文的多特征圖模型中文實體鏈接技術(shù)[D];太原理工大學(xué);2017年

,

本文編號:1498751

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1498751.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1413a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com