面向科研人員的多數(shù)據(jù)源命名實(shí)體消歧方法研究
發(fā)布時(shí)間:2021-02-25 22:13
在網(wǎng)絡(luò)信息呈爆炸式增長的今天,通過搜索引擎查詢信息已成為人們信息檢索的主要方式,而實(shí)體重名現(xiàn)象的普遍性導(dǎo)致了檢索結(jié)果存在極大歧義性。如何高效地消除歧義,成為了搜索引擎亟待解決的問題,而實(shí)體消歧就是解決這一核心問題的關(guān)鍵技術(shù)。本文結(jié)合多數(shù)據(jù)源,提出了基于多主屬性分類化和結(jié)構(gòu)化語義關(guān)系的命名實(shí)體消歧算法。該算法面向科研人員信息展開消歧研究,融合其在中國知網(wǎng)、百度百科等多個(gè)數(shù)據(jù)源的分散信息,提取實(shí)體多主屬性,先后計(jì)算實(shí)體間的結(jié)構(gòu)化語義關(guān)系和分類化語義關(guān)系,得到實(shí)體間的相似度,并運(yùn)用聚類算法實(shí)現(xiàn)實(shí)體消歧。結(jié)構(gòu)化語義關(guān)系算法通過構(gòu)建語義關(guān)系圖來挖掘?qū)嶓w間的顯式和隱式語義關(guān)系,而基于多主屬性的分類化語義關(guān)系算法則通過提取實(shí)體的多主屬性與非主屬性先后進(jìn)行計(jì)算得到實(shí)體間的分類化語義關(guān)系;谠撍惴,本文最后實(shí)現(xiàn)了一個(gè)面向科研人員的多數(shù)據(jù)源命名實(shí)體消歧系統(tǒng),該系統(tǒng)接收用戶關(guān)于科研人員檢索信息的輸入,將檢索信息與采集到的科研人員實(shí)體數(shù)據(jù)集進(jìn)行消歧計(jì)算并返回消歧結(jié)果。實(shí)驗(yàn)表明,將基于多主屬性分類化和結(jié)構(gòu)化語義關(guān)系的命名實(shí)體消歧算法運(yùn)用于科研人員實(shí)體消歧,極大提高了科研人員信息檢索系統(tǒng)的準(zhǔn)確率和召回率。
【文章來源】:北京林業(yè)大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:59 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3.2百度學(xué)術(shù)搜索學(xué)者示例??Figure?3.2?The?example?of?Baidu?Academic?search?with?the?researchers'?name??
?面向科研人員的多數(shù)據(jù)源命名實(shí)體消歧方法研究???5面向科研人員的多數(shù)據(jù)源命名實(shí)體消歧系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)??為了檢驗(yàn)本文數(shù)據(jù)采集、預(yù)處理及改進(jìn)的人名消歧算法在實(shí)際應(yīng)用的有效性,??本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)面向科研人員的多數(shù)據(jù)源命名實(shí)體消歧系統(tǒng)。該系統(tǒng)將接??收用戶的科研人員信息檢索,然后經(jīng)過數(shù)據(jù)預(yù)處理與分詞處理,并應(yīng)用本文改進(jìn)的??基于多主屬性分類化和結(jié)構(gòu)化語義關(guān)系的命名實(shí)體消歧算法與已經(jīng)采集下來的科??研人員實(shí)體信息進(jìn)行相似度計(jì)算,最終將消歧結(jié)果以網(wǎng)頁的形式展示給用戶。??5.1系統(tǒng)框架??系統(tǒng)的整體架構(gòu)由數(shù)據(jù)數(shù)據(jù)源層、數(shù)據(jù)采集層、DB數(shù)據(jù)庫層、數(shù)據(jù)分析層及??數(shù)據(jù)展示層五個(gè)部分構(gòu)成,系統(tǒng)整體架構(gòu)圖如圖5.1所示。??
數(shù)據(jù)庫間的概念結(jié)構(gòu)設(shè)計(jì)能充分反映事物間的潛在聯(lián)系,具有易于理解、易于??更改、易于向其他數(shù)據(jù)模型轉(zhuǎn)換的優(yōu)點(diǎn)。概念結(jié)構(gòu)設(shè)計(jì)中描述概念模型的工具則是??E-R模型,圖5.3給出了本文的E-R模型圖。??人號(hào)八..人j'.'?發(fā)明??爽\?d??養(yǎng)上一哎??專利??(零? ̄ ̄0£)??(5^\?@?T??圖5.3?E-R模型??Figure?5.3?E-R?model??5.3.2基本信息表??基本信息表用于存儲(chǔ)科研人員索引名單中的學(xué)者的個(gè)人基本信息,包括姓名、??所屬機(jī)構(gòu)、性別、出生年月、研究領(lǐng)域等。具體如表5.1所示。??31??
【參考文獻(xiàn)】:
期刊論文
[1]Named Entity Disambiguation Based on Classified and Structural Semantic Relatedness[J]. CHAI Mingke,LI Dongmei,ZHUANG Tingting,YANG Shuyi. Chinese Journal of Electronics. 2018(06)
[2]人名消歧研究綜述[J]. 陽怡林,陳剛,周杰,李弼程. 信息工程大學(xué)學(xué)報(bào). 2016(04)
[3]基于圖的中文集成實(shí)體鏈接算法[J]. 劉嶠,鐘云,李楊,劉瑤,秦志光. 計(jì)算機(jī)研究與發(fā)展. 2016(02)
[4]基于層次聚類的跨文本中文人名消歧研究[J]. 張菲菲,李宗海,周曉輝,李曉戈. 計(jì)算機(jī)工程與應(yīng)用. 2014(06)
[5]基于人物相關(guān)社區(qū)的重名消解研究[J]. 李琦,馬軍. 山東大學(xué)學(xué)報(bào)(理學(xué)版). 2012(03)
[6]開放式文本信息抽取[J]. 趙軍,劉康,周光有,蔡黎. 中文信息學(xué)報(bào). 2011(06)
[7]基于改進(jìn)的正向最大匹配中文分詞算法研究[J]. 王惠仙,龍華. 貴州大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(05)
[8]基于社會(huì)網(wǎng)絡(luò)的人名檢索結(jié)果重名消解[J]. 郎君,秦兵,宋巍,劉龍,劉挺,李生. 計(jì)算機(jī)學(xué)報(bào). 2009(07)
[9]命名實(shí)體識(shí)別、排歧和跨語言關(guān)聯(lián)[J]. 趙軍. 中文信息學(xué)報(bào). 2009(02)
[10]數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理方法[J]. 彭高輝,王志良. 華北水利水電學(xué)院學(xué)報(bào). 2008(06)
碩士論文
[1]面向科研人員的多源異構(gòu)信息消歧系統(tǒng)的研究與實(shí)現(xiàn)[D]. 池翔.北京郵電大學(xué) 2018
本文編號(hào):3051657
【文章來源】:北京林業(yè)大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:59 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3.2百度學(xué)術(shù)搜索學(xué)者示例??Figure?3.2?The?example?of?Baidu?Academic?search?with?the?researchers'?name??
?面向科研人員的多數(shù)據(jù)源命名實(shí)體消歧方法研究???5面向科研人員的多數(shù)據(jù)源命名實(shí)體消歧系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)??為了檢驗(yàn)本文數(shù)據(jù)采集、預(yù)處理及改進(jìn)的人名消歧算法在實(shí)際應(yīng)用的有效性,??本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)面向科研人員的多數(shù)據(jù)源命名實(shí)體消歧系統(tǒng)。該系統(tǒng)將接??收用戶的科研人員信息檢索,然后經(jīng)過數(shù)據(jù)預(yù)處理與分詞處理,并應(yīng)用本文改進(jìn)的??基于多主屬性分類化和結(jié)構(gòu)化語義關(guān)系的命名實(shí)體消歧算法與已經(jīng)采集下來的科??研人員實(shí)體信息進(jìn)行相似度計(jì)算,最終將消歧結(jié)果以網(wǎng)頁的形式展示給用戶。??5.1系統(tǒng)框架??系統(tǒng)的整體架構(gòu)由數(shù)據(jù)數(shù)據(jù)源層、數(shù)據(jù)采集層、DB數(shù)據(jù)庫層、數(shù)據(jù)分析層及??數(shù)據(jù)展示層五個(gè)部分構(gòu)成,系統(tǒng)整體架構(gòu)圖如圖5.1所示。??
數(shù)據(jù)庫間的概念結(jié)構(gòu)設(shè)計(jì)能充分反映事物間的潛在聯(lián)系,具有易于理解、易于??更改、易于向其他數(shù)據(jù)模型轉(zhuǎn)換的優(yōu)點(diǎn)。概念結(jié)構(gòu)設(shè)計(jì)中描述概念模型的工具則是??E-R模型,圖5.3給出了本文的E-R模型圖。??人號(hào)八..人j'.'?發(fā)明??爽\?d??養(yǎng)上一哎??專利??(零? ̄ ̄0£)??(5^\?@?T??圖5.3?E-R模型??Figure?5.3?E-R?model??5.3.2基本信息表??基本信息表用于存儲(chǔ)科研人員索引名單中的學(xué)者的個(gè)人基本信息,包括姓名、??所屬機(jī)構(gòu)、性別、出生年月、研究領(lǐng)域等。具體如表5.1所示。??31??
【參考文獻(xiàn)】:
期刊論文
[1]Named Entity Disambiguation Based on Classified and Structural Semantic Relatedness[J]. CHAI Mingke,LI Dongmei,ZHUANG Tingting,YANG Shuyi. Chinese Journal of Electronics. 2018(06)
[2]人名消歧研究綜述[J]. 陽怡林,陳剛,周杰,李弼程. 信息工程大學(xué)學(xué)報(bào). 2016(04)
[3]基于圖的中文集成實(shí)體鏈接算法[J]. 劉嶠,鐘云,李楊,劉瑤,秦志光. 計(jì)算機(jī)研究與發(fā)展. 2016(02)
[4]基于層次聚類的跨文本中文人名消歧研究[J]. 張菲菲,李宗海,周曉輝,李曉戈. 計(jì)算機(jī)工程與應(yīng)用. 2014(06)
[5]基于人物相關(guān)社區(qū)的重名消解研究[J]. 李琦,馬軍. 山東大學(xué)學(xué)報(bào)(理學(xué)版). 2012(03)
[6]開放式文本信息抽取[J]. 趙軍,劉康,周光有,蔡黎. 中文信息學(xué)報(bào). 2011(06)
[7]基于改進(jìn)的正向最大匹配中文分詞算法研究[J]. 王惠仙,龍華. 貴州大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(05)
[8]基于社會(huì)網(wǎng)絡(luò)的人名檢索結(jié)果重名消解[J]. 郎君,秦兵,宋巍,劉龍,劉挺,李生. 計(jì)算機(jī)學(xué)報(bào). 2009(07)
[9]命名實(shí)體識(shí)別、排歧和跨語言關(guān)聯(lián)[J]. 趙軍. 中文信息學(xué)報(bào). 2009(02)
[10]數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理方法[J]. 彭高輝,王志良. 華北水利水電學(xué)院學(xué)報(bào). 2008(06)
碩士論文
[1]面向科研人員的多源異構(gòu)信息消歧系統(tǒng)的研究與實(shí)現(xiàn)[D]. 池翔.北京郵電大學(xué) 2018
本文編號(hào):3051657
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3051657.html
最近更新
教材專著