基于多源異構(gòu)數(shù)據(jù)的甲骨學(xué)知識圖譜構(gòu)建方法研究
發(fā)布時(shí)間:2021-01-28 11:51
為解決和緩解甲骨學(xué)研究難度大、周期長、知識關(guān)聯(lián)性弱、知識共享程度低等問題;诙嘣串悩(gòu)數(shù)據(jù)源,融合基于文獻(xiàn)計(jì)量學(xué)的科學(xué)知識圖譜(MKD)和基于知識庫的知識圖譜(KG),構(gòu)建了甲骨學(xué)融合知識圖譜。通過融合兩類知識圖譜,并基于知識推理進(jìn)行語義擴(kuò)展,形成最終的甲骨學(xué)知識圖譜。其中包含實(shí)體148 305個(gè),關(guān)系434 032條,可滿足甲骨學(xué)研究的基本需求。融合MKD和KG兩類知識圖譜,優(yōu)勢互補(bǔ),實(shí)現(xiàn)甲骨學(xué)知識圖譜構(gòu)建,可為其他古籍類知識圖譜構(gòu)建提供借鑒。
【文章來源】:浙江大學(xué)學(xué)報(bào)(理學(xué)版). 2020,47(02)北大核心
【文章頁數(shù)】:12 頁
【部分圖文】:
甲骨文多源異構(gòu)數(shù)據(jù)
甲骨學(xué)知識圖譜的構(gòu)建基于海量的多源異構(gòu)甲骨文研究數(shù)據(jù),通過融合MKD和KG兩類知識圖譜實(shí)現(xiàn)。其中MKD以甲骨學(xué)文獻(xiàn)為主要數(shù)據(jù)來源,KG以甲骨文文本、語料庫和數(shù)據(jù)庫為主要數(shù)據(jù)來源。甲骨學(xué)知識圖譜的構(gòu)建流程如圖2所示。由圖2可知,構(gòu)建甲骨學(xué)知識圖譜的數(shù)據(jù)源包括甲骨文文獻(xiàn)、數(shù)據(jù)庫、文本、語料庫等。首先,基于甲骨文文獻(xiàn),利用MKD表示甲骨學(xué)知識關(guān)聯(lián)、知識演化及知識群結(jié)構(gòu)。同時(shí),MKD可作為一種新生成的數(shù)據(jù)來源,利用共引、共詞、聚類分析等方法從MKD中提取實(shí)體(如研究機(jī)構(gòu)、學(xué)者、地點(diǎn)、人物、事件等)和實(shí)體之間的關(guān)系(如合作、被引、共現(xiàn)、為…提供依據(jù)、主題、分期、類組、材質(zhì)、祭祀對象、繼承等)。
以CNKI為數(shù)據(jù)來源,用“甲骨文”作為主題詞檢索1927年5月至2019年1月的文獻(xiàn),共篩選到5 971篇。由于文獻(xiàn)的標(biāo)題、關(guān)鍵詞和摘要已經(jīng)能反映甲骨文知識的大部分內(nèi)容,因此,構(gòu)建過程中,只取文獻(xiàn)的標(biāo)題、關(guān)鍵詞和摘要進(jìn)行共詞分析。利用CiteSpace工具,采用余弦函數(shù)進(jìn)行共詞分析,得到的甲骨學(xué)MKD圖譜片段如圖3所示。從圖3中可看出,甲骨學(xué)MKD可以顯示其知識結(jié)構(gòu)及其分布。節(jié)點(diǎn)類型涵蓋了人物、機(jī)構(gòu)、時(shí)間、事件等實(shí)體,節(jié)點(diǎn)和字體的相對大小體現(xiàn)了詞頻,連線表明了知識節(jié)點(diǎn)之間的關(guān)系,顏色對應(yīng)文獻(xiàn)發(fā)表年份。圖3顯示結(jié)果存在的最大問題是未考慮語義關(guān)系對實(shí)體的優(yōu)化,如“高端論壇”“字符”“字頻”等對甲骨文知識的意義不大,應(yīng)該剔除;相反,有助于表示甲骨文知識的同義詞、上位詞、下位詞等關(guān)系則沒有體現(xiàn)?梢,單用MKD無法較好地表示甲骨學(xué)知識體系。
【參考文獻(xiàn)】:
期刊論文
[1]深度學(xué)習(xí)實(shí)體關(guān)系抽取研究綜述[J]. 鄂海紅,張文靜,肖思琪,程瑞,胡鶯夕,周筱松,牛佩晴. 軟件學(xué)報(bào). 2019(06)
[2]“科學(xué)知識圖譜”與“Google知識圖譜”比較分析——基于知識管理理論視角[J]. 馮新翎,何勝,熊太純,武群輝,柳益君. 情報(bào)雜志. 2017(01)
[3]面向網(wǎng)絡(luò)大數(shù)據(jù)的知識融合方法綜述[J]. 林海倫,王元卓,賈巖濤,張鵬,王偉平. 計(jì)算機(jī)學(xué)報(bào). 2017(01)
[4]基于知網(wǎng)與詞林的詞語語義相似度計(jì)算[J]. 朱新華,馬潤聰,孫柳,陳宏朝. 中文信息學(xué)報(bào). 2016(04)
[5]知識庫實(shí)體對齊技術(shù)綜述[J]. 莊嚴(yán),李國良,馮建華. 計(jì)算機(jī)研究與發(fā)展. 2016(01)
[6]甲骨文知識圖譜構(gòu)建中的實(shí)體關(guān)系發(fā)現(xiàn)研究[J]. 熊晶,鐘珞,王愛民. 計(jì)算機(jī)工程與科學(xué). 2015(11)
[7]甲骨文大規(guī);A(chǔ)數(shù)據(jù)的語義挖掘研究[J]. 熊晶,高峰,吳琴霞. 現(xiàn)代圖書情報(bào)技術(shù). 2015(02)
[8]國內(nèi)知識圖譜應(yīng)用研究綜述[J]. 胡澤文,孫建軍,武夷山. 圖書情報(bào)工作. 2013(03)
[9]國內(nèi)知識圖譜研究綜述與評估:2004-2010年[J]. 湯建民,余豐民. 情報(bào)資料工作. 2012(01)
[10]基于領(lǐng)域本體的信息檢索優(yōu)化策略[J]. 熊晶,王愛民,徐建良. 計(jì)算機(jī)工程與設(shè)計(jì). 2011(08)
本文編號:3004947
【文章來源】:浙江大學(xué)學(xué)報(bào)(理學(xué)版). 2020,47(02)北大核心
【文章頁數(shù)】:12 頁
【部分圖文】:
甲骨文多源異構(gòu)數(shù)據(jù)
甲骨學(xué)知識圖譜的構(gòu)建基于海量的多源異構(gòu)甲骨文研究數(shù)據(jù),通過融合MKD和KG兩類知識圖譜實(shí)現(xiàn)。其中MKD以甲骨學(xué)文獻(xiàn)為主要數(shù)據(jù)來源,KG以甲骨文文本、語料庫和數(shù)據(jù)庫為主要數(shù)據(jù)來源。甲骨學(xué)知識圖譜的構(gòu)建流程如圖2所示。由圖2可知,構(gòu)建甲骨學(xué)知識圖譜的數(shù)據(jù)源包括甲骨文文獻(xiàn)、數(shù)據(jù)庫、文本、語料庫等。首先,基于甲骨文文獻(xiàn),利用MKD表示甲骨學(xué)知識關(guān)聯(lián)、知識演化及知識群結(jié)構(gòu)。同時(shí),MKD可作為一種新生成的數(shù)據(jù)來源,利用共引、共詞、聚類分析等方法從MKD中提取實(shí)體(如研究機(jī)構(gòu)、學(xué)者、地點(diǎn)、人物、事件等)和實(shí)體之間的關(guān)系(如合作、被引、共現(xiàn)、為…提供依據(jù)、主題、分期、類組、材質(zhì)、祭祀對象、繼承等)。
以CNKI為數(shù)據(jù)來源,用“甲骨文”作為主題詞檢索1927年5月至2019年1月的文獻(xiàn),共篩選到5 971篇。由于文獻(xiàn)的標(biāo)題、關(guān)鍵詞和摘要已經(jīng)能反映甲骨文知識的大部分內(nèi)容,因此,構(gòu)建過程中,只取文獻(xiàn)的標(biāo)題、關(guān)鍵詞和摘要進(jìn)行共詞分析。利用CiteSpace工具,采用余弦函數(shù)進(jìn)行共詞分析,得到的甲骨學(xué)MKD圖譜片段如圖3所示。從圖3中可看出,甲骨學(xué)MKD可以顯示其知識結(jié)構(gòu)及其分布。節(jié)點(diǎn)類型涵蓋了人物、機(jī)構(gòu)、時(shí)間、事件等實(shí)體,節(jié)點(diǎn)和字體的相對大小體現(xiàn)了詞頻,連線表明了知識節(jié)點(diǎn)之間的關(guān)系,顏色對應(yīng)文獻(xiàn)發(fā)表年份。圖3顯示結(jié)果存在的最大問題是未考慮語義關(guān)系對實(shí)體的優(yōu)化,如“高端論壇”“字符”“字頻”等對甲骨文知識的意義不大,應(yīng)該剔除;相反,有助于表示甲骨文知識的同義詞、上位詞、下位詞等關(guān)系則沒有體現(xiàn)?梢,單用MKD無法較好地表示甲骨學(xué)知識體系。
【參考文獻(xiàn)】:
期刊論文
[1]深度學(xué)習(xí)實(shí)體關(guān)系抽取研究綜述[J]. 鄂海紅,張文靜,肖思琪,程瑞,胡鶯夕,周筱松,牛佩晴. 軟件學(xué)報(bào). 2019(06)
[2]“科學(xué)知識圖譜”與“Google知識圖譜”比較分析——基于知識管理理論視角[J]. 馮新翎,何勝,熊太純,武群輝,柳益君. 情報(bào)雜志. 2017(01)
[3]面向網(wǎng)絡(luò)大數(shù)據(jù)的知識融合方法綜述[J]. 林海倫,王元卓,賈巖濤,張鵬,王偉平. 計(jì)算機(jī)學(xué)報(bào). 2017(01)
[4]基于知網(wǎng)與詞林的詞語語義相似度計(jì)算[J]. 朱新華,馬潤聰,孫柳,陳宏朝. 中文信息學(xué)報(bào). 2016(04)
[5]知識庫實(shí)體對齊技術(shù)綜述[J]. 莊嚴(yán),李國良,馮建華. 計(jì)算機(jī)研究與發(fā)展. 2016(01)
[6]甲骨文知識圖譜構(gòu)建中的實(shí)體關(guān)系發(fā)現(xiàn)研究[J]. 熊晶,鐘珞,王愛民. 計(jì)算機(jī)工程與科學(xué). 2015(11)
[7]甲骨文大規(guī);A(chǔ)數(shù)據(jù)的語義挖掘研究[J]. 熊晶,高峰,吳琴霞. 現(xiàn)代圖書情報(bào)技術(shù). 2015(02)
[8]國內(nèi)知識圖譜應(yīng)用研究綜述[J]. 胡澤文,孫建軍,武夷山. 圖書情報(bào)工作. 2013(03)
[9]國內(nèi)知識圖譜研究綜述與評估:2004-2010年[J]. 湯建民,余豐民. 情報(bào)資料工作. 2012(01)
[10]基于領(lǐng)域本體的信息檢索優(yōu)化策略[J]. 熊晶,王愛民,徐建良. 計(jì)算機(jī)工程與設(shè)計(jì). 2011(08)
本文編號:3004947
本文鏈接:http://sikaile.net/shekelunwen/kgx/3004947.html
最近更新
教材專著