基于特征融合的引文失范數(shù)據(jù)自動(dòng)處理策略研究
發(fā)布時(shí)間:2020-12-17 00:26
【目的】將同一篇引文文獻(xiàn)的不同表達(dá)形式進(jìn)行歸一,實(shí)現(xiàn)期刊引文數(shù)據(jù)規(guī)范控制與管理,減輕引文失范造成的數(shù)據(jù)質(zhì)量問題!痉椒ā恳云诳臄(shù)據(jù)庫建設(shè)為目標(biāo)場景,根據(jù)參考文獻(xiàn)著錄標(biāo)準(zhǔn)分析期刊引文數(shù)據(jù)的核心特征,基于決策樹方法和準(zhǔn)確率指標(biāo)獲取有效特征子集并指定決策規(guī)則執(zhí)行優(yōu)先順序,生成多特征融合的自動(dòng)數(shù)據(jù)處理策略!窘Y(jié)果】選取CBMCI的10 000條期刊引文樣本數(shù)據(jù)集和10 000條驗(yàn)證數(shù)據(jù)集進(jìn)行驗(yàn)證,本文方法進(jìn)行期刊引文歸一規(guī)范的準(zhǔn)確率分別達(dá)99.72%、98.70%!揪窒蕖績H探討了中文期刊引文失范數(shù)據(jù)的處理,尚未考慮其他語種和類型的引文!窘Y(jié)論】該處理策略能夠高效自動(dòng)化地開展大規(guī)模期刊引文數(shù)據(jù)的歸一規(guī)范,減少人工干預(yù),特征融合的思路也適用于建立其他類型引文歸一規(guī)范時(shí)的自動(dòng)處理策略。
【文章來源】:數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2020年05期 北大核心CSSCI
【文章頁數(shù)】:8 頁
【部分圖文】:
基于特征融合的引文失范數(shù)據(jù)自動(dòng)處理思路
圖1 基于特征融合的引文失范數(shù)據(jù)自動(dòng)處理思路AC{T1,T2,T3,…,Tn}表示條件{T1,T2,T3,…,Tn}下全部引文規(guī)范的準(zhǔn)確率,如公式(2)所示。
【參考文獻(xiàn)】:
期刊論文
[1]NSTL國際科學(xué)引文數(shù)據(jù)庫醫(yī)學(xué)外文期刊引文數(shù)據(jù)加工流程和加工技術(shù)研究[J]. 任慧玲,楊濱,黃利輝,徐海濤,李海,王坤. 醫(yī)學(xué)信息學(xué)雜志. 2009(03)
[2]影響CSTPC數(shù)據(jù)庫檢索效率的原因及對(duì)策[J]. 趙萍,徐平. 現(xiàn)代圖書情報(bào)技術(shù). 1999(04)
[3]NSTL外文期刊引文數(shù)據(jù)自動(dòng)化拆分的研究與實(shí)踐[J]. 鮮國建,趙瑞雪,金晨. 數(shù)字圖書館論壇. 2010 (10)
本文編號(hào):2921068
【文章來源】:數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2020年05期 北大核心CSSCI
【文章頁數(shù)】:8 頁
【部分圖文】:
基于特征融合的引文失范數(shù)據(jù)自動(dòng)處理思路
圖1 基于特征融合的引文失范數(shù)據(jù)自動(dòng)處理思路AC{T1,T2,T3,…,Tn}表示條件{T1,T2,T3,…,Tn}下全部引文規(guī)范的準(zhǔn)確率,如公式(2)所示。
【參考文獻(xiàn)】:
期刊論文
[1]NSTL國際科學(xué)引文數(shù)據(jù)庫醫(yī)學(xué)外文期刊引文數(shù)據(jù)加工流程和加工技術(shù)研究[J]. 任慧玲,楊濱,黃利輝,徐海濤,李海,王坤. 醫(yī)學(xué)信息學(xué)雜志. 2009(03)
[2]影響CSTPC數(shù)據(jù)庫檢索效率的原因及對(duì)策[J]. 趙萍,徐平. 現(xiàn)代圖書情報(bào)技術(shù). 1999(04)
[3]NSTL外文期刊引文數(shù)據(jù)自動(dòng)化拆分的研究與實(shí)踐[J]. 鮮國建,趙瑞雪,金晨. 數(shù)字圖書館論壇. 2010 (10)
本文編號(hào):2921068
本文鏈接:http://sikaile.net/tushudanganlunwen/2921068.html
最近更新
教材專著