從人工密集型到計算密集型:NSTL數(shù)據(jù)庫建設(shè)模式轉(zhuǎn)型之路
發(fā)布時間:2021-09-23 05:38
近年來,在國家科技圖書文獻中心(National Science and Technology Library,NSTL)業(yè)務(wù)流程再造總體規(guī)劃指導下,NSTL數(shù)據(jù)庫建設(shè)模式發(fā)生了深刻變化與全面轉(zhuǎn)型。本文總結(jié)梳理了由"全自主加工"到"自主加工+第三方數(shù)據(jù)利用",再到當前"多源異構(gòu)文摘數(shù)據(jù)深度融合利用"的發(fā)展脈絡(luò),展現(xiàn)了NSTL數(shù)據(jù)庫建設(shè)模式正從人工密集型向計算密集型轉(zhuǎn)型的特點,而近十年來文摘數(shù)據(jù)加工與第三方數(shù)據(jù)利用情況印證了這一發(fā)展歷程。在此基礎(chǔ)上,本文以期刊文摘數(shù)據(jù)加工為例,重點探討多源異構(gòu)文摘數(shù)據(jù)深度融合利用模式,包括基本原則、總體框架、規(guī)則設(shè)計與算法實現(xiàn)、融合系統(tǒng)設(shè)計與實現(xiàn)。最后指出,NSTL數(shù)據(jù)庫建設(shè)最終將實現(xiàn)從人工密集型到計算密集型、從加工流程驅(qū)動向多源大數(shù)據(jù)驅(qū)動的全面轉(zhuǎn)型發(fā)展,也將為NSTL構(gòu)建下一代新型、智能化的知識發(fā)現(xiàn)服務(wù)體系,提供堅實的數(shù)字科技文獻大數(shù)據(jù)支撐。
【文章來源】:數(shù)字圖書館論壇. 2020,(07)CSSCI
【文章頁數(shù)】:8 頁
【部分圖文】:
匹配融合加工模式總體框架
在精準匹配基礎(chǔ)上,針對NSTL元數(shù)據(jù)30多個字段/組內(nèi)容進行了數(shù)據(jù)字段級內(nèi)容融合規(guī)則和優(yōu)化級的設(shè)計確定,字段級融合規(guī)則的總體思路是先以NSTL字段為融合基準,再為WoS等其他優(yōu)質(zhì)來源數(shù)據(jù)依次選用,融合過程通過日志可回溯可修改。2.3.2 核心算法實現(xiàn)
在融合算法實現(xiàn)方面,對匹配上的數(shù)據(jù)進行分組,再根據(jù)數(shù)據(jù)融合規(guī)則選取相應(yīng)字段的具體信息,生成一條新的數(shù)據(jù)并同時記錄該數(shù)據(jù)所有字段來源信息(見圖4)。目前,在單線程下每分鐘能融合1 000條,據(jù)初步統(tǒng)計分析,基于融合算法將精確匹配的7 900萬余條數(shù)據(jù)融合為2 990萬余條。圖4 字段級融合算法流程圖
【參考文獻】:
期刊論文
[1]數(shù)據(jù)治理技術(shù)[J]. 吳信東,董丙冰,堵新政,楊威. 軟件學報. 2019(09)
[2]大數(shù)據(jù)時代下數(shù)據(jù)管理理念的變革:從結(jié)果派到過程派[J]. 童楠楠,朝樂門. 情報理論與實踐. 2017(02)
[3]國家科技圖書文獻中心“十三五”發(fā)展規(guī)劃[J]. 彭以祺,吳波爾,沈仲祺. 數(shù)字圖書館論壇. 2016(11)
[4]NSTL集成利用第三方來源元數(shù)據(jù)的實踐與探索[J]. 于倩倩,張建勇. 現(xiàn)代圖書情報技術(shù). 2016(01)
[5]高校圖書館數(shù)據(jù)治理及其框架[J]. 包冬梅,范穎捷,李鳴. 圖書情報工作. 2015(18)
[6]NSTL聯(lián)合數(shù)據(jù)加工系統(tǒng)的功能框架設(shè)計[J]. 張建勇,孟連生,劉筱敏,曾燕,劉小兵,董智鵬. 圖書情報工作. 2011(03)
[7]NSTL文獻信息加工10年概述[J]. 孟連生,張建勇,劉筱敏. 數(shù)字圖書館論壇. 2010 (10)
本文編號:3405144
【文章來源】:數(shù)字圖書館論壇. 2020,(07)CSSCI
【文章頁數(shù)】:8 頁
【部分圖文】:
匹配融合加工模式總體框架
在精準匹配基礎(chǔ)上,針對NSTL元數(shù)據(jù)30多個字段/組內(nèi)容進行了數(shù)據(jù)字段級內(nèi)容融合規(guī)則和優(yōu)化級的設(shè)計確定,字段級融合規(guī)則的總體思路是先以NSTL字段為融合基準,再為WoS等其他優(yōu)質(zhì)來源數(shù)據(jù)依次選用,融合過程通過日志可回溯可修改。2.3.2 核心算法實現(xiàn)
在融合算法實現(xiàn)方面,對匹配上的數(shù)據(jù)進行分組,再根據(jù)數(shù)據(jù)融合規(guī)則選取相應(yīng)字段的具體信息,生成一條新的數(shù)據(jù)并同時記錄該數(shù)據(jù)所有字段來源信息(見圖4)。目前,在單線程下每分鐘能融合1 000條,據(jù)初步統(tǒng)計分析,基于融合算法將精確匹配的7 900萬余條數(shù)據(jù)融合為2 990萬余條。圖4 字段級融合算法流程圖
【參考文獻】:
期刊論文
[1]數(shù)據(jù)治理技術(shù)[J]. 吳信東,董丙冰,堵新政,楊威. 軟件學報. 2019(09)
[2]大數(shù)據(jù)時代下數(shù)據(jù)管理理念的變革:從結(jié)果派到過程派[J]. 童楠楠,朝樂門. 情報理論與實踐. 2017(02)
[3]國家科技圖書文獻中心“十三五”發(fā)展規(guī)劃[J]. 彭以祺,吳波爾,沈仲祺. 數(shù)字圖書館論壇. 2016(11)
[4]NSTL集成利用第三方來源元數(shù)據(jù)的實踐與探索[J]. 于倩倩,張建勇. 現(xiàn)代圖書情報技術(shù). 2016(01)
[5]高校圖書館數(shù)據(jù)治理及其框架[J]. 包冬梅,范穎捷,李鳴. 圖書情報工作. 2015(18)
[6]NSTL聯(lián)合數(shù)據(jù)加工系統(tǒng)的功能框架設(shè)計[J]. 張建勇,孟連生,劉筱敏,曾燕,劉小兵,董智鵬. 圖書情報工作. 2011(03)
[7]NSTL文獻信息加工10年概述[J]. 孟連生,張建勇,劉筱敏. 數(shù)字圖書館論壇. 2010 (10)
本文編號:3405144
本文鏈接:http://sikaile.net/tushudanganlunwen/3405144.html