基于機(jī)構(gòu)-作者向量的科研機(jī)構(gòu)名稱演化識別方法研究
發(fā)布時(shí)間:2020-12-22 11:17
機(jī)構(gòu)變遷是引起科研機(jī)構(gòu)名稱演化的重要原因。消解科研機(jī)構(gòu)名稱的異質(zhì)性可以提高信息檢索的查全率以及科學(xué)計(jì)量的信度,為此,本文提出了基于科研機(jī)構(gòu)中人員在短期內(nèi)相對穩(wěn)定特征的名稱演化識別方法。本文構(gòu)建了機(jī)構(gòu)-作者向量與機(jī)構(gòu)-年度向量,通過綜合機(jī)構(gòu)-作者向量的相似度、作者絕對共現(xiàn)量以及1:1、n:1、1:n以及n:m名稱映射關(guān)系對更名、合并、拆分與重組關(guān)系進(jìn)行了識別;借鑒主成分分析法中的因子識別方法并結(jié)合前述4種演化關(guān)系,提出了動(dòng)態(tài)相似度閾值設(shè)定方法。實(shí)驗(yàn)數(shù)據(jù)采集自CSSCI數(shù)據(jù)庫1999—2015年的論文,實(shí)驗(yàn)環(huán)節(jié)考慮了人員流動(dòng)以及重名風(fēng)險(xiǎn)對結(jié)果的可能影響。結(jié)果表明,本研究提出的科研機(jī)構(gòu)名稱演化識別方法在準(zhǔn)確率與召回率上均有優(yōu)異的表現(xiàn)。
【文章來源】:情報(bào)學(xué)報(bào). 2020年06期 北大核心CSSCI
【文章頁數(shù)】:14 頁
【部分圖文】:
科研機(jī)構(gòu)變遷關(guān)系識別總體研究思路
圖1 科研機(jī)構(gòu)變遷關(guān)系識別總體研究思路模式“1”,其年份屬性值由連續(xù)的“1”變換為連續(xù)的“0”,如“徐州師范大學(xué)”的年度向量(1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,15,“1”),其模式屬性的含義是該機(jī)構(gòu)在2013年經(jīng)歷了機(jī)構(gòu)變遷,原機(jī)構(gòu)名稱“消失”,2014年起不再有以該名稱發(fā)表的文獻(xiàn)。
雖然本文擬聚焦于具有一定規(guī)模的科研機(jī)構(gòu)(通過總發(fā)文量控制規(guī)模),但仍無法避免在單位年份中由于即年發(fā)文量低而導(dǎo)致的重名風(fēng)險(xiǎn),即若某機(jī)構(gòu)在3年內(nèi)的發(fā)文量極低(如小于10),則可能存在因極個(gè)別作者的重名而導(dǎo)致相似度超過閾值,因此本文采用機(jī)構(gòu)對之間的作者絕對共現(xiàn)量(C)指標(biāo)進(jìn)一步控制重名風(fēng)險(xiǎn):若作者絕對共現(xiàn)量小于2,則即使機(jī)構(gòu)對滿足相似度大于閾值以及映射關(guān)系兩個(gè)條件,仍將其判定為非變遷關(guān)系。圖4“多對多”作者向量歸并示意圖
【參考文獻(xiàn)】:
期刊論文
[1]機(jī)構(gòu)名稱規(guī)范數(shù)據(jù)的語義模型構(gòu)建[J]. 曾建勛,賈君枝. 大學(xué)圖書館學(xué)報(bào). 2019(01)
[2]科技文獻(xiàn)數(shù)據(jù)庫中機(jī)構(gòu)名稱匹配策略研究[J]. 孫海霞,王蕾,吳英杰,華薇娜,李軍蓮. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(08)
[3]科研機(jī)構(gòu)名稱歸一化實(shí)現(xiàn)[J]. 賈君枝,曾建勛,李捷佳,付曉梅. 圖書情報(bào)工作. 2018(13)
[4]命名實(shí)體識別研究綜述[J]. 劉瀏,王東波. 情報(bào)學(xué)報(bào). 2018(03)
[5]機(jī)構(gòu)規(guī)范文檔構(gòu)建方式研究[J]. 王星,曾建勛,蘇靜,賢信. 數(shù)字圖書館論壇. 2015 (07)
[6]基于規(guī)則的機(jī)構(gòu)名規(guī)范化研究[J]. 楊波,楊軍威,閻素蘭. 現(xiàn)代圖書情報(bào)技術(shù). 2015(06)
[7]中國研究型大學(xué)教師流動(dòng):頻率、路徑與類型[J]. 劉進(jìn),沈紅. 復(fù)旦教育論壇. 2014(01)
[8]基于K-means的機(jī)構(gòu)歸一化研究[J]. 孫海霞,李軍蓮,吳英杰. 醫(yī)學(xué)信息學(xué)雜志. 2013(07)
[9]論文發(fā)表時(shí)滯與優(yōu)先數(shù)字出版[J]. 李江,伍軍紅. 編輯學(xué)報(bào). 2011(04)
[10]規(guī)范控制概說[J]. 黃俊貴. 高校圖書館工作. 1999(03)
本文編號:2931667
【文章來源】:情報(bào)學(xué)報(bào). 2020年06期 北大核心CSSCI
【文章頁數(shù)】:14 頁
【部分圖文】:
科研機(jī)構(gòu)變遷關(guān)系識別總體研究思路
圖1 科研機(jī)構(gòu)變遷關(guān)系識別總體研究思路模式“1”,其年份屬性值由連續(xù)的“1”變換為連續(xù)的“0”,如“徐州師范大學(xué)”的年度向量(1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,15,“1”),其模式屬性的含義是該機(jī)構(gòu)在2013年經(jīng)歷了機(jī)構(gòu)變遷,原機(jī)構(gòu)名稱“消失”,2014年起不再有以該名稱發(fā)表的文獻(xiàn)。
雖然本文擬聚焦于具有一定規(guī)模的科研機(jī)構(gòu)(通過總發(fā)文量控制規(guī)模),但仍無法避免在單位年份中由于即年發(fā)文量低而導(dǎo)致的重名風(fēng)險(xiǎn),即若某機(jī)構(gòu)在3年內(nèi)的發(fā)文量極低(如小于10),則可能存在因極個(gè)別作者的重名而導(dǎo)致相似度超過閾值,因此本文采用機(jī)構(gòu)對之間的作者絕對共現(xiàn)量(C)指標(biāo)進(jìn)一步控制重名風(fēng)險(xiǎn):若作者絕對共現(xiàn)量小于2,則即使機(jī)構(gòu)對滿足相似度大于閾值以及映射關(guān)系兩個(gè)條件,仍將其判定為非變遷關(guān)系。圖4“多對多”作者向量歸并示意圖
【參考文獻(xiàn)】:
期刊論文
[1]機(jī)構(gòu)名稱規(guī)范數(shù)據(jù)的語義模型構(gòu)建[J]. 曾建勛,賈君枝. 大學(xué)圖書館學(xué)報(bào). 2019(01)
[2]科技文獻(xiàn)數(shù)據(jù)庫中機(jī)構(gòu)名稱匹配策略研究[J]. 孫海霞,王蕾,吳英杰,華薇娜,李軍蓮. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(08)
[3]科研機(jī)構(gòu)名稱歸一化實(shí)現(xiàn)[J]. 賈君枝,曾建勛,李捷佳,付曉梅. 圖書情報(bào)工作. 2018(13)
[4]命名實(shí)體識別研究綜述[J]. 劉瀏,王東波. 情報(bào)學(xué)報(bào). 2018(03)
[5]機(jī)構(gòu)規(guī)范文檔構(gòu)建方式研究[J]. 王星,曾建勛,蘇靜,賢信. 數(shù)字圖書館論壇. 2015 (07)
[6]基于規(guī)則的機(jī)構(gòu)名規(guī)范化研究[J]. 楊波,楊軍威,閻素蘭. 現(xiàn)代圖書情報(bào)技術(shù). 2015(06)
[7]中國研究型大學(xué)教師流動(dòng):頻率、路徑與類型[J]. 劉進(jìn),沈紅. 復(fù)旦教育論壇. 2014(01)
[8]基于K-means的機(jī)構(gòu)歸一化研究[J]. 孫海霞,李軍蓮,吳英杰. 醫(yī)學(xué)信息學(xué)雜志. 2013(07)
[9]論文發(fā)表時(shí)滯與優(yōu)先數(shù)字出版[J]. 李江,伍軍紅. 編輯學(xué)報(bào). 2011(04)
[10]規(guī)范控制概說[J]. 黃俊貴. 高校圖書館工作. 1999(03)
本文編號:2931667
本文鏈接:http://sikaile.net/tushudanganlunwen/2931667.html
最近更新
教材專著