基于文獻(xiàn)鏈接信息分析的科技資源風(fēng)險(xiǎn)評(píng)估
發(fā)布時(shí)間:2021-09-25 01:38
文獻(xiàn)中的鏈接將文獻(xiàn)與數(shù)據(jù)、代碼、文檔、網(wǎng)頁等科技資源相關(guān)聯(lián),資源鏈接引用的上下文信息反映了科研活動(dòng)中科研主體與科技資源形成的關(guān)系。該文通過對(duì)文獻(xiàn)中的鏈接信息進(jìn)行細(xì)粒度分析,提出了一種對(duì)其關(guān)聯(lián)的科技資源種類和引用目的進(jìn)行知識(shí)建模的方法,并在大規(guī)模文獻(xiàn)數(shù)據(jù)集上進(jìn)行了實(shí)證。同時(shí)從國內(nèi)外科技資源的利用情況出發(fā),對(duì)科技資源的重要程度、發(fā)展方向、使用風(fēng)險(xiǎn)等進(jìn)行了深入的探索。該文可為了解國內(nèi)外前沿技術(shù)進(jìn)展,以及我國科研活動(dòng)中科技資源風(fēng)險(xiǎn)評(píng)估判定提供科學(xué)依據(jù),且對(duì)于自然語言處理領(lǐng)域中對(duì)科技文獻(xiàn)文本的分析研究具有重大意義。
【文章來源】:中文信息學(xué)報(bào). 2020,34(05)北大核心CSCD
【文章頁數(shù)】:10 頁
【部分圖文】:
出現(xiàn)在正文中的行內(nèi)超鏈接(in-line hyperlink)資源和出現(xiàn)在腳注中的行外超鏈接(out-line hyperlink),及對(duì)科技資源引用上下文、科技資源種類和科技資源應(yīng)用意圖的舉例
我們選取ACL Anthology Reference Corpus(ARC,http://acl-arc.comp.nus.edu.sg/)語料庫作為研究數(shù)據(jù),其涵蓋了包括ACL、EMNLP、NAACL等近20個(gè)自然語言處理領(lǐng)域相關(guān)會(huì)議及學(xué)術(shù)活動(dòng)的論文原文。我們從ARC文獻(xiàn)語料庫中獲取到21 411篇論文,分別從文獻(xiàn)的正文和腳注中提取了行內(nèi)超鏈接和行外超鏈接作為科技資源的引用,對(duì)于每個(gè)鏈接,我們同時(shí)提取了鏈接所在位置的前后5句話作為鏈接資源的上下文,共計(jì)從ACL語料庫中獲取到18 761條鏈接資源數(shù)據(jù)。我們從收集到的18 761條鏈接資源數(shù)據(jù)中隨機(jī)抽取了1 100條進(jìn)行人工標(biāo)注,標(biāo)注由3名自然語言處理領(lǐng)域的研究生完成。鑒于過短的文本句子不足以包含能夠判斷科技資源種類和引用意圖信息,因此我們?cè)跇?biāo)注的數(shù)據(jù)中過濾掉了長度小于10個(gè)單詞的句子。每個(gè)鏈接資源結(jié)合其上下文,至少被標(biāo)注1個(gè)種類標(biāo)簽和1個(gè)以上的引用意圖標(biāo)簽。對(duì)于標(biāo)注結(jié)果的一致性檢驗(yàn),鏈接種類和鏈接引用意圖的Fleiss Kappa系數(shù)分別為0.79和0.65,考慮到分類的多樣性和問題的復(fù)雜性,這一結(jié)果證明標(biāo)注人員間達(dá)到了相對(duì)較高的一致性。最終,我們得到了1 026條人工標(biāo)注了科技資源種類和引用意圖的數(shù)據(jù)。資源種類、資源引用意圖在數(shù)據(jù)集上的分布見圖2。通過圖2我們可以看出,對(duì)于資源種類,屬于方法或工具的資源占比最高(46%),其次是數(shù)據(jù)(31%),信息服務(wù)產(chǎn)品占比最少(23%)。而對(duì)于資源的引用意圖,大多數(shù)的資源在文獻(xiàn)工作中被使用(56%),還有相當(dāng)一部分資源在文獻(xiàn)工作中作為相關(guān)背景被介紹(25%)。此外,作為新資源首次在文獻(xiàn)中被發(fā)布的情況也占有一定比例(12%),而引用意圖為擴(kuò)展(5%)和比較(2%)的鏈接資源引用則相對(duì)較少。這樣的分布反映了來自ACL語料庫的文獻(xiàn)對(duì)技術(shù)的實(shí)踐和應(yīng)用有著更高的關(guān)注度,大多數(shù)文獻(xiàn)作者在其研究工作中大量地使用了先前已有的科技資源,并傾向于在已有資源的基礎(chǔ)上做進(jìn)一步的擴(kuò)展和延伸。
為了對(duì)文獻(xiàn)中科技資源的種類和引用進(jìn)行自動(dòng)識(shí)別,我們利用基于神經(jīng)網(wǎng)絡(luò)的方法構(gòu)建了文獻(xiàn)鏈接信息自動(dòng)化分類模型。近些年來,基于神經(jīng)網(wǎng)絡(luò)的模型被廣泛應(yīng)用于自然語言處理中的分類任務(wù),如情感分析[1-2]、關(guān)系識(shí)別[3]等;谙惹暗南嚓P(guān)工作[1,3-4],本文利用基于注意力機(jī)制的LSTM神經(jīng)網(wǎng)絡(luò),結(jié)合字符嵌入表示以同時(shí)整合字符級(jí)別和單詞級(jí)別的特征,并借助于位置指示器以融合目標(biāo)資源鏈接在上下文中出現(xiàn)的位置信息,分類模型的結(jié)構(gòu)如圖3所示。具體方法參見文獻(xiàn)[5-6]。通過對(duì)數(shù)據(jù)的觀察,我們發(fā)現(xiàn)在大多數(shù)情況下,鏈接資源所在的上下文中在引用附近的一些關(guān)鍵的名詞或動(dòng)詞時(shí),很有可能隱含了科技資源種類和科技資源引用意圖信息。例如,在鏈接資源出現(xiàn)位置前最近的一個(gè)動(dòng)詞為“use”“apply”或“adopt”則很有可能科技資源的引用意圖為“使用”。因此,在構(gòu)建文獻(xiàn)鏈接信息自動(dòng)化分類模型時(shí),考慮融入單詞的位置信息是非常重要的。在本研究中,我們采用了位置指示器來標(biāo)記目標(biāo)的鏈接資源引用位置。舉例來說,“...using the Fire Calls data set1, an official incident...”將會(huì)被轉(zhuǎn)換成“...using the Fire Calls data set <CITE>, an official incident...”。其中“<CITE>”作為位置指示器,在模型訓(xùn)練和測(cè)試的過程中也同樣被視作一個(gè)獨(dú)立的單詞。
本文編號(hào):3408836
【文章來源】:中文信息學(xué)報(bào). 2020,34(05)北大核心CSCD
【文章頁數(shù)】:10 頁
【部分圖文】:
出現(xiàn)在正文中的行內(nèi)超鏈接(in-line hyperlink)資源和出現(xiàn)在腳注中的行外超鏈接(out-line hyperlink),及對(duì)科技資源引用上下文、科技資源種類和科技資源應(yīng)用意圖的舉例
我們選取ACL Anthology Reference Corpus(ARC,http://acl-arc.comp.nus.edu.sg/)語料庫作為研究數(shù)據(jù),其涵蓋了包括ACL、EMNLP、NAACL等近20個(gè)自然語言處理領(lǐng)域相關(guān)會(huì)議及學(xué)術(shù)活動(dòng)的論文原文。我們從ARC文獻(xiàn)語料庫中獲取到21 411篇論文,分別從文獻(xiàn)的正文和腳注中提取了行內(nèi)超鏈接和行外超鏈接作為科技資源的引用,對(duì)于每個(gè)鏈接,我們同時(shí)提取了鏈接所在位置的前后5句話作為鏈接資源的上下文,共計(jì)從ACL語料庫中獲取到18 761條鏈接資源數(shù)據(jù)。我們從收集到的18 761條鏈接資源數(shù)據(jù)中隨機(jī)抽取了1 100條進(jìn)行人工標(biāo)注,標(biāo)注由3名自然語言處理領(lǐng)域的研究生完成。鑒于過短的文本句子不足以包含能夠判斷科技資源種類和引用意圖信息,因此我們?cè)跇?biāo)注的數(shù)據(jù)中過濾掉了長度小于10個(gè)單詞的句子。每個(gè)鏈接資源結(jié)合其上下文,至少被標(biāo)注1個(gè)種類標(biāo)簽和1個(gè)以上的引用意圖標(biāo)簽。對(duì)于標(biāo)注結(jié)果的一致性檢驗(yàn),鏈接種類和鏈接引用意圖的Fleiss Kappa系數(shù)分別為0.79和0.65,考慮到分類的多樣性和問題的復(fù)雜性,這一結(jié)果證明標(biāo)注人員間達(dá)到了相對(duì)較高的一致性。最終,我們得到了1 026條人工標(biāo)注了科技資源種類和引用意圖的數(shù)據(jù)。資源種類、資源引用意圖在數(shù)據(jù)集上的分布見圖2。通過圖2我們可以看出,對(duì)于資源種類,屬于方法或工具的資源占比最高(46%),其次是數(shù)據(jù)(31%),信息服務(wù)產(chǎn)品占比最少(23%)。而對(duì)于資源的引用意圖,大多數(shù)的資源在文獻(xiàn)工作中被使用(56%),還有相當(dāng)一部分資源在文獻(xiàn)工作中作為相關(guān)背景被介紹(25%)。此外,作為新資源首次在文獻(xiàn)中被發(fā)布的情況也占有一定比例(12%),而引用意圖為擴(kuò)展(5%)和比較(2%)的鏈接資源引用則相對(duì)較少。這樣的分布反映了來自ACL語料庫的文獻(xiàn)對(duì)技術(shù)的實(shí)踐和應(yīng)用有著更高的關(guān)注度,大多數(shù)文獻(xiàn)作者在其研究工作中大量地使用了先前已有的科技資源,并傾向于在已有資源的基礎(chǔ)上做進(jìn)一步的擴(kuò)展和延伸。
為了對(duì)文獻(xiàn)中科技資源的種類和引用進(jìn)行自動(dòng)識(shí)別,我們利用基于神經(jīng)網(wǎng)絡(luò)的方法構(gòu)建了文獻(xiàn)鏈接信息自動(dòng)化分類模型。近些年來,基于神經(jīng)網(wǎng)絡(luò)的模型被廣泛應(yīng)用于自然語言處理中的分類任務(wù),如情感分析[1-2]、關(guān)系識(shí)別[3]等;谙惹暗南嚓P(guān)工作[1,3-4],本文利用基于注意力機(jī)制的LSTM神經(jīng)網(wǎng)絡(luò),結(jié)合字符嵌入表示以同時(shí)整合字符級(jí)別和單詞級(jí)別的特征,并借助于位置指示器以融合目標(biāo)資源鏈接在上下文中出現(xiàn)的位置信息,分類模型的結(jié)構(gòu)如圖3所示。具體方法參見文獻(xiàn)[5-6]。通過對(duì)數(shù)據(jù)的觀察,我們發(fā)現(xiàn)在大多數(shù)情況下,鏈接資源所在的上下文中在引用附近的一些關(guān)鍵的名詞或動(dòng)詞時(shí),很有可能隱含了科技資源種類和科技資源引用意圖信息。例如,在鏈接資源出現(xiàn)位置前最近的一個(gè)動(dòng)詞為“use”“apply”或“adopt”則很有可能科技資源的引用意圖為“使用”。因此,在構(gòu)建文獻(xiàn)鏈接信息自動(dòng)化分類模型時(shí),考慮融入單詞的位置信息是非常重要的。在本研究中,我們采用了位置指示器來標(biāo)記目標(biāo)的鏈接資源引用位置。舉例來說,“...using the Fire Calls data set1, an official incident...”將會(huì)被轉(zhuǎn)換成“...using the Fire Calls data set <CITE>, an official incident...”。其中“<CITE>”作為位置指示器,在模型訓(xùn)練和測(cè)試的過程中也同樣被視作一個(gè)獨(dú)立的單詞。
本文編號(hào):3408836
本文鏈接:http://sikaile.net/tushudanganlunwen/3408836.html
最近更新
教材專著