科學(xué)論文的引用內(nèi)容分析及其應(yīng)用
發(fā)布時(shí)間:2020-11-12 01:41
引文分析包括了引文著錄信息分析和引文內(nèi)容分析兩部分。與引文著錄信息分析相比,引文內(nèi)容分析研究較少,且多集中在施引文獻(xiàn)主題內(nèi)容研究中,較少深入到文獻(xiàn)全文內(nèi)容層面。參考文獻(xiàn)在文章中的引用內(nèi)容能夠?yàn)槲覀兲峁└嗟囊孟嚓P(guān)信息,對(duì)了解參考文獻(xiàn)對(duì)于施引文獻(xiàn)的作用和價(jià)值,挖掘論文作者引用該文獻(xiàn)的意圖與觀點(diǎn)傾向性具有更直接的作用。隨著電子信息技術(shù)的發(fā)展以及大型數(shù)據(jù)庫的不斷拓展和完善,特別是全文數(shù)據(jù)庫的建設(shè),為實(shí)現(xiàn)引用內(nèi)容的多角度、系統(tǒng)性分析提供了可能性。本文主要研究工作體現(xiàn)在以下五個(gè)方面: (1)系統(tǒng)地構(gòu)建了引用內(nèi)容分析的基本理論框架。以科學(xué)計(jì)量學(xué)、文獻(xiàn)計(jì)量學(xué)、內(nèi)容分析理論為指導(dǎo),提出引用內(nèi)容分析的概念、步驟及主要研究內(nèi)容,指出引用內(nèi)容研究范圍應(yīng)包括引用的主體、時(shí)間、主題、位置、動(dòng)機(jī),以及引用傾向性和強(qiáng)度研究。探討了引用內(nèi)容分析與傳統(tǒng)基于著錄信息的引文分析的區(qū)別與聯(lián)系,其共性是它們都是對(duì)引文展開的分析,傳統(tǒng)引文分析方法也適用于引用內(nèi)容分析,其區(qū)別在于引用內(nèi)容分析還需要借助自然語言處理技術(shù)來實(shí)現(xiàn),能夠更深入、細(xì)致地揭示施引文獻(xiàn)與參考文獻(xiàn)之間繼承和創(chuàng)新的關(guān)系。剖析了引用內(nèi)容分析的功能,揭示出它在科技論文評(píng)價(jià)、揭示知識(shí)結(jié)構(gòu)演化和信息檢索三個(gè)方面的應(yīng)用價(jià)值。 (2)從數(shù)據(jù)和方法兩個(gè)角度提出引用內(nèi)容分析的實(shí)現(xiàn)條件。數(shù)據(jù)條件包括數(shù)據(jù)的可獲得性、可識(shí)別性、結(jié)構(gòu)性、整體性和連續(xù)性。實(shí)現(xiàn)方法包括引用內(nèi)容抽取方法、數(shù)據(jù)庫的應(yīng)用和引用內(nèi)容的分析方法。本文以PubMed Central數(shù)據(jù)庫中所有全文數(shù)據(jù)為數(shù)據(jù)來源,實(shí)現(xiàn)了引用內(nèi)容的獲取與數(shù)據(jù)庫存儲(chǔ),并以此數(shù)據(jù)庫為基礎(chǔ),搭建引用內(nèi)容檢索系統(tǒng),為引用內(nèi)容的檢索與應(yīng)用提供一個(gè)數(shù)據(jù)平臺(tái)。 (3)從引用發(fā)生的位置、共被引發(fā)生的位置、共被引層次網(wǎng)絡(luò)三個(gè)角度展開引用位置分析。首先,采用引文分析與自然語言處理技術(shù)相結(jié)合,對(duì)引用發(fā)生位置進(jìn)行分析,發(fā)現(xiàn)了引文在文章各個(gè)章節(jié)中的分布規(guī)律以及在各個(gè)章節(jié)中的內(nèi)容特點(diǎn)。其次,根據(jù)共被引發(fā)生的位置,將共被引關(guān)系劃分為四個(gè)層次,分別是句子層次、段落層次、章節(jié)層次和文章層次,通過對(duì)不同共被引層次上的共被引關(guān)系統(tǒng)計(jì)發(fā)現(xiàn),在不同期刊中共被引分布規(guī)律基本相同,在句子層次發(fā)生的共被引關(guān)系最少,文章層次共被引分布最多,4個(gè)層次共被引分布的平均比例分布為3.16%、7.29%、18.16%和71.39%。研究結(jié)果還發(fā)現(xiàn),共被引關(guān)系的位置分布與共被引頻次有一定關(guān)聯(lián),共被引頻次越高,句子層次上的共被引關(guān)系越多,文章層次共被引比例越小。最后,分析不同共被引位置上的共被引關(guān)系所構(gòu)成的共被引層次網(wǎng)絡(luò)特征,以CiteSpace軟件為基礎(chǔ),結(jié)合社會(huì)網(wǎng)絡(luò)分析方法,識(shí)別出各個(gè)共被引層次網(wǎng)絡(luò)在傳統(tǒng)共被引網(wǎng)絡(luò)中的結(jié)構(gòu)特征。研究結(jié)果發(fā)現(xiàn),文章層次共被引網(wǎng)絡(luò)可以覆蓋38.58%的傳統(tǒng)共被引網(wǎng)絡(luò),而句子層次共被引網(wǎng)絡(luò)只覆蓋了5.64%,但其覆蓋位置均為傳統(tǒng)共被引網(wǎng)絡(luò)的核心位置,并且構(gòu)成傳統(tǒng)共被引網(wǎng)絡(luò)的子網(wǎng)絡(luò),其覆蓋范圍要高于段落層次共被引網(wǎng)絡(luò)和章節(jié)層次共被引網(wǎng)絡(luò)。 (4)在引用內(nèi)容主題分析中,引入標(biāo)簽云技術(shù)和主題模型對(duì)引用內(nèi)容主題進(jìn)行分析,標(biāo)簽云技術(shù)可以直觀地展示出引用內(nèi)容的主題詞,而主題模型可以對(duì)引用內(nèi)容主題進(jìn)行詳細(xì)劃分。利用LDA主題模型,對(duì)比分析引用內(nèi)容主題與引文自身主題和施引文獻(xiàn)主題的差別,發(fā)現(xiàn)引用內(nèi)容主題比引文自身主題涉及范圍更廣,同時(shí)與施引文獻(xiàn)主題也有較大差別,說明引用內(nèi)容在引文知識(shí)演化過程中,具有其特有的屬性和價(jià)值。根據(jù)信息熵理論,比較引用內(nèi)容中主題詞與施引文獻(xiàn)中主題詞的概念廣義-狹義性,發(fā)現(xiàn)引用內(nèi)容中的主題詞含義要比施引文獻(xiàn)中的主題詞含義狹窄,更傾向于表述某一領(lǐng)域中專有的方法或理論。 (5)以引用內(nèi)容分析理論和方法為基礎(chǔ),揭示引用內(nèi)容在信息檢索、共被引分析和論文評(píng)價(jià)中的應(yīng)用價(jià)值。首先,以PubMed Central中所有全文數(shù)據(jù)為基礎(chǔ),搭建基于引用內(nèi)容的引文檢索與推薦系統(tǒng),系統(tǒng)測(cè)評(píng)結(jié)果顯示,此系統(tǒng)對(duì)領(lǐng)域內(nèi)的高被引文獻(xiàn)和經(jīng)典文獻(xiàn)具有很好的檢索與推薦效果,并且其平均檢索準(zhǔn)確率為56.5%,比Google Scholar高12.5%,比PubMed高43.5%。其次,根據(jù)引用內(nèi)容相似性對(duì)四個(gè)層次的共被引關(guān)系賦予不同權(quán)重,結(jié)果顯示,四個(gè)共被引層次的引用內(nèi)容平均相似性分別為1、0.77、0.64、0.56,文章層次共被引關(guān)系的引用內(nèi)容相似性要明顯高于人們主觀對(duì)此層次的權(quán)重賦值,賦予權(quán)重后的共被引分析效果要比傳統(tǒng)的共被引分析效果好。最后,根據(jù)引文的引用內(nèi)容,辨別引文的引用動(dòng)機(jī),提出引用性質(zhì)評(píng)價(jià)指標(biāo),將引用性質(zhì)劃分為正面引用、負(fù)面引用和中性引用,采用線索詞的方法對(duì)引用內(nèi)容的引用性質(zhì)進(jìn)行自動(dòng)分類,并采用統(tǒng)計(jì)檢驗(yàn)方法驗(yàn)證此分類方法的準(zhǔn)確性在95%以上,對(duì)BMC Bioinformatics期刊中引用內(nèi)容的引用性質(zhì)劃分結(jié)果發(fā)現(xiàn),62.88%的引用為中性引用,負(fù)面引用占3.53%;根據(jù)引文在施引文獻(xiàn)中的實(shí)際被引次數(shù),提出引用質(zhì)量評(píng)價(jià)指標(biāo)和H指數(shù)改進(jìn)指標(biāo)。
【學(xué)位單位】:大連理工大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位年份】:2014
【中圖分類】:G312;G353.1
【部分圖文】:
引文網(wǎng)絡(luò)分析中,常用的三種引文網(wǎng)絡(luò)類型分別是直接引用網(wǎng)絡(luò)、文獻(xiàn)稱合網(wǎng)絡(luò)和文獻(xiàn)共被引網(wǎng)絡(luò),三種類型網(wǎng)絡(luò)如圖2.1所示[72]。DtrccJ Citation y \ | , p I 丨'Jft接 g 丨用 \Bibliographic ^ ? f*cmip!ing i : k文敝鍋合 0' “ W\ 'i(b二 Co-ckation ^ ^ 本:%丨 cv:> ;圖2.1三種引文網(wǎng)絡(luò)類型Fig 2.1 Three types of citation network直接引用網(wǎng)絡(luò)指的是在一組重要且有代表性的文獻(xiàn)集中,每篇文獻(xiàn)都作為一個(gè)節(jié)點(diǎn),按時(shí)間先后標(biāo)以序號(hào),連接這些節(jié)點(diǎn)并以引用次數(shù)或其被引率為權(quán)值,即構(gòu)成直接引用網(wǎng)絡(luò)圖,如圖2.2直接引用圖中的節(jié)點(diǎn)A到M、A到N、C到0、D到0、E到P都是直接引用關(guān)系。對(duì)科學(xué)文獻(xiàn)間有向的引用關(guān)系進(jìn)行研究可以揭示學(xué)科領(lǐng)域發(fā)展脈絡(luò)、預(yù)測(cè)學(xué)科發(fā)展熱點(diǎn),揭示科學(xué)發(fā)展過程。-25 -
⑥分析匯總根據(jù)以上內(nèi)容分析的六個(gè)步驟,提出引用內(nèi)容分析包含的主要步驟,如圖2.2所示:/確定研究\ /選擇數(shù)據(jù)Z選擇分析||、類目I EmmI、」捕廣r W 廣與計(jì)算—丨①探索引用I : I①段落i ①自然語言:行為規(guī)律丨丨①整體性i胃②章節(jié)丨①位置處理:②揭示知識(shí)i i②可獲得性丨③句子I②文本內(nèi)容;②文本挖掘』;演化規(guī)律.1③連續(xù)性::④單詞 丨③科學(xué)計(jì)堂③應(yīng)用價(jià)值:⑤短語、④統(tǒng)i#■析 ■ ■ ‘‘ .,-.?.■;';?????..-...奴‘..:圖2.2引用內(nèi)容分析步驟Fig 2.2 Steps of citation content analysis①確定研究目的,提出研究問題。引用內(nèi)容研究主要有三個(gè)目的,首先是揭示施引者的引用行為規(guī)律,包括了引用動(dòng)機(jī)、引文位置分布、共被引位置分布等。其次是揭示引用過程中知識(shí)傳播與繼承規(guī)律,包括引用內(nèi)容的主題基本特征、主題演化特征等。最后是探索引用內(nèi)容分析的應(yīng)用價(jià)值。傳統(tǒng)引文分析的應(yīng)用價(jià)值可以體現(xiàn)在遴選核心期刊、科研人才評(píng)價(jià)、揭示學(xué)科發(fā)展特征、信息檢索等領(lǐng)域,引用內(nèi)容分析將在傳統(tǒng)引文分析應(yīng)用基礎(chǔ)上,體現(xiàn)出其獨(dú)特的應(yīng)用價(jià)值。針對(duì)以上幾個(gè)研究目的,具體研究過程中需要解決以下幾個(gè)問題:第一,如何識(shí)別引用行為規(guī)律?引用行為規(guī)律對(duì)傳統(tǒng)引文分析有什么影響?第二,引用過程中所采用的引用內(nèi)容有什么特點(diǎn)?它與施引文獻(xiàn)和引文本身有什么關(guān)系?第三
引用內(nèi)容獲取模塊包含3部分處理內(nèi)容,分別是數(shù)據(jù)采集、引用內(nèi)容存儲(chǔ)和引用內(nèi)容索引。如圖2.3所示:-丨丨■■丨丨 __丨_丨__丨;__|;| 羅…J界丨想』.丨I __丨—丨'丨,1丨丨藝!,壞_.<|____ MySQL 索引Pubmed Central ^丨參考文獻(xiàn)信息 ^ #教瞧1? ;數(shù)據(jù)庫全文 u 引用句子信息“ 引用句子信息1^ 參考文獻(xiàn)鏈接 參考文獻(xiàn)鏈接r :良-i... I[ 數(shù)據(jù)采集j 引用內(nèi)容存儲(chǔ) 建立索引‘‘圖2.3引文內(nèi)容獲取模塊設(shè)計(jì)Fig 2.3 The module design for citation content obtaining-38 -
【參考文獻(xiàn)】
本文編號(hào):2880059
【學(xué)位單位】:大連理工大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位年份】:2014
【中圖分類】:G312;G353.1
【部分圖文】:
引文網(wǎng)絡(luò)分析中,常用的三種引文網(wǎng)絡(luò)類型分別是直接引用網(wǎng)絡(luò)、文獻(xiàn)稱合網(wǎng)絡(luò)和文獻(xiàn)共被引網(wǎng)絡(luò),三種類型網(wǎng)絡(luò)如圖2.1所示[72]。DtrccJ Citation y \ | , p I 丨'Jft接 g 丨用 \Bibliographic ^ ? f*cmip!ing i : k文敝鍋合 0' “ W\ 'i(b二 Co-ckation ^ ^ 本:%丨 cv:> ;圖2.1三種引文網(wǎng)絡(luò)類型Fig 2.1 Three types of citation network直接引用網(wǎng)絡(luò)指的是在一組重要且有代表性的文獻(xiàn)集中,每篇文獻(xiàn)都作為一個(gè)節(jié)點(diǎn),按時(shí)間先后標(biāo)以序號(hào),連接這些節(jié)點(diǎn)并以引用次數(shù)或其被引率為權(quán)值,即構(gòu)成直接引用網(wǎng)絡(luò)圖,如圖2.2直接引用圖中的節(jié)點(diǎn)A到M、A到N、C到0、D到0、E到P都是直接引用關(guān)系。對(duì)科學(xué)文獻(xiàn)間有向的引用關(guān)系進(jìn)行研究可以揭示學(xué)科領(lǐng)域發(fā)展脈絡(luò)、預(yù)測(cè)學(xué)科發(fā)展熱點(diǎn),揭示科學(xué)發(fā)展過程。-25 -
⑥分析匯總根據(jù)以上內(nèi)容分析的六個(gè)步驟,提出引用內(nèi)容分析包含的主要步驟,如圖2.2所示:/確定研究\ /選擇數(shù)據(jù)Z選擇分析||、類目I EmmI、」捕廣r W 廣與計(jì)算—丨①探索引用I : I①段落i ①自然語言:行為規(guī)律丨丨①整體性i胃②章節(jié)丨①位置處理:②揭示知識(shí)i i②可獲得性丨③句子I②文本內(nèi)容;②文本挖掘』;演化規(guī)律.1③連續(xù)性::④單詞 丨③科學(xué)計(jì)堂③應(yīng)用價(jià)值:⑤短語、④統(tǒng)i#■析 ■ ■ ‘‘ .,-.?.■;';?????..-...奴‘..:圖2.2引用內(nèi)容分析步驟Fig 2.2 Steps of citation content analysis①確定研究目的,提出研究問題。引用內(nèi)容研究主要有三個(gè)目的,首先是揭示施引者的引用行為規(guī)律,包括了引用動(dòng)機(jī)、引文位置分布、共被引位置分布等。其次是揭示引用過程中知識(shí)傳播與繼承規(guī)律,包括引用內(nèi)容的主題基本特征、主題演化特征等。最后是探索引用內(nèi)容分析的應(yīng)用價(jià)值。傳統(tǒng)引文分析的應(yīng)用價(jià)值可以體現(xiàn)在遴選核心期刊、科研人才評(píng)價(jià)、揭示學(xué)科發(fā)展特征、信息檢索等領(lǐng)域,引用內(nèi)容分析將在傳統(tǒng)引文分析應(yīng)用基礎(chǔ)上,體現(xiàn)出其獨(dú)特的應(yīng)用價(jià)值。針對(duì)以上幾個(gè)研究目的,具體研究過程中需要解決以下幾個(gè)問題:第一,如何識(shí)別引用行為規(guī)律?引用行為規(guī)律對(duì)傳統(tǒng)引文分析有什么影響?第二,引用過程中所采用的引用內(nèi)容有什么特點(diǎn)?它與施引文獻(xiàn)和引文本身有什么關(guān)系?第三
引用內(nèi)容獲取模塊包含3部分處理內(nèi)容,分別是數(shù)據(jù)采集、引用內(nèi)容存儲(chǔ)和引用內(nèi)容索引。如圖2.3所示:-丨丨■■丨丨 __丨_丨__丨;__|;| 羅…J界丨想』.丨I __丨—丨'丨,1丨丨藝!,壞_.<|____ MySQL 索引Pubmed Central ^丨參考文獻(xiàn)信息 ^ #教瞧1? ;數(shù)據(jù)庫全文 u 引用句子信息“ 引用句子信息1^ 參考文獻(xiàn)鏈接 參考文獻(xiàn)鏈接r :良-i... I[ 數(shù)據(jù)采集j 引用內(nèi)容存儲(chǔ) 建立索引‘‘圖2.3引文內(nèi)容獲取模塊設(shè)計(jì)Fig 2.3 The module design for citation content obtaining-38 -
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 王向陽;馬軍;;一個(gè)基于PageRank的科技文獻(xiàn)質(zhì)量評(píng)價(jià)算法[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年01期
2 葉繼元;袁培國;吳向東;;引文數(shù)據(jù)中的負(fù)面引用初探[J];新世紀(jì)圖書館;2007年06期
3 金碧輝;Rousseau Ronald;;R指數(shù)、AR指數(shù):h指數(shù)功能擴(kuò)展的補(bǔ)充指標(biāo)[J];科學(xué)觀察;2007年03期
4 孫瑞英;從定性、定量到內(nèi)容分析法——圖書、情報(bào)領(lǐng)域研究方法探討[J];現(xiàn)代情報(bào);2005年01期
本文編號(hào):2880059
本文鏈接:http://sikaile.net/tushudanganlunwen/2880059.html
最近更新
教材專著