基于引文細粒度情感量化的學術(shù)評價研究
發(fā)布時間:2020-12-29 07:15
【目的】利用情感分析技術(shù)對引用內(nèi)容中包含的引用情感進行深層次地發(fā)掘和量化,為學術(shù)文獻內(nèi)在價值的發(fā)現(xiàn)提供更加科學的理論依據(jù)和數(shù)據(jù)支撐!痉椒ā恳灾W(wǎng)中檢索到的期刊論文為例,通過對施引文獻中引用內(nèi)容的細粒度情感分析和量化,對被引文獻的內(nèi)在學術(shù)價值進行深度挖掘,并提出基于引用情感量化的學術(shù)評價指標!窘Y(jié)果】實驗表明,基于引用情感的學術(shù)評價方法比傳統(tǒng)的基于被引頻次的方法,離散系數(shù)高0.12,斯皮爾曼相關(guān)系數(shù)達到0.981!揪窒蕖坑捎趪鴥(nèi)沒有完整的全引文數(shù)據(jù)庫,造成數(shù)據(jù)獲取困難,實驗樣本量較小!窘Y(jié)論】基于細粒度引用情感量化的學術(shù)評價方法具有較高的區(qū)分度,能更加有效地衡量文獻的內(nèi)在學術(shù)價值。
【文章來源】:數(shù)據(jù)分析與知識發(fā)現(xiàn). 2020年06期 北大核心CSSCI
【文章頁數(shù)】:10 頁
【部分圖文】:
研究思路示意圖
通過編程語言實現(xiàn)后,示例中每個詞的極性值如圖2所示。利用圖傳播算法,獲取引用內(nèi)容中每個詞的極性和強度,通過閾值的設定去除其中的中性詞,可以較為準確地識別出細粒度條件下句中包含的引用情感詞及強度。但由于學術(shù)評價的復雜性和特殊性,如“訓練時間長”“大量人工參與”等語義單元中,單個詞并不具有明顯的情感傾向,如“訓練時間”“長”“大量”“人工參與”,只有變成語義單元組配時,才能體現(xiàn)出在引用情感上的變化,所以本文利用添加外部詞表的方式,在分詞時將這些特殊的語義組配單元視為一個整體,整體識別出語義單元的情感傾向和強度。
通過細粒度引用情感量化,本文對選取的論文進行綜合學術(shù)影響力評價值的計算,并將之與單純依靠被引頻次進行學術(shù)影響力評估的方法進行比較,將得到的結(jié)果按照論文被引頻次降序排列,繪制基于被引頻次評價和引用情感評價的變化趨勢折線圖,如圖3所示。為進一步比較和分析被引頻次和引用情感指標間的差異,利用SPSS統(tǒng)計分析軟件對兩項指標的計算結(jié)果進行斯皮爾曼秩相關(guān)分析。秩相關(guān)系數(shù),也稱為“等級相關(guān)系數(shù)”,是常用的反映相關(guān)程度的統(tǒng)計分析指標[26-27],當兩項指標高度相關(guān)時,說明引用情感評價指數(shù)作為被引頻次指標的補充和輔助具有合理性。此外,本文還采用離散系數(shù)對指標的顯著性進行評估,一般而言,離散系數(shù)越高,說明數(shù)據(jù)變化越顯著,數(shù)據(jù)之間的差異越明顯,評價指標的區(qū)分度也就越高、越合理。實驗得到的斯皮爾曼相關(guān)系數(shù)與離散系數(shù)具體如表6所示。
【參考文獻】:
期刊論文
[1]基于引用情感交互的學術(shù)檢索結(jié)果排序方法研究[J]. 姜霖,張麒麟. 情報理論與實踐. 2020(06)
[2]基于引文內(nèi)容的中文圖書被引行為研究[J]. 章成志,李卓,趙夢圓,柳嘉昊,周清清. 中國圖書館學報. 2019(03)
[3]基于區(qū)間數(shù)的Spearman秩相關(guān)系數(shù)的多屬性決策方法[J]. 蘇麗敏,何慧爽. 統(tǒng)計與決策. 2019(06)
[4]基于引用情感的論文學術(shù)影響力評價方法研究[J]. 耿樹青,楊建林. 情報理論與實踐. 2018(12)
[5]基于評論情感分析的個性化推薦策略研究——以豆瓣影評為例[J]. 姜霖,張麒麟. 情報理論與實踐. 2017(08)
[6]單篇論文學術(shù)影響力評價指標構(gòu)建[J]. 何春建. 圖書情報工作. 2017(04)
[7]基于位置的共被引分析實證研究[J]. 趙蓉英,郭鳳嬌,曾憲琴. 情報學報. 2016 (05)
[8]基于引用內(nèi)容的論文影響力研究——以諾貝爾獎獲得者論文為例[J]. 劉盛博,王博,唐德龍,馬翔,丁堃. 圖書情報工作. 2015(24)
[9]基于引用內(nèi)容性質(zhì)的引文評價研究[J]. 劉盛博,丁堃,張春博. 情報理論與實踐. 2015(03)
[10]全文本引文分析——引文分析的新發(fā)展[J]. 趙蓉英,曾憲琴,陳必坤. 圖書情報工作. 2014(09)
本文編號:2945245
【文章來源】:數(shù)據(jù)分析與知識發(fā)現(xiàn). 2020年06期 北大核心CSSCI
【文章頁數(shù)】:10 頁
【部分圖文】:
研究思路示意圖
通過編程語言實現(xiàn)后,示例中每個詞的極性值如圖2所示。利用圖傳播算法,獲取引用內(nèi)容中每個詞的極性和強度,通過閾值的設定去除其中的中性詞,可以較為準確地識別出細粒度條件下句中包含的引用情感詞及強度。但由于學術(shù)評價的復雜性和特殊性,如“訓練時間長”“大量人工參與”等語義單元中,單個詞并不具有明顯的情感傾向,如“訓練時間”“長”“大量”“人工參與”,只有變成語義單元組配時,才能體現(xiàn)出在引用情感上的變化,所以本文利用添加外部詞表的方式,在分詞時將這些特殊的語義組配單元視為一個整體,整體識別出語義單元的情感傾向和強度。
通過細粒度引用情感量化,本文對選取的論文進行綜合學術(shù)影響力評價值的計算,并將之與單純依靠被引頻次進行學術(shù)影響力評估的方法進行比較,將得到的結(jié)果按照論文被引頻次降序排列,繪制基于被引頻次評價和引用情感評價的變化趨勢折線圖,如圖3所示。為進一步比較和分析被引頻次和引用情感指標間的差異,利用SPSS統(tǒng)計分析軟件對兩項指標的計算結(jié)果進行斯皮爾曼秩相關(guān)分析。秩相關(guān)系數(shù),也稱為“等級相關(guān)系數(shù)”,是常用的反映相關(guān)程度的統(tǒng)計分析指標[26-27],當兩項指標高度相關(guān)時,說明引用情感評價指數(shù)作為被引頻次指標的補充和輔助具有合理性。此外,本文還采用離散系數(shù)對指標的顯著性進行評估,一般而言,離散系數(shù)越高,說明數(shù)據(jù)變化越顯著,數(shù)據(jù)之間的差異越明顯,評價指標的區(qū)分度也就越高、越合理。實驗得到的斯皮爾曼相關(guān)系數(shù)與離散系數(shù)具體如表6所示。
【參考文獻】:
期刊論文
[1]基于引用情感交互的學術(shù)檢索結(jié)果排序方法研究[J]. 姜霖,張麒麟. 情報理論與實踐. 2020(06)
[2]基于引文內(nèi)容的中文圖書被引行為研究[J]. 章成志,李卓,趙夢圓,柳嘉昊,周清清. 中國圖書館學報. 2019(03)
[3]基于區(qū)間數(shù)的Spearman秩相關(guān)系數(shù)的多屬性決策方法[J]. 蘇麗敏,何慧爽. 統(tǒng)計與決策. 2019(06)
[4]基于引用情感的論文學術(shù)影響力評價方法研究[J]. 耿樹青,楊建林. 情報理論與實踐. 2018(12)
[5]基于評論情感分析的個性化推薦策略研究——以豆瓣影評為例[J]. 姜霖,張麒麟. 情報理論與實踐. 2017(08)
[6]單篇論文學術(shù)影響力評價指標構(gòu)建[J]. 何春建. 圖書情報工作. 2017(04)
[7]基于位置的共被引分析實證研究[J]. 趙蓉英,郭鳳嬌,曾憲琴. 情報學報. 2016 (05)
[8]基于引用內(nèi)容的論文影響力研究——以諾貝爾獎獲得者論文為例[J]. 劉盛博,王博,唐德龍,馬翔,丁堃. 圖書情報工作. 2015(24)
[9]基于引用內(nèi)容性質(zhì)的引文評價研究[J]. 劉盛博,丁堃,張春博. 情報理論與實踐. 2015(03)
[10]全文本引文分析——引文分析的新發(fā)展[J]. 趙蓉英,曾憲琴,陳必坤. 圖書情報工作. 2014(09)
本文編號:2945245
本文鏈接:http://sikaile.net/tushudanganlunwen/2945245.html
教材專著