基于arXiv論文術(shù)語詞頻的暗能量研究趨勢分析
發(fā)布時間:2022-02-12 10:00
現(xiàn)代科學(xué)研究內(nèi)容日趨細化,進展日新月異,對研究趨勢和前沿進展的把握變得越來越困難。文章嘗試通過分析研究論文中的術(shù)語詞頻來定量追蹤學(xué)科發(fā)展趨勢。利用"天文學(xué)英語新詞自動提取系統(tǒng)"對近20年間天文學(xué)論文預(yù)印本的全文進行術(shù)語提取,在此基礎(chǔ)上分析宇宙學(xué)領(lǐng)域中與暗能量研究密切相關(guān)的概念術(shù)語(超新星、宇宙微波背景輻射等)在論文中的出現(xiàn)頻率。通過考察這些關(guān)鍵詞的詞頻隨時間的變化趨勢,分析它們與學(xué)科研究動態(tài)之間的關(guān)系,從而理解科學(xué)發(fā)現(xiàn)等熱點事件對研究工作和學(xué)科發(fā)展的具體影響,為天文學(xué)及其他學(xué)科的研究進展和趨勢分析提供一個客觀的量化方法。文章證實新設(shè)備和新數(shù)據(jù)在推動天文學(xué)新興理論和促生研究熱點方面具有不可或缺的重要意義和價值,而諾貝爾獎項等公眾熱點事件并沒有對宇宙學(xué)領(lǐng)域的研究熱度產(chǎn)生長期影響。
【文章來源】:中國科技術(shù)語. 2020,22(03)
【文章頁數(shù)】:8 頁
【部分圖文】:
論文數(shù)及高頻詞數(shù)年度變化趨勢(1993—2018)
將1993—2018年間含有model、observation和black hole的論文數(shù)進行歸一化及平滑之后,可得到如圖2所示的趨勢。在1996—2018年間這三個詞的趨勢比較平穩(wěn),且模型和觀測的縱坐標之和近似為1,這也符合我們對天體物理論文可分為理論和實測兩大類的預(yù)期認知。而1993—1995年間網(wǎng)站收錄的論文總數(shù)較少、學(xué)科不全、格式也不統(tǒng)一,給術(shù)語提取造成困難,導(dǎo)致這一時期的詞頻統(tǒng)計出現(xiàn)了明顯偏差。因此我們選擇1996—2018年這23年間的論文來進行術(shù)語頻次的研究。2.術(shù)語頻次閾值
隨著閾值越來越嚴格,滿足條件的文章數(shù)是逐漸降低的。包含該詞的文章(單篇詞頻>0)幾乎是討論該詞文章(單篇詞頻>10)的兩倍。而且,包含該詞的文章比例呈逐年緩慢上升的趨勢,這說明有越來越多的文章提到CMB的概念。天文界對這個概念的關(guān)注度持續(xù)上升。但若只看單篇詞頻數(shù)大于3的文章,上升趨勢幾乎消失了。而當單篇詞頻數(shù)設(shè)為5和10時,占比趨于定值,完全看不到上升跡象。所以,研究CMB文章的比例其實并沒有明顯變化(雖然有一些重大科學(xué)事件會引起論文數(shù)的短期上升,但都在一年內(nèi)回歸常值。這些高峰我們會在后面討論)。因此有必要為術(shù)語頻次設(shè)定一個閾值,以去除非密切相關(guān)論文所帶來的“泡沫”。本文將單篇文章中的術(shù)語頻次設(shè)為5,只將術(shù)語頻次高于此閾值的文章用于趨勢分析。原則上,還應(yīng)按文章長度對術(shù)語頻次進行歸一化,以防止長論文中術(shù)語頻次可能偏高的問題。但本文所依據(jù)的語料絕大部分是科技期刊論文,結(jié)構(gòu)類似,篇幅接近,這個效應(yīng)并不顯著。因此本文在后續(xù)分析中略過此步。
【參考文獻】:
期刊論文
[1]天文學(xué)英語新詞自動提取系統(tǒng)[J]. 余恒,崔辰州,張暉. 天文研究與技術(shù). 2015(03)
本文編號:3621514
【文章來源】:中國科技術(shù)語. 2020,22(03)
【文章頁數(shù)】:8 頁
【部分圖文】:
論文數(shù)及高頻詞數(shù)年度變化趨勢(1993—2018)
將1993—2018年間含有model、observation和black hole的論文數(shù)進行歸一化及平滑之后,可得到如圖2所示的趨勢。在1996—2018年間這三個詞的趨勢比較平穩(wěn),且模型和觀測的縱坐標之和近似為1,這也符合我們對天體物理論文可分為理論和實測兩大類的預(yù)期認知。而1993—1995年間網(wǎng)站收錄的論文總數(shù)較少、學(xué)科不全、格式也不統(tǒng)一,給術(shù)語提取造成困難,導(dǎo)致這一時期的詞頻統(tǒng)計出現(xiàn)了明顯偏差。因此我們選擇1996—2018年這23年間的論文來進行術(shù)語頻次的研究。2.術(shù)語頻次閾值
隨著閾值越來越嚴格,滿足條件的文章數(shù)是逐漸降低的。包含該詞的文章(單篇詞頻>0)幾乎是討論該詞文章(單篇詞頻>10)的兩倍。而且,包含該詞的文章比例呈逐年緩慢上升的趨勢,這說明有越來越多的文章提到CMB的概念。天文界對這個概念的關(guān)注度持續(xù)上升。但若只看單篇詞頻數(shù)大于3的文章,上升趨勢幾乎消失了。而當單篇詞頻數(shù)設(shè)為5和10時,占比趨于定值,完全看不到上升跡象。所以,研究CMB文章的比例其實并沒有明顯變化(雖然有一些重大科學(xué)事件會引起論文數(shù)的短期上升,但都在一年內(nèi)回歸常值。這些高峰我們會在后面討論)。因此有必要為術(shù)語頻次設(shè)定一個閾值,以去除非密切相關(guān)論文所帶來的“泡沫”。本文將單篇文章中的術(shù)語頻次設(shè)為5,只將術(shù)語頻次高于此閾值的文章用于趨勢分析。原則上,還應(yīng)按文章長度對術(shù)語頻次進行歸一化,以防止長論文中術(shù)語頻次可能偏高的問題。但本文所依據(jù)的語料絕大部分是科技期刊論文,結(jié)構(gòu)類似,篇幅接近,這個效應(yīng)并不顯著。因此本文在后續(xù)分析中略過此步。
【參考文獻】:
期刊論文
[1]天文學(xué)英語新詞自動提取系統(tǒng)[J]. 余恒,崔辰州,張暉. 天文研究與技術(shù). 2015(03)
本文編號:3621514
本文鏈接:http://sikaile.net/kejilunwen/tianwen/3621514.html
教材專著