基于論文摘要和引文文本語料的突破性研究特征詞識別
發(fā)布時間:2021-09-29 01:27
[目的/意義]基于作者對自身研究的描述性評價和后續(xù)研究者的評論性引用視角,利用摘要和引文語料提取突破性研究的特征詞,從而了解突破性研究的摘要和引文語料特征以幫助對于突破性研究的識別。[方法/過程]選取Science評選為"Breakthrough of the Year"的關鍵文獻和Nobel Prize獲得者的"key publications"作為突破性研究語料數(shù)據(jù),整合論文的摘要和引文語料進行特征詞提取。特征詞提取中,首先利用Stanford CoreNlp工具對語料進行分詞及詞頻統(tǒng)計,并結合專家意見提取特征詞元。然后將特征詞作為種子詞,利用醫(yī)學文本的語義關系對特征詞進行語義拓展。最后通過查全率和查準率進一步對比摘要和引文的特征詞拓展前后的檢索識別效果。[結果/結論]突破性研究語料中遴選出8個摘要語料的特征詞元和8個引文語料的特征詞元。特征詞檢索識別中,摘要和引文的拓展特征詞的查全率最高,引文特征詞的查準率最高,引文拓展特征詞的查全率和查準率綜合效果較好。
【文章來源】:圖書情報工作. 2020,64(11)北大核心CSSCI
【文章頁數(shù)】:8 頁
【部分圖文】:
突破性研究特征詞提取方法框架
突破性研究語料特征詞選取的重點是選出多篇文獻共同提到的特征詞,無需考慮反文檔頻率,因此TF-IDF的方法并不適用于此處的特征詞元選取。在篩選特征詞元過程中,本文選擇傳統(tǒng)的詞頻統(tǒng)計方式,使用Stanford CoreNlp工具對語料進行分詞及詞頻統(tǒng)計[19],提高詞頻統(tǒng)計的準確性。Stanford CoreNlp工具獲取語料詞頻的步驟為:分詞-詞形還原-基于句法的詞性標注-詞頻統(tǒng)計,在此基礎上過濾標點及屬性為CD(純數(shù),基數(shù))的詞,減少標點及數(shù)字帶來的噪音。圖2是以“The sulfur atom is supplied by a separate cluster in the enzyme.”為語料示例展示的詞頻統(tǒng)計過程:2.3 基于語義的特征詞元語義拓展
通過以上方法完成PMC OA Word2vec模型的構建,模型構建的流程圖見圖3。使用該模型進行詞義拓展時,只需某個詞輸入到模型中,即可輸出與這個詞義更接近的詞。2.4 提取效果評價方法
本文編號:3412931
【文章來源】:圖書情報工作. 2020,64(11)北大核心CSSCI
【文章頁數(shù)】:8 頁
【部分圖文】:
突破性研究特征詞提取方法框架
突破性研究語料特征詞選取的重點是選出多篇文獻共同提到的特征詞,無需考慮反文檔頻率,因此TF-IDF的方法并不適用于此處的特征詞元選取。在篩選特征詞元過程中,本文選擇傳統(tǒng)的詞頻統(tǒng)計方式,使用Stanford CoreNlp工具對語料進行分詞及詞頻統(tǒng)計[19],提高詞頻統(tǒng)計的準確性。Stanford CoreNlp工具獲取語料詞頻的步驟為:分詞-詞形還原-基于句法的詞性標注-詞頻統(tǒng)計,在此基礎上過濾標點及屬性為CD(純數(shù),基數(shù))的詞,減少標點及數(shù)字帶來的噪音。圖2是以“The sulfur atom is supplied by a separate cluster in the enzyme.”為語料示例展示的詞頻統(tǒng)計過程:2.3 基于語義的特征詞元語義拓展
通過以上方法完成PMC OA Word2vec模型的構建,模型構建的流程圖見圖3。使用該模型進行詞義拓展時,只需某個詞輸入到模型中,即可輸出與這個詞義更接近的詞。2.4 提取效果評價方法
本文編號:3412931
本文鏈接:http://sikaile.net/tushudanganlunwen/3412931.html