當(dāng)前位置：主頁(yè) > 社科論文 > 圖書(shū)檔案論文 >

基于論文摘要和引文文本語(yǔ)料的突破性研究特征詞識(shí)別

發(fā)布時(shí)間：2021-09-29 01:27

　　[目的/意義]基于作者對(duì)自身研究的描述性評(píng)價(jià)和后續(xù)研究者的評(píng)論性引用視角,利用摘要和引文語(yǔ)料提取突破性研究的特征詞,從而了解突破性研究的摘要和引文語(yǔ)料特征以幫助對(duì)于突破性研究的識(shí)別。[方法/過(guò)程]選取Science評(píng)選為"Breakthrough of the Year"的關(guān)鍵文獻(xiàn)和Nobel Prize獲得者的"key publications"作為突破性研究語(yǔ)料數(shù)據(jù),整合論文的摘要和引文語(yǔ)料進(jìn)行特征詞提取。特征詞提取中,首先利用Stanford CoreNlp工具對(duì)語(yǔ)料進(jìn)行分詞及詞頻統(tǒng)計(jì),并結(jié)合專(zhuān)家意見(jiàn)提取特征詞元。然后將特征詞作為種子詞,利用醫(yī)學(xué)文本的語(yǔ)義關(guān)系對(duì)特征詞進(jìn)行語(yǔ)義拓展。最后通過(guò)查全率和查準(zhǔn)率進(jìn)一步對(duì)比摘要和引文的特征詞拓展前后的檢索識(shí)別效果。[結(jié)果/結(jié)論]突破性研究語(yǔ)料中遴選出8個(gè)摘要語(yǔ)料的特征詞元和8個(gè)引文語(yǔ)料的特征詞元。特征詞檢索識(shí)別中,摘要和引文的拓展特征詞的查全率最高,引文特征詞的查準(zhǔn)率最高,引文拓展特征詞的查全率和查準(zhǔn)率綜合效果較好。

【文章來(lái)源】：圖書(shū)情報(bào)工作. 2020,64(11)北大核心CSSCI

【文章頁(yè)數(shù)】：8 頁(yè)

【部分圖文】：

突破性研究特征詞提取方法框架

詞頻,語(yǔ)料,示例,特征詞

突破性研究語(yǔ)料特征詞選取的重點(diǎn)是選出多篇文獻(xiàn)共同提到的特征詞,無(wú)需考慮反文檔頻率,因此TF-IDF的方法并不適用于此處的特征詞元選取。在篩選特征詞元過(guò)程中,本文選擇傳統(tǒng)的詞頻統(tǒng)計(jì)方式,使用Stanford CoreNlp工具對(duì)語(yǔ)料進(jìn)行分詞及詞頻統(tǒng)計(jì)[19],提高詞頻統(tǒng)計(jì)的準(zhǔn)確性。Stanford CoreNlp工具獲取語(yǔ)料詞頻的步驟為:分詞-詞形還原-基于句法的詞性標(biāo)注-詞頻統(tǒng)計(jì),在此基礎(chǔ)上過(guò)濾標(biāo)點(diǎn)及屬性為CD(純數(shù),基數(shù))的詞,減少標(biāo)點(diǎn)及數(shù)字帶來(lái)的噪音。圖2是以“The sulfur atom is supplied by a separate cluster in the enzyme.”為語(yǔ)料示例展示的詞頻統(tǒng)計(jì)過(guò)程:2.3 基于語(yǔ)義的特征詞元語(yǔ)義拓展

流程圖,模型,流程圖,詞義

通過(guò)以上方法完成PMC OA Word2vec模型的構(gòu)建,模型構(gòu)建的流程圖見(jiàn)圖3。使用該模型進(jìn)行詞義拓展時(shí),只需某個(gè)詞輸入到模型中,即可輸出與這個(gè)詞義更接近的詞。2.4 提取效果評(píng)價(jià)方法

本文編號(hào)：3412931

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/tushudanganlunwen/3412931.html

上一篇：合肥地區(qū)公共圖書(shū)館少兒經(jīng)典閱讀推廣的調(diào)查與研究
下一篇：圖書(shū)館應(yīng)用VR技術(shù)創(chuàng)新服務(wù)的探究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于論文摘要和引文文本語(yǔ)料的突破性研究特征詞識(shí)別