學(xué)術(shù)文本結(jié)構(gòu)功能深度學(xué)習(xí)識(shí)別方法的多學(xué)科對(duì)比分析
發(fā)布時(shí)間:2021-07-19 08:40
[目的/意義]學(xué)術(shù)文本的結(jié)構(gòu)功能識(shí)別可視為多類別文本自動(dòng)分類問題,借助深度學(xué)習(xí)技術(shù)能夠獲得良好的自動(dòng)識(shí)別性能,然而目前缺少其在不同學(xué)科適用性的對(duì)比研究。[方法/過程]選擇醫(yī)學(xué)、圖情、數(shù)據(jù)、出版、經(jīng)濟(jì)5個(gè)學(xué)科方向5種期刊的6 452篇結(jié)構(gòu)式摘要為基礎(chǔ)語料,設(shè)計(jì)并實(shí)現(xiàn)了基于Magpie深度學(xué)習(xí)組件的學(xué)術(shù)文本結(jié)構(gòu)功能識(shí)別實(shí)驗(yàn),通過對(duì)比分析同一分類模型在不同學(xué)科領(lǐng)域?qū)嶒?yàn)語料上的性能表現(xiàn)及其影響因素,揭示機(jī)器學(xué)習(xí)方法的學(xué)科適用性規(guī)律。[結(jié)果/結(jié)論]實(shí)驗(yàn)結(jié)果顯示,學(xué)科差異性對(duì)于機(jī)器學(xué)習(xí)效果有顯著的影響,其中醫(yī)學(xué)領(lǐng)域?qū)W術(shù)文本的結(jié)構(gòu)功能識(shí)別效率明顯高于其他學(xué)科,常見的學(xué)術(shù)文本功能結(jié)構(gòu)框架中"方法"和"結(jié)果"的機(jī)器學(xué)習(xí)識(shí)別效果更佳。
【文章來源】:現(xiàn)代情報(bào). 2019,39(12)CSSCI
【文章頁數(shù)】:10 頁
【部分圖文】:
實(shí)驗(yàn)語料樣例
類別分類問題(Multi-classClassification)。Magpie最初用于實(shí)現(xiàn)高等物理領(lǐng)域文獻(xiàn)摘要的主題分類標(biāo)引,后被改進(jìn)并封裝后成為一種實(shí)現(xiàn)大規(guī)模訓(xùn)練語料基礎(chǔ)上的文本分類通用工具。目前,Magpie采用的基礎(chǔ)模型參考了先后由KimY[18]和BergerMJ[19]提出的基于CNN的文本分類模型。封裝后的Magpie在Word2Vec實(shí)現(xiàn)的詞向量化基礎(chǔ)上,通過SciKitLearn進(jìn)行數(shù)據(jù)集的標(biāo)準(zhǔn)化處理,然后利用Keras神經(jīng)網(wǎng)絡(luò)API實(shí)現(xiàn)深度學(xué)習(xí)完成分類任務(wù),基本原理如圖2所示。圖2Magpie深度學(xué)習(xí)分類原理圖為科學(xué)全面地評(píng)估機(jī)器學(xué)習(xí)方法的適用性,實(shí)驗(yàn)根據(jù)5種期刊所屬的中圖分類(見2.1節(jié)表2)將樣本語料分為5組,下文簡稱“醫(yī)學(xué)”、“圖情”、“數(shù)據(jù)”、“出版”、“經(jīng)濟(jì)”,從學(xué)科差別、功能結(jié)構(gòu)、樣本規(guī)模等多種角度,觀察5組數(shù)據(jù)的分類性能差異,分析機(jī)器學(xué)習(xí)的影響因素及變化規(guī)律。具體步驟如下:首先,將實(shí)驗(yàn)數(shù)據(jù)通過分詞處理后利用Word2Vec算法構(gòu)建各獨(dú)立語句文本的詞向量(Word_Vector);然后,在對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理(Scaler)后調(diào)用Mapgie組件開展機(jī)器學(xué)習(xí);最后,生成相應(yīng)的機(jī)器學(xué)習(xí)模型(Model.h5),并應(yīng)用于測(cè)試語料的自動(dòng)分類。部分示例代碼如下:magpie=Magpie(keras_model='../magpie_result/20_0.1_li/mod-el.h5',word2vec_model='../magpie_result/20_0.1_li/embeddings',scaler='../magpie_result/20_0.1_li/scaler',labels=['purpose','method','result','limita-tion','application','valuation'])#調(diào)用Magpie機(jī)器學(xué)習(xí)模型及
【參考文獻(xiàn)】:
期刊論文
[1]多層次融合的學(xué)術(shù)文本結(jié)構(gòu)功能識(shí)別研究[J]. 王佳敏,陸偉,劉家偉,程齊凱. 圖書情報(bào)工作. 2019(13)
[2]面向循證醫(yī)學(xué)的科技文獻(xiàn)摘要結(jié)構(gòu)化表示研究[J]. 杜圣梅,朱禮軍,徐碩. 中國科技資源導(dǎo)刊. 2018(06)
[3]面向摘要結(jié)構(gòu)功能劃分的模型性能比較研究[J]. 王東波,陸昊翔,周鑫,朱丹浩. 圖書情報(bào)工作. 2018(12)
[4]英語學(xué)術(shù)論文摘要語步結(jié)構(gòu)自動(dòng)識(shí)別模型的構(gòu)建[J]. 王立非,劉霞. 外語電化教學(xué). 2017(02)
[5]學(xué)術(shù)文本的結(jié)構(gòu)功能識(shí)別——基于段落的識(shí)別[J]. 黃永,陸偉,程齊凱,桂思思. 情報(bào)學(xué)報(bào). 2016 (05)
[6]學(xué)術(shù)文本的結(jié)構(gòu)功能識(shí)別——基于章節(jié)內(nèi)容的識(shí)別[J]. 黃永,陸偉,程齊凱. 情報(bào)學(xué)報(bào). 2016 (03)
[7]中外科技期刊英文摘要文體格式的變化及建議[J]. 黃河清,韓健,張?chǎng)L驚,韓鳳,蔣奎,單愛蓮. 中國科技期刊研究. 2015(02)
[8]生物醫(yī)學(xué)期刊應(yīng)用結(jié)構(gòu)式摘要的現(xiàn)狀和建議[J]. 劉雪立,劉國偉,喬漢臣,潘伯榮. 中國科技期刊研究. 1994(02)
本文編號(hào):3290383
【文章來源】:現(xiàn)代情報(bào). 2019,39(12)CSSCI
【文章頁數(shù)】:10 頁
【部分圖文】:
實(shí)驗(yàn)語料樣例
類別分類問題(Multi-classClassification)。Magpie最初用于實(shí)現(xiàn)高等物理領(lǐng)域文獻(xiàn)摘要的主題分類標(biāo)引,后被改進(jìn)并封裝后成為一種實(shí)現(xiàn)大規(guī)模訓(xùn)練語料基礎(chǔ)上的文本分類通用工具。目前,Magpie采用的基礎(chǔ)模型參考了先后由KimY[18]和BergerMJ[19]提出的基于CNN的文本分類模型。封裝后的Magpie在Word2Vec實(shí)現(xiàn)的詞向量化基礎(chǔ)上,通過SciKitLearn進(jìn)行數(shù)據(jù)集的標(biāo)準(zhǔn)化處理,然后利用Keras神經(jīng)網(wǎng)絡(luò)API實(shí)現(xiàn)深度學(xué)習(xí)完成分類任務(wù),基本原理如圖2所示。圖2Magpie深度學(xué)習(xí)分類原理圖為科學(xué)全面地評(píng)估機(jī)器學(xué)習(xí)方法的適用性,實(shí)驗(yàn)根據(jù)5種期刊所屬的中圖分類(見2.1節(jié)表2)將樣本語料分為5組,下文簡稱“醫(yī)學(xué)”、“圖情”、“數(shù)據(jù)”、“出版”、“經(jīng)濟(jì)”,從學(xué)科差別、功能結(jié)構(gòu)、樣本規(guī)模等多種角度,觀察5組數(shù)據(jù)的分類性能差異,分析機(jī)器學(xué)習(xí)的影響因素及變化規(guī)律。具體步驟如下:首先,將實(shí)驗(yàn)數(shù)據(jù)通過分詞處理后利用Word2Vec算法構(gòu)建各獨(dú)立語句文本的詞向量(Word_Vector);然后,在對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理(Scaler)后調(diào)用Mapgie組件開展機(jī)器學(xué)習(xí);最后,生成相應(yīng)的機(jī)器學(xué)習(xí)模型(Model.h5),并應(yīng)用于測(cè)試語料的自動(dòng)分類。部分示例代碼如下:magpie=Magpie(keras_model='../magpie_result/20_0.1_li/mod-el.h5',word2vec_model='../magpie_result/20_0.1_li/embeddings',scaler='../magpie_result/20_0.1_li/scaler',labels=['purpose','method','result','limita-tion','application','valuation'])#調(diào)用Magpie機(jī)器學(xué)習(xí)模型及
【參考文獻(xiàn)】:
期刊論文
[1]多層次融合的學(xué)術(shù)文本結(jié)構(gòu)功能識(shí)別研究[J]. 王佳敏,陸偉,劉家偉,程齊凱. 圖書情報(bào)工作. 2019(13)
[2]面向循證醫(yī)學(xué)的科技文獻(xiàn)摘要結(jié)構(gòu)化表示研究[J]. 杜圣梅,朱禮軍,徐碩. 中國科技資源導(dǎo)刊. 2018(06)
[3]面向摘要結(jié)構(gòu)功能劃分的模型性能比較研究[J]. 王東波,陸昊翔,周鑫,朱丹浩. 圖書情報(bào)工作. 2018(12)
[4]英語學(xué)術(shù)論文摘要語步結(jié)構(gòu)自動(dòng)識(shí)別模型的構(gòu)建[J]. 王立非,劉霞. 外語電化教學(xué). 2017(02)
[5]學(xué)術(shù)文本的結(jié)構(gòu)功能識(shí)別——基于段落的識(shí)別[J]. 黃永,陸偉,程齊凱,桂思思. 情報(bào)學(xué)報(bào). 2016 (05)
[6]學(xué)術(shù)文本的結(jié)構(gòu)功能識(shí)別——基于章節(jié)內(nèi)容的識(shí)別[J]. 黃永,陸偉,程齊凱. 情報(bào)學(xué)報(bào). 2016 (03)
[7]中外科技期刊英文摘要文體格式的變化及建議[J]. 黃河清,韓健,張?chǎng)L驚,韓鳳,蔣奎,單愛蓮. 中國科技期刊研究. 2015(02)
[8]生物醫(yī)學(xué)期刊應(yīng)用結(jié)構(gòu)式摘要的現(xiàn)狀和建議[J]. 劉雪立,劉國偉,喬漢臣,潘伯榮. 中國科技期刊研究. 1994(02)
本文編號(hào):3290383
本文鏈接:http://sikaile.net/jiaoyulunwen/ktjx/3290383.html
最近更新
教材專著