天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

基于深度學(xué)習(xí)的科技項(xiàng)目申報(bào)文本相似性檢測(cè)方法研究

發(fā)布時(shí)間:2020-12-10 13:19
  十八大以來,隨著“科教興國”、“創(chuàng)新驅(qū)動(dòng)”與“人才強(qiáng)國”核心發(fā)展戰(zhàn)略的確立,我國對(duì)于科研課題的扶持力度不斷增大,各類科技項(xiàng)目的立項(xiàng)數(shù)目與經(jīng)費(fèi)連續(xù)5年實(shí)現(xiàn)了歷史性突破。科技項(xiàng)目數(shù)量的逐年上升無疑促進(jìn)了我國科技創(chuàng)新事業(yè)的高速發(fā)展,然而,海量的科技項(xiàng)目與快速增長的科研課題,卻給科技項(xiàng)目的有效評(píng)審與合理審計(jì)帶來極大困難,隨之引發(fā)的“交叉申報(bào)”、“多頭申報(bào)”等現(xiàn)象則令我國科技計(jì)劃的有效開展陷入僵局。因此,如何建立高效的項(xiàng)目管理機(jī)制,避免科技項(xiàng)目的無序發(fā)展與低水平重復(fù),確保科研立題的創(chuàng)新性與先進(jìn)性,已成為我國科技計(jì)劃管理部門亟待解決的關(guān)鍵問題之一。本文基于科技項(xiàng)目的重復(fù)立項(xiàng)問題,對(duì)其相似性評(píng)估的方法進(jìn)行了研究,針對(duì)目前科技項(xiàng)目重復(fù)性檢測(cè)方面的命名實(shí)體難以識(shí)別、實(shí)體關(guān)系難以提取、語義挖掘能力有限與相似性評(píng)估精度不佳四個(gè)問題,提出了基于深度學(xué)習(xí)的科技項(xiàng)目申報(bào)文本相似性檢測(cè)方法。首先,針對(duì)科技項(xiàng)目文本中命名實(shí)體難以有效識(shí)別的問題,提出一種基于遷移學(xué)習(xí)的命名實(shí)體識(shí)別模型。該模型采用學(xué)習(xí)率重啟機(jī)制對(duì)BERT模型進(jìn)行了優(yōu)化,并結(jié)合大規(guī)?萍颊Z料庫對(duì)基線模型進(jìn)行了二次預(yù)訓(xùn)練,從而學(xué)習(xí)豐富的科技類文本語義關(guān)系及語... 

【文章來源】:東北電力大學(xué)吉林省

【文章頁數(shù)】:71 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于深度學(xué)習(xí)的科技項(xiàng)目申報(bào)文本相似性檢測(cè)方法研究


圖3-5學(xué)習(xí)率重啟過程??由圖3-5可知,在模型的迭代過程中,學(xué)習(xí)率首先能夠以較高的數(shù)值與較少的??重啟迭代次數(shù)加速模型訓(xùn)練,并減小陷入“鞍點(diǎn)”的概率;隨后,學(xué)習(xí)率以快于線性??

示意圖,模型,訓(xùn)練時(shí)間,交叉驗(yàn)證


?第3章基于遷移學(xué)習(xí)的命名實(shí)體識(shí)別模型???-,,??[r?/??g?0.6?I?H?/.??I?f?/????蝴?〇?4?訓(xùn)?,,?—Fold?I?AUC=0.93??y?—?FoId2?AUC=092??I?Z?一?F〇W3?AUC=0?89??H?^?c?Fold4?AUO0?89??〇.2丨f?/?—陽服養(yǎng)??—?Mean?AUC=0?90??〇.〇?k???/?????????0.0?0.2?0.4?0.6?0.8?1.0??假陽率(FPR)??圖3-8?TL-NERM模型5-fold交叉驗(yàn)證ROC曲線及AUC值示意圖??由圖3-8可知,TL-NERM模型的5-fold交叉驗(yàn)證與均值ROC曲線整體逼近于(0,1)??點(diǎn),且5-fold交叉驗(yàn)證與均值ROC曲線較為平滑,6項(xiàng)AUC值均保持在0.9左右,??從而驗(yàn)證了本模型在命名實(shí)體識(shí)別方面具有一定的同質(zhì)性與有效性。??此外,為驗(yàn)證TL-NERM模型在吋間復(fù)雜度方面的性能提升,選収原始BERT-base??模型、原始BERT-base-BiLSTM-CRF與本模型的二次預(yù)訓(xùn)練階段和遷移學(xué)習(xí)階段進(jìn)行??對(duì)比試驗(yàn),本模型二次預(yù)訓(xùn)練與BERT-base模型二次預(yù)訓(xùn)練的時(shí)間代價(jià)如圖3-9所示:??200??■■?TL-NERM?,7???■?BERT-base??■?_|??0?10?50?100??樣本數(shù)量(萬句)??圖3-9?TL-NERM模型與原始BERT-base模型的二次預(yù)訓(xùn)練時(shí)間代價(jià)示意圖??-25?-??

實(shí)體關(guān)系圖,實(shí)體關(guān)系,算法,主題


?Thrdi,x?(/,?x)??14?if?Frequency(i,?x)?<?Thrd“x?(i,?x)??15?delet?groupie??16?else?add?groupie?to?Doci(E-R)??17?return?Dod(E-R)?=?[Entityi,\-Relation?i、\,…,Entity?i,M-Relation??END??基于上述過程,可以實(shí)現(xiàn)對(duì)科技項(xiàng)目申報(bào)文本中命名實(shí)體關(guān)系的高質(zhì)量抽取,??EGCF-ERE算法的部分實(shí)體關(guān)系抽取結(jié)果如圖4-3:??In?[30]:?runfile(?}??docSample?=?{??['腸道菌群?腫瘤、^腸道微環(huán)境1??[_腸道、?免疫反應(yīng)_腸癌_]??['腹內(nèi)感染、’抗生素、?結(jié)腸、’直腸癌1??[_腸道’微生物_,'上皮細(xì)胞、?人體免疫系統(tǒng)’,?平衡’]??[_腸道、?微生物、?結(jié)腸癌’]??[’腸道微生物、?代謝產(chǎn)物、’致癌’,’抑癌_]??['腸道菌群’直腸癌_]??圖4-3?EGCF-ERE算法的部分命名實(shí)體關(guān)系抽取結(jié)果圖??由圖4-3可知,根據(jù)EGCF-ERE算法可對(duì)實(shí)體關(guān)系進(jìn)行抽取,并構(gòu)成與文檔主題??語義相關(guān)性較高的多個(gè)共現(xiàn)實(shí)體組。??-34-??


本文編號(hào):2908764

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2908764.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶18316***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com