中草藥文獻(xiàn)知識抽取方法研究與應(yīng)用
發(fā)布時間:2022-02-14 23:44
隨著中醫(yī)現(xiàn)代化的提出,與中草藥相關(guān)的文獻(xiàn)資源迅速增長。這些文本內(nèi)容中隱藏著諸多中草藥實體知識及關(guān)系,如何從非結(jié)構(gòu)化的文本中挖掘有意義的實體關(guān)系是目前信息抽取領(lǐng)域的研究熱點,也是構(gòu)建知識庫或?qū)嶓w關(guān)系網(wǎng)絡(luò)(知識圖譜)的基礎(chǔ)。然而目前該領(lǐng)域的研究并不是很多,針對現(xiàn)有的一些研究可以概括為三個方面:一是實體關(guān)系的抽取多基于中文語料,然而英文文獻(xiàn)中也包含中草藥知識。二是抽取方法多基于傳統(tǒng)算法,準(zhǔn)確率并不是很高,所以有必要結(jié)合深度學(xué)習(xí)技術(shù)做進(jìn)一步的研究。三是對抽取結(jié)果的利用,應(yīng)結(jié)合領(lǐng)域知識做進(jìn)一步的應(yīng)用。因此本文的主要工作有以下幾個方面:一、從PubMed數(shù)據(jù)庫中檢索和收集了中草藥相關(guān)的英文文章。結(jié)合中藥與其他實體在文獻(xiàn)中的關(guān)系描述,定義了中藥與疾病、中藥與化學(xué)物質(zhì)這兩種定向關(guān)系。在醫(yī)學(xué)工作者的幫助下構(gòu)建了實體關(guān)系抽取語料庫,以實現(xiàn)對關(guān)系抽取問題的研究。二、為了提高中草藥相關(guān)的實體關(guān)系抽取準(zhǔn)確率,本文結(jié)合深度學(xué)習(xí)技術(shù)進(jìn)行了算法的研究。首先提出了SETATT-CNN模型,該模型創(chuàng)新性體現(xiàn)在根據(jù)分段輸入特征提出了具有分段注意力機(jī)制的SEGATT層。在模型訓(xùn)練上設(shè)計了具有權(quán)值系數(shù)的交叉熵?fù)p失函數(shù)。其次為了...
【文章來源】:吉林大學(xué)吉林省211工程院校985工程院校教育部直屬院校
【文章頁數(shù)】:84 頁
【學(xué)位級別】:碩士
【圖文】:
本文主要研究內(nèi)容
第2章相關(guān)技術(shù)介紹8第2章相關(guān)技術(shù)介紹本章節(jié)將從實體關(guān)系抽取問題的定義和解決方法、詞特征表示方法及深度學(xué)習(xí)技術(shù)三個方面進(jìn)行介紹,為本文研究問題的解決奠定基矗2.1實體關(guān)系抽取2.1.1實體關(guān)系抽取概述信息抽取問題最早始于MUC會議。在1998年最后一次MUC會議上初步提出和確定了關(guān)系抽取問題,并發(fā)布了相關(guān)數(shù)據(jù)集[34],之后便有很多學(xué)者關(guān)注了實體關(guān)系抽取問題。實體關(guān)系抽取的定義可以這樣描述:“在預(yù)先識別出實體的基礎(chǔ)上判斷成對實體之間的關(guān)系”。實體關(guān)系抽取問題是目前信息抽取領(lǐng)域的重要研究課題,尤其是基于文本的實體關(guān)系抽取,即從非結(jié)構(gòu)化的文本中判定實體對的關(guān)系,提取文本中結(jié)構(gòu)化的語義知識。基于文本形式的實體關(guān)系抽取問題可以抽象的描述為:基于文本語義確定實體e1和實體e2的關(guān)系r,其描述形式為(e1,r,e2);其實體在文本中的存在形式如圖2.1所示。解決實體關(guān)系抽取的方法主要包含有監(jiān)督和無監(jiān)督兩種,目前針對該文本形式的實體關(guān)系抽取解決方式主要采用有監(jiān)督的方法,有監(jiān)督即是在提前給定已標(biāo)注實體關(guān)系數(shù)據(jù)集的情況下學(xué)習(xí)和訓(xùn)練模型,然后根據(jù)訓(xùn)練好的模型去預(yù)測未標(biāo)注的實體關(guān)系。圖2.1基于文本的實體關(guān)系抽取樣例2.1.2關(guān)系抽取的方法關(guān)系抽取問題的解決方法主要分為四種,其分別為:基于共現(xiàn)的方法、基于規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法和目前較為流行的深度學(xué)習(xí)方法。1.基于共現(xiàn)的方法當(dāng)兩個實體同時存在時,該方法主要通過兩個假設(shè)性判定去確定實體之間的
第2章相關(guān)技術(shù)介紹10題。該方法的應(yīng)用能夠很好的克服傳統(tǒng)實體關(guān)系抽取方法的不足,使準(zhǔn)確率有了一定的保障。但是仍舊存在一定的不足,特征表示階段需要構(gòu)建大量的特征工程,例如上下文特征、最短路徑特征、領(lǐng)域知識特征、解析樹和依賴圖特征的組合、句法和短語輔助功能等。該方法的最大挑戰(zhàn)就是首先選擇能夠利于模型學(xué)習(xí)和訓(xùn)練的良好特征,其次就是從文本中準(zhǔn)確提取這些特征,避免誤差傳遞。因此,機(jī)器學(xué)習(xí)方法在進(jìn)行解決實體關(guān)系抽取問題時需要大量的特征工程才能輔助模型挖掘出文本中的語義特征從而提高關(guān)系分類的準(zhǔn)確性。4.深度學(xué)習(xí)方法與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比具有深層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型在解決NLP問題上具有較好的效果。其主要原因在于文本經(jīng)過詞嵌入特征編碼之后,其高維度的文本特征包含了大量文本語義信息,可以全部輸入到具有大量權(quán)值參數(shù)的神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練。多隱層形式的神經(jīng)網(wǎng)絡(luò)模型具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)到的特征對文本的原始數(shù)據(jù)具有更本質(zhì)的刻畫能力,從而更好的為實體關(guān)系分類任務(wù)服務(wù)。深度學(xué)習(xí)方法具有較強(qiáng)的泛化性能,在生物醫(yī)學(xué)領(lǐng)域已經(jīng)有了大量的研究和應(yīng)用。該方法能夠減少手動構(gòu)建特征工程的繁瑣,但并不影響準(zhǔn)確率的提升。在解決實體關(guān)系抽取問題上,其實現(xiàn)流程和機(jī)器學(xué)習(xí)方法類似,唯一不同的就是特征表示階段的Embedding過程不需要進(jìn)行特征降維便可直接輸入模型。圖2.2實體關(guān)系抽取流程圖總的來說四種方法都可以應(yīng)用于解決實體關(guān)系抽取問題上,其不同方法解決該問題的流程如圖2.2所示。不難發(fā)現(xiàn),采用深度學(xué)習(xí)方法進(jìn)行解決實體關(guān)系抽取具有較好的應(yīng)用前景。
【參考文獻(xiàn)】:
期刊論文
[1]BERST: An Engine and Tool for Exploring Biomedical Entities and Relationships[J]. BAI Tian,GE Yan,YANG Changqing,LIU Xiaohua,GONG Leiguang,WANG Ye,HUANG Lan. Chinese Journal of Electronics. 2019(04)
[2]深度學(xué)習(xí)實體關(guān)系抽取研究綜述[J]. 鄂海紅,張文靜,肖思琪,程瑞,胡鶯夕,周筱松,牛佩晴. 軟件學(xué)報. 2019(06)
[3]中醫(yī)養(yǎng)生知識圖譜的構(gòu)建與應(yīng)用[J]. 于彤,李敬華,于琦,田野,孫曉峰,徐麗麗,張竹綠. 中國數(shù)字醫(yī)學(xué). 2017(12)
[4]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 周飛燕,金林鵬,董軍. 計算機(jī)學(xué)報. 2017(06)
[5]中醫(yī)藥知識圖譜構(gòu)建與應(yīng)用[J]. 阮彤,孫程琳,王昊奮,方之家,殷亦超. 醫(yī)學(xué)信息學(xué)雜志. 2016(04)
[6]中醫(yī)自然語言處理研究方法綜述[J]. 柴華,路海明,劉清晨. 醫(yī)學(xué)信息學(xué)雜志. 2015(10)
[7]中醫(yī)藥知識圖譜構(gòu)建[J]. 賈李蓉,劉靜,于彤,董燕,朱玲,高博,劉麗紅. 醫(yī)學(xué)信息學(xué)雜志. 2015(08)
[8]中醫(yī)藥學(xué)語言系統(tǒng)的語義網(wǎng)絡(luò)框架:一個面向中醫(yī)藥領(lǐng)域的規(guī)范化頂層本體[J]. 于彤,崔蒙,李海燕,楊碩,賈李蓉,張竹綠. 中國數(shù)字醫(yī)學(xué). 2014(01)
本文編號:3625482
【文章來源】:吉林大學(xué)吉林省211工程院校985工程院校教育部直屬院校
【文章頁數(shù)】:84 頁
【學(xué)位級別】:碩士
【圖文】:
本文主要研究內(nèi)容
第2章相關(guān)技術(shù)介紹8第2章相關(guān)技術(shù)介紹本章節(jié)將從實體關(guān)系抽取問題的定義和解決方法、詞特征表示方法及深度學(xué)習(xí)技術(shù)三個方面進(jìn)行介紹,為本文研究問題的解決奠定基矗2.1實體關(guān)系抽取2.1.1實體關(guān)系抽取概述信息抽取問題最早始于MUC會議。在1998年最后一次MUC會議上初步提出和確定了關(guān)系抽取問題,并發(fā)布了相關(guān)數(shù)據(jù)集[34],之后便有很多學(xué)者關(guān)注了實體關(guān)系抽取問題。實體關(guān)系抽取的定義可以這樣描述:“在預(yù)先識別出實體的基礎(chǔ)上判斷成對實體之間的關(guān)系”。實體關(guān)系抽取問題是目前信息抽取領(lǐng)域的重要研究課題,尤其是基于文本的實體關(guān)系抽取,即從非結(jié)構(gòu)化的文本中判定實體對的關(guān)系,提取文本中結(jié)構(gòu)化的語義知識。基于文本形式的實體關(guān)系抽取問題可以抽象的描述為:基于文本語義確定實體e1和實體e2的關(guān)系r,其描述形式為(e1,r,e2);其實體在文本中的存在形式如圖2.1所示。解決實體關(guān)系抽取的方法主要包含有監(jiān)督和無監(jiān)督兩種,目前針對該文本形式的實體關(guān)系抽取解決方式主要采用有監(jiān)督的方法,有監(jiān)督即是在提前給定已標(biāo)注實體關(guān)系數(shù)據(jù)集的情況下學(xué)習(xí)和訓(xùn)練模型,然后根據(jù)訓(xùn)練好的模型去預(yù)測未標(biāo)注的實體關(guān)系。圖2.1基于文本的實體關(guān)系抽取樣例2.1.2關(guān)系抽取的方法關(guān)系抽取問題的解決方法主要分為四種,其分別為:基于共現(xiàn)的方法、基于規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法和目前較為流行的深度學(xué)習(xí)方法。1.基于共現(xiàn)的方法當(dāng)兩個實體同時存在時,該方法主要通過兩個假設(shè)性判定去確定實體之間的
第2章相關(guān)技術(shù)介紹10題。該方法的應(yīng)用能夠很好的克服傳統(tǒng)實體關(guān)系抽取方法的不足,使準(zhǔn)確率有了一定的保障。但是仍舊存在一定的不足,特征表示階段需要構(gòu)建大量的特征工程,例如上下文特征、最短路徑特征、領(lǐng)域知識特征、解析樹和依賴圖特征的組合、句法和短語輔助功能等。該方法的最大挑戰(zhàn)就是首先選擇能夠利于模型學(xué)習(xí)和訓(xùn)練的良好特征,其次就是從文本中準(zhǔn)確提取這些特征,避免誤差傳遞。因此,機(jī)器學(xué)習(xí)方法在進(jìn)行解決實體關(guān)系抽取問題時需要大量的特征工程才能輔助模型挖掘出文本中的語義特征從而提高關(guān)系分類的準(zhǔn)確性。4.深度學(xué)習(xí)方法與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比具有深層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型在解決NLP問題上具有較好的效果。其主要原因在于文本經(jīng)過詞嵌入特征編碼之后,其高維度的文本特征包含了大量文本語義信息,可以全部輸入到具有大量權(quán)值參數(shù)的神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練。多隱層形式的神經(jīng)網(wǎng)絡(luò)模型具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)到的特征對文本的原始數(shù)據(jù)具有更本質(zhì)的刻畫能力,從而更好的為實體關(guān)系分類任務(wù)服務(wù)。深度學(xué)習(xí)方法具有較強(qiáng)的泛化性能,在生物醫(yī)學(xué)領(lǐng)域已經(jīng)有了大量的研究和應(yīng)用。該方法能夠減少手動構(gòu)建特征工程的繁瑣,但并不影響準(zhǔn)確率的提升。在解決實體關(guān)系抽取問題上,其實現(xiàn)流程和機(jī)器學(xué)習(xí)方法類似,唯一不同的就是特征表示階段的Embedding過程不需要進(jìn)行特征降維便可直接輸入模型。圖2.2實體關(guān)系抽取流程圖總的來說四種方法都可以應(yīng)用于解決實體關(guān)系抽取問題上,其不同方法解決該問題的流程如圖2.2所示。不難發(fā)現(xiàn),采用深度學(xué)習(xí)方法進(jìn)行解決實體關(guān)系抽取具有較好的應(yīng)用前景。
【參考文獻(xiàn)】:
期刊論文
[1]BERST: An Engine and Tool for Exploring Biomedical Entities and Relationships[J]. BAI Tian,GE Yan,YANG Changqing,LIU Xiaohua,GONG Leiguang,WANG Ye,HUANG Lan. Chinese Journal of Electronics. 2019(04)
[2]深度學(xué)習(xí)實體關(guān)系抽取研究綜述[J]. 鄂海紅,張文靜,肖思琪,程瑞,胡鶯夕,周筱松,牛佩晴. 軟件學(xué)報. 2019(06)
[3]中醫(yī)養(yǎng)生知識圖譜的構(gòu)建與應(yīng)用[J]. 于彤,李敬華,于琦,田野,孫曉峰,徐麗麗,張竹綠. 中國數(shù)字醫(yī)學(xué). 2017(12)
[4]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 周飛燕,金林鵬,董軍. 計算機(jī)學(xué)報. 2017(06)
[5]中醫(yī)藥知識圖譜構(gòu)建與應(yīng)用[J]. 阮彤,孫程琳,王昊奮,方之家,殷亦超. 醫(yī)學(xué)信息學(xué)雜志. 2016(04)
[6]中醫(yī)自然語言處理研究方法綜述[J]. 柴華,路海明,劉清晨. 醫(yī)學(xué)信息學(xué)雜志. 2015(10)
[7]中醫(yī)藥知識圖譜構(gòu)建[J]. 賈李蓉,劉靜,于彤,董燕,朱玲,高博,劉麗紅. 醫(yī)學(xué)信息學(xué)雜志. 2015(08)
[8]中醫(yī)藥學(xué)語言系統(tǒng)的語義網(wǎng)絡(luò)框架:一個面向中醫(yī)藥領(lǐng)域的規(guī)范化頂層本體[J]. 于彤,崔蒙,李海燕,楊碩,賈李蓉,張竹綠. 中國數(shù)字醫(yī)學(xué). 2014(01)
本文編號:3625482
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3625482.html
最近更新
教材專著