生物醫(yī)學(xué)領(lǐng)域?qū)嶓w關(guān)系抽取研究
發(fā)布時(shí)間:2020-12-12 14:28
生物醫(yī)學(xué)文獻(xiàn)和生物醫(yī)學(xué)數(shù)據(jù)庫(kù)是生物醫(yī)學(xué)領(lǐng)域知識(shí)的主要來(lái)源,生物醫(yī)學(xué)文獻(xiàn)和數(shù)據(jù)庫(kù)中的生物醫(yī)學(xué)實(shí)體關(guān)系是領(lǐng)域知識(shí)的一種表現(xiàn)形式。實(shí)體關(guān)系將文獻(xiàn)中抽象的語(yǔ)義信息轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化的實(shí)體信息,不僅方便生物醫(yī)學(xué)領(lǐng)域研究人員對(duì)領(lǐng)域知識(shí)的獲取,還可以實(shí)現(xiàn)生物醫(yī)學(xué)信息的自動(dòng)化處理,推動(dòng)生物醫(yī)學(xué)領(lǐng)域研究工具的開(kāi)發(fā)及醫(yī)療領(lǐng)域的信息化發(fā)展。因此,生物醫(yī)學(xué)領(lǐng)域的實(shí)體關(guān)系抽取是將生物醫(yī)學(xué)領(lǐng)域知識(shí)結(jié)構(gòu)化和發(fā)現(xiàn)新生物醫(yī)學(xué)知識(shí)的重要方法。目前研究工作主要集中在海量生物醫(yī)學(xué)文獻(xiàn)中抽取實(shí)體關(guān)系方法研究,而從生物醫(yī)學(xué)結(jié)構(gòu)化知識(shí)中抽取實(shí)體關(guān)系方法的研究還沒(méi)有得到廣泛的關(guān)注。本文以生物醫(yī)學(xué)實(shí)體關(guān)系抽取為研究主線,研究生物醫(yī)學(xué)文獻(xiàn)主題關(guān)系模型,抽取文獻(xiàn)主題相關(guān)的實(shí)體關(guān)系,進(jìn)而構(gòu)建生物醫(yī)學(xué)知識(shí)網(wǎng)絡(luò),在知識(shí)網(wǎng)絡(luò)上實(shí)現(xiàn)基于鏈路預(yù)測(cè)的生物醫(yī)學(xué)實(shí)體發(fā)現(xiàn)方法和基于圖神經(jīng)網(wǎng)絡(luò)的生物醫(yī)學(xué)實(shí)體發(fā)現(xiàn)方法,從結(jié)構(gòu)化生物醫(yī)學(xué)數(shù)據(jù)庫(kù)中發(fā)現(xiàn)實(shí)體隱性關(guān)系。本文主要的研究?jī)?nèi)容包含以下幾部分:第一,針對(duì)當(dāng)前抽取生物醫(yī)學(xué)實(shí)體關(guān)系與文獻(xiàn)主題相關(guān)性不足的問(wèn)題,研究實(shí)現(xiàn)文獻(xiàn)主題關(guān)系抽取方法,通過(guò)建立主題分布模型和實(shí)體關(guān)系抽取模型,從特定文獻(xiàn)中抽取與主題相關(guān)的生物醫(yī)學(xué)文獻(xiàn)主題關(guān)...
【文章來(lái)源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:125 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
命名實(shí)體識(shí)別方法
第1章緒論14基于核函數(shù)的方法主要利用文本的結(jié)構(gòu)特征[86]。核函數(shù)方法的理念是量化兩個(gè)實(shí)例之間的相似度。常用的核函數(shù)有詞袋核函數(shù)、淺層語(yǔ)義核函數(shù)、子樹(shù)核函數(shù)、圖核函數(shù)和組合核函數(shù)。1.3本文主要研究?jī)?nèi)容圖1.2本文主要研究?jī)?nèi)容概圖為充分利用生物醫(yī)學(xué)領(lǐng)域文獻(xiàn)和數(shù)據(jù)庫(kù)資源,尤其是MEDLINE及各個(gè)開(kāi)源數(shù)據(jù)庫(kù),本文基于信息抽取技術(shù),探索了從生物醫(yī)學(xué)文獻(xiàn)中抽取生物醫(yī)學(xué)文獻(xiàn)主題關(guān)系并構(gòu)建生物醫(yī)學(xué)知識(shí)網(wǎng)絡(luò)的方法,基于文獻(xiàn)主題關(guān)系與生物醫(yī)學(xué)文獻(xiàn)關(guān)聯(lián)進(jìn)行關(guān)系類文獻(xiàn)檢索研究,開(kāi)發(fā)基于圖神經(jīng)網(wǎng)絡(luò)的實(shí)體關(guān)系發(fā)現(xiàn)模型,運(yùn)用生物醫(yī)學(xué)知識(shí)網(wǎng)絡(luò)輔助文獻(xiàn)中實(shí)體關(guān)系抽齲本文以生物醫(yī)學(xué)領(lǐng)域的實(shí)體關(guān)系抽取研究為主線,旨在從生物醫(yī)學(xué)文獻(xiàn)和生物醫(yī)學(xué)知識(shí)網(wǎng)絡(luò)中發(fā)現(xiàn)潛在生物醫(yī)學(xué)實(shí)體關(guān)系等知識(shí)。首先建立生物醫(yī)學(xué)文獻(xiàn)主題模型,從文獻(xiàn)中抽取文獻(xiàn)主題關(guān)系。進(jìn)而,利用現(xiàn)有生物醫(yī)學(xué)數(shù)據(jù)庫(kù)及生物醫(yī)學(xué)實(shí)體關(guān)系,如主題關(guān)系等,研究構(gòu)建生物醫(yī)學(xué)知識(shí)網(wǎng)絡(luò)方法,建立包含多種類型實(shí)體的生物醫(yī)學(xué)知識(shí)網(wǎng)絡(luò)。研究生物醫(yī)學(xué)知識(shí)網(wǎng)絡(luò)中的實(shí)體關(guān)系發(fā)現(xiàn)方法,分別建立基于鏈路預(yù)測(cè)和基于圖神經(jīng)網(wǎng)絡(luò)的實(shí)體關(guān)系發(fā)現(xiàn)模型,實(shí)現(xiàn)生物醫(yī)學(xué)知識(shí)網(wǎng)絡(luò)中的實(shí)體關(guān)系發(fā)現(xiàn)。本文的主要研究?jī)?nèi)容如下:(1)研究解決抽取生物醫(yī)學(xué)實(shí)體關(guān)系及其對(duì)應(yīng)生物醫(yī)學(xué)文獻(xiàn)之間關(guān)聯(lián)關(guān)系較弱的問(wèn)題。結(jié)合生物醫(yī)學(xué)文獻(xiàn)主題發(fā)現(xiàn)和關(guān)系抽取兩個(gè)研究領(lǐng)域,提出面向生物醫(yī)學(xué)文獻(xiàn)的主題關(guān)系抽取模型,從文獻(xiàn)中抽取與主題相關(guān)的生物醫(yī)學(xué)文獻(xiàn)
第2章相關(guān)工作簡(jiǎn)介20這就會(huì)導(dǎo)致實(shí)體關(guān)系類數(shù)據(jù)庫(kù)中的數(shù)據(jù)規(guī)模比同期的結(jié)構(gòu)化數(shù)據(jù)庫(kù)的數(shù)據(jù)規(guī)模要校從數(shù)據(jù)庫(kù)獲取數(shù)據(jù)的方式劃分,可以分為自動(dòng)生成式數(shù)據(jù)庫(kù)和專家數(shù)據(jù)庫(kù)。自動(dòng)生成數(shù)據(jù)庫(kù)方法具有較高的效率,可以在沒(méi)有或僅有較少人工監(jiān)督時(shí)處理MEDLINE這種大型文獻(xiàn)數(shù)據(jù)庫(kù)。因此,這種方法可以處理數(shù)量巨大的生物醫(yī)學(xué)文獻(xiàn)和最新發(fā)表的文獻(xiàn),從而獲得大量最新的結(jié)果。此外,通過(guò)使用最新的信息抽取方法可以有效提升這種方法的效果。專家數(shù)據(jù)庫(kù)在準(zhǔn)確度通常會(huì)更加優(yōu)秀。由于生物醫(yī)學(xué)文獻(xiàn)中關(guān)系要求較高的準(zhǔn)確度,使用自動(dòng)生成方法完全替代專家審閱的方式在優(yōu)秀需求下還是很難做到的。通常專家數(shù)據(jù)庫(kù)是由一組領(lǐng)域?qū)<一蝾I(lǐng)域研究人員合作構(gòu)建的方式實(shí)現(xiàn)的。它的效率相比自動(dòng)生成是非常低的,數(shù)據(jù)庫(kù)更新會(huì)較慢。這種方法在接受新的信息較為耗時(shí),因?yàn)樾枰斯⑴c,所以一般只在對(duì)數(shù)據(jù)有非常高的準(zhǔn)確度需求,或數(shù)據(jù)規(guī)模較孝數(shù)據(jù)更新較慢時(shí)使用,F(xiàn)階段的實(shí)體關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)規(guī)模都比較大,顯然已經(jīng)不再依賴專家參與數(shù)據(jù)的構(gòu)建。目前實(shí)體關(guān)系數(shù)據(jù)庫(kù)主要從多個(gè)領(lǐng)域知識(shí)數(shù)據(jù)庫(kù)和生物醫(yī)學(xué)文獻(xiàn)中獲取新的實(shí)體關(guān)系。圖2.1CTD數(shù)據(jù)庫(kù)中實(shí)體關(guān)系類型比較毒理基因組學(xué)數(shù)據(jù)庫(kù)[90](ComparativeToxicogenomicsDatabase,CTD)和DisGeNet[91]是目前仍在更新的實(shí)體關(guān)系數(shù)據(jù)庫(kù)。CTD包含6種類型的生物醫(yī)學(xué)實(shí)體,包括化學(xué)物質(zhì)、表現(xiàn)型、基因、暴露組學(xué)、疾并通路,實(shí)體間關(guān)系如
本文編號(hào):2912730
【文章來(lái)源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:125 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
命名實(shí)體識(shí)別方法
第1章緒論14基于核函數(shù)的方法主要利用文本的結(jié)構(gòu)特征[86]。核函數(shù)方法的理念是量化兩個(gè)實(shí)例之間的相似度。常用的核函數(shù)有詞袋核函數(shù)、淺層語(yǔ)義核函數(shù)、子樹(shù)核函數(shù)、圖核函數(shù)和組合核函數(shù)。1.3本文主要研究?jī)?nèi)容圖1.2本文主要研究?jī)?nèi)容概圖為充分利用生物醫(yī)學(xué)領(lǐng)域文獻(xiàn)和數(shù)據(jù)庫(kù)資源,尤其是MEDLINE及各個(gè)開(kāi)源數(shù)據(jù)庫(kù),本文基于信息抽取技術(shù),探索了從生物醫(yī)學(xué)文獻(xiàn)中抽取生物醫(yī)學(xué)文獻(xiàn)主題關(guān)系并構(gòu)建生物醫(yī)學(xué)知識(shí)網(wǎng)絡(luò)的方法,基于文獻(xiàn)主題關(guān)系與生物醫(yī)學(xué)文獻(xiàn)關(guān)聯(lián)進(jìn)行關(guān)系類文獻(xiàn)檢索研究,開(kāi)發(fā)基于圖神經(jīng)網(wǎng)絡(luò)的實(shí)體關(guān)系發(fā)現(xiàn)模型,運(yùn)用生物醫(yī)學(xué)知識(shí)網(wǎng)絡(luò)輔助文獻(xiàn)中實(shí)體關(guān)系抽齲本文以生物醫(yī)學(xué)領(lǐng)域的實(shí)體關(guān)系抽取研究為主線,旨在從生物醫(yī)學(xué)文獻(xiàn)和生物醫(yī)學(xué)知識(shí)網(wǎng)絡(luò)中發(fā)現(xiàn)潛在生物醫(yī)學(xué)實(shí)體關(guān)系等知識(shí)。首先建立生物醫(yī)學(xué)文獻(xiàn)主題模型,從文獻(xiàn)中抽取文獻(xiàn)主題關(guān)系。進(jìn)而,利用現(xiàn)有生物醫(yī)學(xué)數(shù)據(jù)庫(kù)及生物醫(yī)學(xué)實(shí)體關(guān)系,如主題關(guān)系等,研究構(gòu)建生物醫(yī)學(xué)知識(shí)網(wǎng)絡(luò)方法,建立包含多種類型實(shí)體的生物醫(yī)學(xué)知識(shí)網(wǎng)絡(luò)。研究生物醫(yī)學(xué)知識(shí)網(wǎng)絡(luò)中的實(shí)體關(guān)系發(fā)現(xiàn)方法,分別建立基于鏈路預(yù)測(cè)和基于圖神經(jīng)網(wǎng)絡(luò)的實(shí)體關(guān)系發(fā)現(xiàn)模型,實(shí)現(xiàn)生物醫(yī)學(xué)知識(shí)網(wǎng)絡(luò)中的實(shí)體關(guān)系發(fā)現(xiàn)。本文的主要研究?jī)?nèi)容如下:(1)研究解決抽取生物醫(yī)學(xué)實(shí)體關(guān)系及其對(duì)應(yīng)生物醫(yī)學(xué)文獻(xiàn)之間關(guān)聯(lián)關(guān)系較弱的問(wèn)題。結(jié)合生物醫(yī)學(xué)文獻(xiàn)主題發(fā)現(xiàn)和關(guān)系抽取兩個(gè)研究領(lǐng)域,提出面向生物醫(yī)學(xué)文獻(xiàn)的主題關(guān)系抽取模型,從文獻(xiàn)中抽取與主題相關(guān)的生物醫(yī)學(xué)文獻(xiàn)
第2章相關(guān)工作簡(jiǎn)介20這就會(huì)導(dǎo)致實(shí)體關(guān)系類數(shù)據(jù)庫(kù)中的數(shù)據(jù)規(guī)模比同期的結(jié)構(gòu)化數(shù)據(jù)庫(kù)的數(shù)據(jù)規(guī)模要校從數(shù)據(jù)庫(kù)獲取數(shù)據(jù)的方式劃分,可以分為自動(dòng)生成式數(shù)據(jù)庫(kù)和專家數(shù)據(jù)庫(kù)。自動(dòng)生成數(shù)據(jù)庫(kù)方法具有較高的效率,可以在沒(méi)有或僅有較少人工監(jiān)督時(shí)處理MEDLINE這種大型文獻(xiàn)數(shù)據(jù)庫(kù)。因此,這種方法可以處理數(shù)量巨大的生物醫(yī)學(xué)文獻(xiàn)和最新發(fā)表的文獻(xiàn),從而獲得大量最新的結(jié)果。此外,通過(guò)使用最新的信息抽取方法可以有效提升這種方法的效果。專家數(shù)據(jù)庫(kù)在準(zhǔn)確度通常會(huì)更加優(yōu)秀。由于生物醫(yī)學(xué)文獻(xiàn)中關(guān)系要求較高的準(zhǔn)確度,使用自動(dòng)生成方法完全替代專家審閱的方式在優(yōu)秀需求下還是很難做到的。通常專家數(shù)據(jù)庫(kù)是由一組領(lǐng)域?qū)<一蝾I(lǐng)域研究人員合作構(gòu)建的方式實(shí)現(xiàn)的。它的效率相比自動(dòng)生成是非常低的,數(shù)據(jù)庫(kù)更新會(huì)較慢。這種方法在接受新的信息較為耗時(shí),因?yàn)樾枰斯⑴c,所以一般只在對(duì)數(shù)據(jù)有非常高的準(zhǔn)確度需求,或數(shù)據(jù)規(guī)模較孝數(shù)據(jù)更新較慢時(shí)使用,F(xiàn)階段的實(shí)體關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)規(guī)模都比較大,顯然已經(jīng)不再依賴專家參與數(shù)據(jù)的構(gòu)建。目前實(shí)體關(guān)系數(shù)據(jù)庫(kù)主要從多個(gè)領(lǐng)域知識(shí)數(shù)據(jù)庫(kù)和生物醫(yī)學(xué)文獻(xiàn)中獲取新的實(shí)體關(guān)系。圖2.1CTD數(shù)據(jù)庫(kù)中實(shí)體關(guān)系類型比較毒理基因組學(xué)數(shù)據(jù)庫(kù)[90](ComparativeToxicogenomicsDatabase,CTD)和DisGeNet[91]是目前仍在更新的實(shí)體關(guān)系數(shù)據(jù)庫(kù)。CTD包含6種類型的生物醫(yī)學(xué)實(shí)體,包括化學(xué)物質(zhì)、表現(xiàn)型、基因、暴露組學(xué)、疾并通路,實(shí)體間關(guān)系如
本文編號(hào):2912730
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2912730.html
最近更新
教材專著