生物醫(yī)學(xué)文本挖掘若干關(guān)鍵技術(shù)研究
發(fā)布時(shí)間:2021-04-26 22:04
生物醫(yī)學(xué)文獻(xiàn)作為學(xué)術(shù)研究成果的主要載體,現(xiàn)已成為重要的生物醫(yī)學(xué)領(lǐng)域資源,為研究提供了豐富的知識(shí)來(lái)源。結(jié)合領(lǐng)域需求,采用有效的文本挖掘技術(shù)從海量生物醫(yī)學(xué)文獻(xiàn)中自動(dòng)快速、準(zhǔn)確地獲取相關(guān)信息,將對(duì)生命科學(xué)領(lǐng)域的研究產(chǎn)生極大的推動(dòng)作用。而基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本挖掘方法受淺層模型表示能力的限制,提升空間變得相對(duì)有限。近年,隨著基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)研究的興起,深度學(xué)習(xí)在語(yǔ)音、圖像和文本處理上都取得了突破性進(jìn)展,展示出了潛在的應(yīng)用價(jià)值。為此,本文圍繞基于深度學(xué)習(xí)方法的生物醫(yī)學(xué)文本挖掘關(guān)鍵技術(shù),從生物醫(yī)學(xué)文本分類、命名實(shí)體識(shí)別和關(guān)系抽取三個(gè)任務(wù)展開(kāi)了研究。對(duì)于生物醫(yī)學(xué)文本分類任務(wù),首先針對(duì)在小規(guī)模的生物醫(yī)學(xué)領(lǐng)域訓(xùn)練數(shù)據(jù)上神經(jīng)網(wǎng)絡(luò)方法無(wú)法充分發(fā)揮其優(yōu)勢(shì)的問(wèn)題,提出了一種神經(jīng)網(wǎng)絡(luò)集成的文本分類方法。該方法通過(guò)引入相關(guān)數(shù)據(jù)預(yù)訓(xùn)練模塊來(lái)提升神經(jīng)網(wǎng)絡(luò)模型性能,并利用邏輯回歸模型對(duì)多個(gè)神經(jīng)網(wǎng)絡(luò)模型結(jié)果進(jìn)行集成。另一方面,針對(duì)目前大多數(shù)神經(jīng)網(wǎng)絡(luò)方法未考慮領(lǐng)域知識(shí)的問(wèn)題,提出了一種知識(shí)增強(qiáng)的自注意力卷積神經(jīng)網(wǎng)絡(luò)方法,通過(guò)多通道網(wǎng)絡(luò)結(jié)構(gòu)來(lái)充分利用領(lǐng)域知識(shí)。實(shí)驗(yàn)表明,該方法能夠有效利用生物醫(yī)學(xué)實(shí)體和概念信息提升神經(jīng)網(wǎng)絡(luò)...
【文章來(lái)源】:大連理工大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:127 頁(yè)
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
ABSTRACT
主要符號(hào)表
1 緒論
1.1 研究背景與意義
1.2 國(guó)內(nèi)外相關(guān)工作研究進(jìn)展
1.2.1 生物醫(yī)學(xué)文本分類研究進(jìn)展
1.2.2 生物醫(yī)學(xué)命名實(shí)體識(shí)別研究進(jìn)展
1.2.3 生物醫(yī)學(xué)關(guān)系抽取研究進(jìn)展
1.3 本文主要研究思路與內(nèi)容
2 生物醫(yī)學(xué)文本分類
2.1 引言
2.2 相關(guān)工作
2.3 基于神經(jīng)網(wǎng)絡(luò)集成的生物醫(yī)學(xué)文本分類方法
2.3.1 文本預(yù)處理
2.3.2 特征表示
2.3.3 神經(jīng)網(wǎng)絡(luò)模型
2.3.4 模型集成
2.3.5 實(shí)驗(yàn)與分析
2.4 融合領(lǐng)域知識(shí)的生物醫(yī)學(xué)文本分類方法
2.4.1 領(lǐng)域知識(shí)向量表示
2.4.2 知識(shí)增強(qiáng)的自注意力卷積神經(jīng)網(wǎng)絡(luò)模型
2.4.3 實(shí)驗(yàn)與分析
2.5 本章小結(jié)
3 生物醫(yī)學(xué)命名實(shí)體識(shí)別
3.1 引言
3.2 相關(guān)工作
3.2.1 化學(xué)藥物實(shí)體識(shí)別
3.2.2 注意力機(jī)制
3.2.3 中文命名實(shí)體識(shí)別
3.3 基于注意力機(jī)制的文檔級(jí)化學(xué)藥物實(shí)體識(shí)別方法
3.3.1 特征表示
3.3.2 BiLSTM-CRF模型
3.3.3 Att-BiLSTM-CRF模型
3.3.4 實(shí)驗(yàn)與分析
3.4 基于筆畫(huà)ELMo的中文電子病歷命名實(shí)體識(shí)別方法
3.4.1 基于筆畫(huà)的中文ELMo模型
3.4.2 額外特征
3.4.3 神經(jīng)網(wǎng)絡(luò)模型
3.4.4 實(shí)驗(yàn)與分析
3.5 本章小結(jié)
4 生物醫(yī)學(xué)實(shí)體和關(guān)系聯(lián)合抽取
4.1 引言
4.2 相關(guān)工作
4.3 基于神經(jīng)網(wǎng)絡(luò)的生物醫(yī)學(xué)實(shí)體和關(guān)系聯(lián)合抽取方法
4.3.1 標(biāo)注策略
4.3.2 抽取規(guī)則
4.3.3 特征表示
4.3.4 端對(duì)端實(shí)體關(guān)系抽取模型
4.4 實(shí)驗(yàn)與分析
4.4.1 實(shí)驗(yàn)設(shè)置
4.4.2 標(biāo)注策略和抽取規(guī)則對(duì)模型性能的影響
4.4.3 ELMo向量對(duì)模型性能的影響
4.4.4 與其他方法性能對(duì)比
4.4.5 結(jié)果樣例分析
4.5 本章小結(jié)
5 結(jié)論與展望
5.1 結(jié)論
5.2 創(chuàng)新點(diǎn)
5.3 展望
參考文獻(xiàn)
攻讀博士學(xué)位期間科研項(xiàng)目及科研成果
致謝
作者簡(jiǎn)介
【參考文獻(xiàn)】:
期刊論文
[1]深度學(xué)習(xí)實(shí)體關(guān)系抽取研究綜述[J]. 鄂海紅,張文靜,肖思琪,程瑞,胡鶯夕,周筱松,牛佩晴. 軟件學(xué)報(bào). 2019(06)
[2]基于生物醫(yī)學(xué)文獻(xiàn)的化學(xué)物質(zhì)致病關(guān)系抽取[J]. 李智恒,桂穎溢,楊志豪,林鴻飛,王健. 計(jì)算機(jī)研究與發(fā)展. 2018(01)
[3]基于CNN-BLSTM-CRF模型的生物醫(yī)學(xué)命名實(shí)體識(shí)別[J]. 李麗雙,郭元?jiǎng)P. 中文信息學(xué)報(bào). 2018(01)
[4]基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別[J]. 張海楠,伍大勇,劉悅,程學(xué)旗. 中文信息學(xué)報(bào). 2017(04)
[5]融合全局詞語(yǔ)邊界特征的中文命名實(shí)體識(shí)別方法[J]. 劉冰洋,伍大勇,劉欣然,程學(xué)旗. 中文信息學(xué)報(bào). 2017(02)
[6]利用詞表示和深層神經(jīng)網(wǎng)絡(luò)抽取蛋白質(zhì)關(guān)系[J]. 李麗雙,蔣振超,萬(wàn)佳,黃德根. 中文信息學(xué)報(bào). 2017(01)
[7]中文電子病歷命名實(shí)體和實(shí)體關(guān)系語(yǔ)料庫(kù)構(gòu)建[J]. 楊錦鋒,關(guān)毅,何彬,曲春燕,于秋濱,劉雅欣,趙永杰. 軟件學(xué)報(bào). 2016(11)
[8]MBNER:面向生物醫(yī)學(xué)領(lǐng)域的多種實(shí)體識(shí)別系統(tǒng)[J]. 楊婭,楊志豪,林鴻飛,宮本東,王健. 中文信息學(xué)報(bào). 2016(01)
[9]基于特征耦合泛化的藥名實(shí)體識(shí)別[J]. 何林娜,楊志豪,林鴻飛,李彥鵬,唐利娟. 中文信息學(xué)報(bào). 2014(02)
[10]基于啟發(fā)式規(guī)則的中文化學(xué)物質(zhì)命名識(shí)別研究[J]. 李楠,鄭榮廷,吉久明,滕青青. 現(xiàn)代圖書(shū)情報(bào)技術(shù). 2010(05)
本文編號(hào):3162197
【文章來(lái)源】:大連理工大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:127 頁(yè)
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
ABSTRACT
主要符號(hào)表
1 緒論
1.1 研究背景與意義
1.2 國(guó)內(nèi)外相關(guān)工作研究進(jìn)展
1.2.1 生物醫(yī)學(xué)文本分類研究進(jìn)展
1.2.2 生物醫(yī)學(xué)命名實(shí)體識(shí)別研究進(jìn)展
1.2.3 生物醫(yī)學(xué)關(guān)系抽取研究進(jìn)展
1.3 本文主要研究思路與內(nèi)容
2 生物醫(yī)學(xué)文本分類
2.1 引言
2.2 相關(guān)工作
2.3 基于神經(jīng)網(wǎng)絡(luò)集成的生物醫(yī)學(xué)文本分類方法
2.3.1 文本預(yù)處理
2.3.2 特征表示
2.3.3 神經(jīng)網(wǎng)絡(luò)模型
2.3.4 模型集成
2.3.5 實(shí)驗(yàn)與分析
2.4 融合領(lǐng)域知識(shí)的生物醫(yī)學(xué)文本分類方法
2.4.1 領(lǐng)域知識(shí)向量表示
2.4.2 知識(shí)增強(qiáng)的自注意力卷積神經(jīng)網(wǎng)絡(luò)模型
2.4.3 實(shí)驗(yàn)與分析
2.5 本章小結(jié)
3 生物醫(yī)學(xué)命名實(shí)體識(shí)別
3.1 引言
3.2 相關(guān)工作
3.2.1 化學(xué)藥物實(shí)體識(shí)別
3.2.2 注意力機(jī)制
3.2.3 中文命名實(shí)體識(shí)別
3.3 基于注意力機(jī)制的文檔級(jí)化學(xué)藥物實(shí)體識(shí)別方法
3.3.1 特征表示
3.3.2 BiLSTM-CRF模型
3.3.3 Att-BiLSTM-CRF模型
3.3.4 實(shí)驗(yàn)與分析
3.4 基于筆畫(huà)ELMo的中文電子病歷命名實(shí)體識(shí)別方法
3.4.1 基于筆畫(huà)的中文ELMo模型
3.4.2 額外特征
3.4.3 神經(jīng)網(wǎng)絡(luò)模型
3.4.4 實(shí)驗(yàn)與分析
3.5 本章小結(jié)
4 生物醫(yī)學(xué)實(shí)體和關(guān)系聯(lián)合抽取
4.1 引言
4.2 相關(guān)工作
4.3 基于神經(jīng)網(wǎng)絡(luò)的生物醫(yī)學(xué)實(shí)體和關(guān)系聯(lián)合抽取方法
4.3.1 標(biāo)注策略
4.3.2 抽取規(guī)則
4.3.3 特征表示
4.3.4 端對(duì)端實(shí)體關(guān)系抽取模型
4.4 實(shí)驗(yàn)與分析
4.4.1 實(shí)驗(yàn)設(shè)置
4.4.2 標(biāo)注策略和抽取規(guī)則對(duì)模型性能的影響
4.4.3 ELMo向量對(duì)模型性能的影響
4.4.4 與其他方法性能對(duì)比
4.4.5 結(jié)果樣例分析
4.5 本章小結(jié)
5 結(jié)論與展望
5.1 結(jié)論
5.2 創(chuàng)新點(diǎn)
5.3 展望
參考文獻(xiàn)
攻讀博士學(xué)位期間科研項(xiàng)目及科研成果
致謝
作者簡(jiǎn)介
【參考文獻(xiàn)】:
期刊論文
[1]深度學(xué)習(xí)實(shí)體關(guān)系抽取研究綜述[J]. 鄂海紅,張文靜,肖思琪,程瑞,胡鶯夕,周筱松,牛佩晴. 軟件學(xué)報(bào). 2019(06)
[2]基于生物醫(yī)學(xué)文獻(xiàn)的化學(xué)物質(zhì)致病關(guān)系抽取[J]. 李智恒,桂穎溢,楊志豪,林鴻飛,王健. 計(jì)算機(jī)研究與發(fā)展. 2018(01)
[3]基于CNN-BLSTM-CRF模型的生物醫(yī)學(xué)命名實(shí)體識(shí)別[J]. 李麗雙,郭元?jiǎng)P. 中文信息學(xué)報(bào). 2018(01)
[4]基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別[J]. 張海楠,伍大勇,劉悅,程學(xué)旗. 中文信息學(xué)報(bào). 2017(04)
[5]融合全局詞語(yǔ)邊界特征的中文命名實(shí)體識(shí)別方法[J]. 劉冰洋,伍大勇,劉欣然,程學(xué)旗. 中文信息學(xué)報(bào). 2017(02)
[6]利用詞表示和深層神經(jīng)網(wǎng)絡(luò)抽取蛋白質(zhì)關(guān)系[J]. 李麗雙,蔣振超,萬(wàn)佳,黃德根. 中文信息學(xué)報(bào). 2017(01)
[7]中文電子病歷命名實(shí)體和實(shí)體關(guān)系語(yǔ)料庫(kù)構(gòu)建[J]. 楊錦鋒,關(guān)毅,何彬,曲春燕,于秋濱,劉雅欣,趙永杰. 軟件學(xué)報(bào). 2016(11)
[8]MBNER:面向生物醫(yī)學(xué)領(lǐng)域的多種實(shí)體識(shí)別系統(tǒng)[J]. 楊婭,楊志豪,林鴻飛,宮本東,王健. 中文信息學(xué)報(bào). 2016(01)
[9]基于特征耦合泛化的藥名實(shí)體識(shí)別[J]. 何林娜,楊志豪,林鴻飛,李彥鵬,唐利娟. 中文信息學(xué)報(bào). 2014(02)
[10]基于啟發(fā)式規(guī)則的中文化學(xué)物質(zhì)命名識(shí)別研究[J]. 李楠,鄭榮廷,吉久明,滕青青. 現(xiàn)代圖書(shū)情報(bào)技術(shù). 2010(05)
本文編號(hào):3162197
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3162197.html
最近更新
教材專著