生物醫(yī)學文本挖掘若干關鍵技術研究
發(fā)布時間:2021-04-26 22:04
生物醫(yī)學文獻作為學術研究成果的主要載體,現(xiàn)已成為重要的生物醫(yī)學領域資源,為研究提供了豐富的知識來源。結合領域需求,采用有效的文本挖掘技術從海量生物醫(yī)學文獻中自動快速、準確地獲取相關信息,將對生命科學領域的研究產生極大的推動作用。而基于傳統(tǒng)機器學習的文本挖掘方法受淺層模型表示能力的限制,提升空間變得相對有限。近年,隨著基于神經(jīng)網(wǎng)絡的深度學習研究的興起,深度學習在語音、圖像和文本處理上都取得了突破性進展,展示出了潛在的應用價值。為此,本文圍繞基于深度學習方法的生物醫(yī)學文本挖掘關鍵技術,從生物醫(yī)學文本分類、命名實體識別和關系抽取三個任務展開了研究。對于生物醫(yī)學文本分類任務,首先針對在小規(guī)模的生物醫(yī)學領域訓練數(shù)據(jù)上神經(jīng)網(wǎng)絡方法無法充分發(fā)揮其優(yōu)勢的問題,提出了一種神經(jīng)網(wǎng)絡集成的文本分類方法。該方法通過引入相關數(shù)據(jù)預訓練模塊來提升神經(jīng)網(wǎng)絡模型性能,并利用邏輯回歸模型對多個神經(jīng)網(wǎng)絡模型結果進行集成。另一方面,針對目前大多數(shù)神經(jīng)網(wǎng)絡方法未考慮領域知識的問題,提出了一種知識增強的自注意力卷積神經(jīng)網(wǎng)絡方法,通過多通道網(wǎng)絡結構來充分利用領域知識。實驗表明,該方法能夠有效利用生物醫(yī)學實體和概念信息提升神經(jīng)網(wǎng)絡...
【文章來源】:大連理工大學遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:127 頁
【學位級別】:博士
【文章目錄】:
摘要
ABSTRACT
主要符號表
1 緒論
1.1 研究背景與意義
1.2 國內外相關工作研究進展
1.2.1 生物醫(yī)學文本分類研究進展
1.2.2 生物醫(yī)學命名實體識別研究進展
1.2.3 生物醫(yī)學關系抽取研究進展
1.3 本文主要研究思路與內容
2 生物醫(yī)學文本分類
2.1 引言
2.2 相關工作
2.3 基于神經(jīng)網(wǎng)絡集成的生物醫(yī)學文本分類方法
2.3.1 文本預處理
2.3.2 特征表示
2.3.3 神經(jīng)網(wǎng)絡模型
2.3.4 模型集成
2.3.5 實驗與分析
2.4 融合領域知識的生物醫(yī)學文本分類方法
2.4.1 領域知識向量表示
2.4.2 知識增強的自注意力卷積神經(jīng)網(wǎng)絡模型
2.4.3 實驗與分析
2.5 本章小結
3 生物醫(yī)學命名實體識別
3.1 引言
3.2 相關工作
3.2.1 化學藥物實體識別
3.2.2 注意力機制
3.2.3 中文命名實體識別
3.3 基于注意力機制的文檔級化學藥物實體識別方法
3.3.1 特征表示
3.3.2 BiLSTM-CRF模型
3.3.3 Att-BiLSTM-CRF模型
3.3.4 實驗與分析
3.4 基于筆畫ELMo的中文電子病歷命名實體識別方法
3.4.1 基于筆畫的中文ELMo模型
3.4.2 額外特征
3.4.3 神經(jīng)網(wǎng)絡模型
3.4.4 實驗與分析
3.5 本章小結
4 生物醫(yī)學實體和關系聯(lián)合抽取
4.1 引言
4.2 相關工作
4.3 基于神經(jīng)網(wǎng)絡的生物醫(yī)學實體和關系聯(lián)合抽取方法
4.3.1 標注策略
4.3.2 抽取規(guī)則
4.3.3 特征表示
4.3.4 端對端實體關系抽取模型
4.4 實驗與分析
4.4.1 實驗設置
4.4.2 標注策略和抽取規(guī)則對模型性能的影響
4.4.3 ELMo向量對模型性能的影響
4.4.4 與其他方法性能對比
4.4.5 結果樣例分析
4.5 本章小結
5 結論與展望
5.1 結論
5.2 創(chuàng)新點
5.3 展望
參考文獻
攻讀博士學位期間科研項目及科研成果
致謝
作者簡介
【參考文獻】:
期刊論文
[1]深度學習實體關系抽取研究綜述[J]. 鄂海紅,張文靜,肖思琪,程瑞,胡鶯夕,周筱松,牛佩晴. 軟件學報. 2019(06)
[2]基于生物醫(yī)學文獻的化學物質致病關系抽取[J]. 李智恒,桂穎溢,楊志豪,林鴻飛,王健. 計算機研究與發(fā)展. 2018(01)
[3]基于CNN-BLSTM-CRF模型的生物醫(yī)學命名實體識別[J]. 李麗雙,郭元凱. 中文信息學報. 2018(01)
[4]基于深度神經(jīng)網(wǎng)絡的中文命名實體識別[J]. 張海楠,伍大勇,劉悅,程學旗. 中文信息學報. 2017(04)
[5]融合全局詞語邊界特征的中文命名實體識別方法[J]. 劉冰洋,伍大勇,劉欣然,程學旗. 中文信息學報. 2017(02)
[6]利用詞表示和深層神經(jīng)網(wǎng)絡抽取蛋白質關系[J]. 李麗雙,蔣振超,萬佳,黃德根. 中文信息學報. 2017(01)
[7]中文電子病歷命名實體和實體關系語料庫構建[J]. 楊錦鋒,關毅,何彬,曲春燕,于秋濱,劉雅欣,趙永杰. 軟件學報. 2016(11)
[8]MBNER:面向生物醫(yī)學領域的多種實體識別系統(tǒng)[J]. 楊婭,楊志豪,林鴻飛,宮本東,王健. 中文信息學報. 2016(01)
[9]基于特征耦合泛化的藥名實體識別[J]. 何林娜,楊志豪,林鴻飛,李彥鵬,唐利娟. 中文信息學報. 2014(02)
[10]基于啟發(fā)式規(guī)則的中文化學物質命名識別研究[J]. 李楠,鄭榮廷,吉久明,滕青青. 現(xiàn)代圖書情報技術. 2010(05)
本文編號:3162197
【文章來源】:大連理工大學遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:127 頁
【學位級別】:博士
【文章目錄】:
摘要
ABSTRACT
主要符號表
1 緒論
1.1 研究背景與意義
1.2 國內外相關工作研究進展
1.2.1 生物醫(yī)學文本分類研究進展
1.2.2 生物醫(yī)學命名實體識別研究進展
1.2.3 生物醫(yī)學關系抽取研究進展
1.3 本文主要研究思路與內容
2 生物醫(yī)學文本分類
2.1 引言
2.2 相關工作
2.3 基于神經(jīng)網(wǎng)絡集成的生物醫(yī)學文本分類方法
2.3.1 文本預處理
2.3.2 特征表示
2.3.3 神經(jīng)網(wǎng)絡模型
2.3.4 模型集成
2.3.5 實驗與分析
2.4 融合領域知識的生物醫(yī)學文本分類方法
2.4.1 領域知識向量表示
2.4.2 知識增強的自注意力卷積神經(jīng)網(wǎng)絡模型
2.4.3 實驗與分析
2.5 本章小結
3 生物醫(yī)學命名實體識別
3.1 引言
3.2 相關工作
3.2.1 化學藥物實體識別
3.2.2 注意力機制
3.2.3 中文命名實體識別
3.3 基于注意力機制的文檔級化學藥物實體識別方法
3.3.1 特征表示
3.3.2 BiLSTM-CRF模型
3.3.3 Att-BiLSTM-CRF模型
3.3.4 實驗與分析
3.4 基于筆畫ELMo的中文電子病歷命名實體識別方法
3.4.1 基于筆畫的中文ELMo模型
3.4.2 額外特征
3.4.3 神經(jīng)網(wǎng)絡模型
3.4.4 實驗與分析
3.5 本章小結
4 生物醫(yī)學實體和關系聯(lián)合抽取
4.1 引言
4.2 相關工作
4.3 基于神經(jīng)網(wǎng)絡的生物醫(yī)學實體和關系聯(lián)合抽取方法
4.3.1 標注策略
4.3.2 抽取規(guī)則
4.3.3 特征表示
4.3.4 端對端實體關系抽取模型
4.4 實驗與分析
4.4.1 實驗設置
4.4.2 標注策略和抽取規(guī)則對模型性能的影響
4.4.3 ELMo向量對模型性能的影響
4.4.4 與其他方法性能對比
4.4.5 結果樣例分析
4.5 本章小結
5 結論與展望
5.1 結論
5.2 創(chuàng)新點
5.3 展望
參考文獻
攻讀博士學位期間科研項目及科研成果
致謝
作者簡介
【參考文獻】:
期刊論文
[1]深度學習實體關系抽取研究綜述[J]. 鄂海紅,張文靜,肖思琪,程瑞,胡鶯夕,周筱松,牛佩晴. 軟件學報. 2019(06)
[2]基于生物醫(yī)學文獻的化學物質致病關系抽取[J]. 李智恒,桂穎溢,楊志豪,林鴻飛,王健. 計算機研究與發(fā)展. 2018(01)
[3]基于CNN-BLSTM-CRF模型的生物醫(yī)學命名實體識別[J]. 李麗雙,郭元凱. 中文信息學報. 2018(01)
[4]基于深度神經(jīng)網(wǎng)絡的中文命名實體識別[J]. 張海楠,伍大勇,劉悅,程學旗. 中文信息學報. 2017(04)
[5]融合全局詞語邊界特征的中文命名實體識別方法[J]. 劉冰洋,伍大勇,劉欣然,程學旗. 中文信息學報. 2017(02)
[6]利用詞表示和深層神經(jīng)網(wǎng)絡抽取蛋白質關系[J]. 李麗雙,蔣振超,萬佳,黃德根. 中文信息學報. 2017(01)
[7]中文電子病歷命名實體和實體關系語料庫構建[J]. 楊錦鋒,關毅,何彬,曲春燕,于秋濱,劉雅欣,趙永杰. 軟件學報. 2016(11)
[8]MBNER:面向生物醫(yī)學領域的多種實體識別系統(tǒng)[J]. 楊婭,楊志豪,林鴻飛,宮本東,王健. 中文信息學報. 2016(01)
[9]基于特征耦合泛化的藥名實體識別[J]. 何林娜,楊志豪,林鴻飛,李彥鵬,唐利娟. 中文信息學報. 2014(02)
[10]基于啟發(fā)式規(guī)則的中文化學物質命名識別研究[J]. 李楠,鄭榮廷,吉久明,滕青青. 現(xiàn)代圖書情報技術. 2010(05)
本文編號:3162197
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3162197.html
最近更新
教材專著