基于文本挖掘的生物事件抽取關鍵問題研究
發(fā)布時間:2023-04-04 23:25
生物事件抽取以結構化的形式呈現(xiàn)了海量生物醫(yī)學文獻中生物分子之間潛在的細粒度復雜關系,廣泛地應用于系統(tǒng)生物學領域,為疾病的診斷、預防、治療以及新藥的研發(fā)和生命科學研究提供了重要的依據(jù)。一個完整的生物事件由觸發(fā)事件發(fā)生的觸發(fā)詞以及事件的參與者(要素)組成。觸發(fā)詞的類別決定著整個生物事件的類別,同時觸發(fā)詞識別的性能直接影響著要素檢測的性能,所以觸發(fā)詞識別是生物事件抽取的核心任務。而要素檢測用于識別事件的參與者,進而構成完整的生物事件,對于事件的生成具有重要意義。因此,本文圍繞生物事件抽取中的關鍵問題——觸發(fā)詞識別和要素檢測展開研究,主要內(nèi)容如下:對于基于統(tǒng)計機器學習方法的觸發(fā)詞識別,提出了一種基于兩階段和特征選擇的識別方法。該方法將觸發(fā)詞識別分為兩個階段。在第一階段中,僅判斷當前詞是否為觸發(fā)詞;在第二階段中,對預測的觸發(fā)詞正例判定具體的觸發(fā)詞類型。兩階段方法將較為復雜的分類問題分解為兩個相對簡單的子問題,降低了問題的難度,同時對語料中存在的類不平衡問題具有一定的緩解作用,提升了觸發(fā)詞的識別性能。此外,本文通過特征選擇算法為不同階段選擇適合的特征,進一步提升了每個階段的分類性能。該方法在多個生...
【文章頁數(shù)】:127 頁
【學位級別】:博士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 研究背景與意義
1.2 研究現(xiàn)狀和存在的問題
1.2.1 基于傳統(tǒng)方法的觸發(fā)詞識別研究現(xiàn)狀
1.2.2 基于傳統(tǒng)方法的要素檢測研究現(xiàn)狀
1.2.3 基于傳統(tǒng)方法的事件抽取研究現(xiàn)狀
1.2.4 基于深度學習方法的相關研究
1.2.5 存在的問題
1.3 主要研究思路與內(nèi)容
2 基于兩階段和特征選擇的觸發(fā)詞識別
2.1 生物事件觸發(fā)詞識別的相關研究
2.1.1 生物事件觸發(fā)詞識別任務
2.1.2 基于統(tǒng)計機器學習的生物事件觸發(fā)詞識別相關研究
2.2 基于兩階段和特征選擇的觸發(fā)詞識別模型
2.2.1 文本預處理
2.2.2 過濾負例
2.2.3 特征選擇
2.2.4 觸發(fā)詞識別
2.2.5 觸發(fā)詞分類
2.3 實驗與分析
2.3.1 實驗數(shù)據(jù)
2.3.2 評價方法
2.3.3 參數(shù)選擇
2.3.4 實驗結果與分析
2.3.5 與其他方法的性能比較
2.3.6 其他語料的觸發(fā)詞識別性能分析
2.4 本章小結
3 基于句子向量和詞級注意力機制的觸發(fā)詞識別
3.1 基于深度學習的生物事件觸發(fā)詞識別研究
3.2 輸入數(shù)據(jù)的向量表示
3.2.1 依存詞向量
3.2.2 句子向量
3.3 基于句子向量和詞級注意力的觸發(fā)詞識別
3.3.1 實例構建
3.3.2 LSTM神經(jīng)網(wǎng)絡
3.3.3 基于句子向量和讀入門的BLSTM模型
3.3.4 融合詞級注意力的BLSTM模型
3.3.5 訓練和分類
3.3.6 實驗與分析
3.4 基于SE-Att-BLSTM和兩階段的觸發(fā)詞識別
3.4.1 實例構建
3.4.2 兩階段SE-Att-BLSTM方法
3.4.3 實驗與分析
3.5 本章小結
4 基于多級注意力機制的要素檢測及事件構成
4.1 生物事件要素檢測相關研究
4.1.1 生物事件要素檢測任務
4.1.2 生物事件要素檢測研究現(xiàn)狀分析
4.2 基于BLSTM和多級注意力機制的要素檢測
4.2.1 簡單生物事件的要素檢測
4.2.2 復雜生物事件的要素檢測
4.2.3 多級注意力機制
4.2.4 訓練和分類
4.3 生物事件構成
4.3.1 生物事件抽取流程
4.3.2 生物事件后處理
4.4 實驗及分析
4.4.1 實驗設定
4.4.2 實驗性能分析
4.4.3 與其他方法的性能比較
4.5 本章小結
5 結論與展望
5.1 結論
5.2 創(chuàng)新點
5.3 展望
參考文獻
攻讀博士學位期間科研項目及科研成果
致謝
作者簡介
本文編號:3782259
【文章頁數(shù)】:127 頁
【學位級別】:博士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 研究背景與意義
1.2 研究現(xiàn)狀和存在的問題
1.2.1 基于傳統(tǒng)方法的觸發(fā)詞識別研究現(xiàn)狀
1.2.2 基于傳統(tǒng)方法的要素檢測研究現(xiàn)狀
1.2.3 基于傳統(tǒng)方法的事件抽取研究現(xiàn)狀
1.2.4 基于深度學習方法的相關研究
1.2.5 存在的問題
1.3 主要研究思路與內(nèi)容
2 基于兩階段和特征選擇的觸發(fā)詞識別
2.1 生物事件觸發(fā)詞識別的相關研究
2.1.1 生物事件觸發(fā)詞識別任務
2.1.2 基于統(tǒng)計機器學習的生物事件觸發(fā)詞識別相關研究
2.2 基于兩階段和特征選擇的觸發(fā)詞識別模型
2.2.1 文本預處理
2.2.2 過濾負例
2.2.3 特征選擇
2.2.4 觸發(fā)詞識別
2.2.5 觸發(fā)詞分類
2.3 實驗與分析
2.3.1 實驗數(shù)據(jù)
2.3.2 評價方法
2.3.3 參數(shù)選擇
2.3.4 實驗結果與分析
2.3.5 與其他方法的性能比較
2.3.6 其他語料的觸發(fā)詞識別性能分析
2.4 本章小結
3 基于句子向量和詞級注意力機制的觸發(fā)詞識別
3.1 基于深度學習的生物事件觸發(fā)詞識別研究
3.2 輸入數(shù)據(jù)的向量表示
3.2.1 依存詞向量
3.2.2 句子向量
3.3 基于句子向量和詞級注意力的觸發(fā)詞識別
3.3.1 實例構建
3.3.2 LSTM神經(jīng)網(wǎng)絡
3.3.3 基于句子向量和讀入門的BLSTM模型
3.3.4 融合詞級注意力的BLSTM模型
3.3.5 訓練和分類
3.3.6 實驗與分析
3.4 基于SE-Att-BLSTM和兩階段的觸發(fā)詞識別
3.4.1 實例構建
3.4.2 兩階段SE-Att-BLSTM方法
3.4.3 實驗與分析
3.5 本章小結
4 基于多級注意力機制的要素檢測及事件構成
4.1 生物事件要素檢測相關研究
4.1.1 生物事件要素檢測任務
4.1.2 生物事件要素檢測研究現(xiàn)狀分析
4.2 基于BLSTM和多級注意力機制的要素檢測
4.2.1 簡單生物事件的要素檢測
4.2.2 復雜生物事件的要素檢測
4.2.3 多級注意力機制
4.2.4 訓練和分類
4.3 生物事件構成
4.3.1 生物事件抽取流程
4.3.2 生物事件后處理
4.4 實驗及分析
4.4.1 實驗設定
4.4.2 實驗性能分析
4.4.3 與其他方法的性能比較
4.5 本章小結
5 結論與展望
5.1 結論
5.2 創(chuàng)新點
5.3 展望
參考文獻
攻讀博士學位期間科研項目及科研成果
致謝
作者簡介
本文編號:3782259
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3782259.html
最近更新
教材專著