面向生物醫(yī)學(xué)文本之疾病關(guān)系發(fā)掘模型及算法研究,醫(yī)學(xué)畢業(yè)論文
1 緒論
生物醫(yī)學(xué)研究與二十一世紀(jì)生物技術(shù)科學(xué)的形成和發(fā)展密切相關(guān),生物醫(yī)學(xué)領(lǐng)域是關(guān)系到提高醫(yī)療診斷水平和人類自身健康的重要工程領(lǐng)域。作為最受關(guān)注的研究領(lǐng)域之一,生物醫(yī)學(xué)研究領(lǐng)域發(fā)表了巨量的研究論文,已經(jīng)達(dá)到年均60萬篇以上。生物醫(yī)學(xué)領(lǐng)域的文獻記錄展現(xiàn)了該領(lǐng)域內(nèi)的大量成果和實驗發(fā)現(xiàn)。面對數(shù)量如此巨大且快速增長的文獻,如何快速有效地獲取相關(guān)知識,是該領(lǐng)域所面臨的挑戰(zhàn)。生物醫(yī)學(xué)文本挖掘技術(shù)作為生物信息學(xué)分支之一,是一項高效自動地獲取相關(guān)知識的新探索,近年來取得了較大進展。國際上生物醫(yī)學(xué)領(lǐng)域的權(quán)威數(shù)據(jù)庫MEDLINE(Medical Literature Analysis andRetrieval System Online)的文獻總數(shù)目前已超過1800萬篇,這些文本中所蘊含的生物醫(yī)學(xué)知識是對海量的生物醫(yī)學(xué)數(shù)據(jù)進行分析的知識寶庫。但是通過關(guān)鍵詞在MEDLINE中或者互聯(lián)網(wǎng)上進行檢索,只能從大量文檔集合中找到相關(guān)的文件列表,這些文本中所蘊含的大量知識并不能直接展現(xiàn)給用戶。因此,提供從大規(guī)模生物醫(yī)學(xué)文獻中自動獲取相關(guān)知識的有效工具是一項迫在眉睫的任務(wù)。生物醫(yī)學(xué)文本挖掘技術(shù)通常涉及到信息檢索、信息抽取、數(shù)據(jù)挖掘、文本分類、假設(shè)生成以及自動文摘等技術(shù)。信息檢索用于識別相關(guān)文本。信息抽取用于識別實體、關(guān)系、事件等信息。數(shù)據(jù)挖掘則從結(jié)構(gòu)化信息中識別出相互間的關(guān)聯(lián)[1]。文本分類用于將海量的文本按照用戶篩選粒度的大小進行快速的分類。假設(shè)生成可以從文獻中挖掘出實驗條件和實驗結(jié)果,便于生物學(xué)家通過生物實驗進行驗證。自動文摘是計算機自動在大量文獻中對用戶感興趣的信息進行摘要,節(jié)省研究者閱讀的時間,在有限的文摘中展現(xiàn)用戶需要的知識。
.........
2 生物醫(yī)學(xué)命名實體識別方法
2.1 引言
生物醫(yī)學(xué)領(lǐng)域文獻數(shù)量的快速增長促進了文本挖掘的應(yīng)用。生物醫(yī)學(xué)命名實體識別任務(wù)做為其他挖掘任務(wù)如人類基因/蛋白質(zhì)標(biāo)準(zhǔn)化、關(guān)系抽取和假設(shè)生成的關(guān)鍵步驟,面臨著很大的挑戰(zhàn)。目前,命名實體識別在生物醫(yī)學(xué)領(lǐng)域和新聞領(lǐng)域存在著巨大的差距。新聞領(lǐng)域中命名實體識別系統(tǒng)可以達(dá)到96%的F值[78],,而在生物醫(yī)學(xué)領(lǐng)域中,最好的結(jié)果介于75%和85%之間[1]。生物醫(yī)學(xué)文獻中書寫的不規(guī)范性、縮寫詞、描述習(xí)慣等問題導(dǎo)致生物醫(yī)學(xué)命名識別存在很大的困難。當(dāng)前用于生物醫(yī)學(xué)命名實體識別任務(wù)的方法分為三大類。主要有基于詞典的方法[79]、基于規(guī)則的方法和基于統(tǒng)計的機器學(xué)習(xí)方法[80]。采用基于詞典的方法直接對文本進行匹配簡單而精確,但是由于詞典的容量有限,導(dǎo)致召回率很低。基于規(guī)則的方法依賴于領(lǐng)域?qū)<业闹R,并且不適于移植到其他的命名實體類型和領(lǐng)域。機器學(xué)習(xí)方法在自然語言處理任務(wù)中取得了良好的表現(xiàn)。機器學(xué)習(xí)方法能夠識別出標(biāo)準(zhǔn)詞典中不包含的隱藏的生物醫(yī)學(xué)實體。
2.2 基于雙層模型的實體識別方法
本章將生物命名實體識別分為兩個任務(wù):實體邊界探測和語義標(biāo)識。在探測實體的邊界階段,將所有的實體都識別為一種類型。在語義標(biāo)識階段,將第一階段識別到的實體分別識別為具體的實體類型。為了提高精確率和召回率,本章在兩個階段都對特征集合進行了探索。半馬爾科夫條件隨機場模型通過Viterbi的動態(tài)規(guī)劃算法求取結(jié)果。Viterbi 算法是一種尋找隱藏狀態(tài)的最佳序列的動態(tài)規(guī)劃算法。本章對基于條件隨機場和半馬爾科夫條件隨機場的雙層模型在每一層都進行了詳細(xì)的實驗對比。本節(jié)介紹了條件隨機場和半馬爾科夫條件隨機場的定義,并對實體識別方法進行了描述。
3 基于文本發(fā)現(xiàn)的疾病本體標(biāo)注...........41
3.1 引言..................41
3.2 疾病本體標(biāo)注方法..................43
3.3 結(jié)果與討論.....................50
3.4 本章小結(jié)..........................56
4 基于文本發(fā)現(xiàn)的疾病語義關(guān)系挖掘...........58
4.1 引言.................................58
4.2 疾病語義關(guān)系挖掘方法.......................60
5 生物醫(yī)學(xué)文本中疾病網(wǎng)絡(luò)的假設(shè)生成...........68
5.1 引言.............................68
5.2 基于文本分類和概念共現(xiàn)的假設(shè)生成方法 ................70
5 生物醫(yī)學(xué)文本中疾病網(wǎng)絡(luò)的假設(shè)生成
5.1 引言
隨著科技水平的不斷提高,科研方向逐漸細(xì)分,科研領(lǐng)域更加面向?qū)I(yè)化,科技文獻的數(shù)量也在快速增長,大量的潛在關(guān)聯(lián)關(guān)系隱藏在表面上看來沒有任何聯(lián)系的文獻中。另外,文獻的數(shù)量過大,對文獻進行人工分析具備不完備性和參考數(shù)量有限的問題。因此,事實上存在著有些知識隱含在文獻中不為人們認(rèn)識!盎谖墨I的假設(shè)生成”揭示蘊含于公開發(fā)表的文獻中但尚未被人們認(rèn)識或發(fā)覺的知識片段間的邏輯聯(lián)系,提出知識假設(shè)供專業(yè)研究人員進一步證實[100]。Swanson 教授在 1987 年提出在科學(xué)文獻中存在著無意的邏輯關(guān)聯(lián),這種關(guān)聯(lián)往往揭示了潛在的新知識,而參考文獻引用或者數(shù)目線索并沒有對這種關(guān)聯(lián)進行標(biāo)識[53]。Swanson 教授發(fā)現(xiàn) 25 篇文獻記載了食用魚油引起一定的血液變化,34 篇文獻記錄了相似的血液變化可以改善雷諾氏。≧aynaud's disease)。通過這兩組文獻,可以隱含的推理出食用魚油可能對雷諾氏病人有益。而在此之前,關(guān)于食用魚油與雷諾氏病之間的假設(shè)沒有被任何文獻明確記載。
5.2 基于文本分類和概念共現(xiàn)的假設(shè)生成方法
由于 LDA 中的似然函數(shù)無法直接計算但可以用隱含變量表示,采用 EM 算法來計算極大似然估計計算出 α 和 β 的值。先用 EM 算法隨機給每個參數(shù)賦值,然后迭代的執(zhí)行兩個步驟 E-STEP 和 M-STEP。在 E-STEP,EM 算法計算出期望的似然函數(shù)。在 M-STEP,EM 算法重新估計參數(shù)值,按照最大化似然函數(shù)的標(biāo)準(zhǔn),多次迭代直到收斂為止。普通的文本分類技術(shù)對于豐富的上下文信息和領(lǐng)域知識并沒有考慮,文本的分類效果并不好。使用帶有語義的主題模型將未標(biāo)注文本的領(lǐng)域知識轉(zhuǎn)化成富含語義的核平滑矩陣有助于改善分類結(jié)果。目前生物醫(yī)學(xué)文本的命名實體識別、關(guān)系抽取和假設(shè)生成等問題都受制于已標(biāo)注語料集的缺乏。另外,由于語料集的規(guī)模有限,單個句子僅包含很小比例的特征,那么往往會造成訓(xùn)練集向量的稀疏。充分挖掘詞語上下文的相似性可以改進分類的性能,我們從未標(biāo)注的語料集中收集上下文數(shù)據(jù),并通過語義核進行合并。
.......
6 結(jié)論與展望
本研究運用機器學(xué)習(xí)方法,采用本體標(biāo)注方法對實體進行標(biāo)準(zhǔn)化,建立基于文本的網(wǎng)絡(luò)之后抽取有向子圖計算概念之間的相似度,利用基于語義的概念共現(xiàn)方法對概念之間的關(guān)系進行預(yù)測,主要的研究工作和結(jié)果如下:(1)提出了雙層半馬爾科夫條件隨機場模型,并分層探索了新的特征。半馬爾科夫條件隨機場構(gòu)建實體級而不是單個單詞的特征,在命名實體識別上取得了較好的結(jié)果。雙層模型的第一階段僅探測實體的邊界,第二階段對探測到的實體進行分類。本研究在 JNLPBA2004 數(shù)據(jù)集上分別運用雙層條件隨機場和雙層半馬爾科夫條件隨機場模型進行了實驗,并對實驗結(jié)果進行了充分的比對。本研究詳細(xì)的分析了每一個新特征所帶來的性能上的改進,從而證明了新挖掘的特征的有效性。與同類的實驗結(jié)果對比,本研究在命名實體識別上獲得了較好的性能。
............
參考文獻(略)
本文編號:11942
本文鏈接:http://sikaile.net/caijicangku/wuyoulunwen/11942.html