面向生物醫(yī)學(xué)文本之疾病關(guān)系發(fā)掘模型及算法研究,醫(yī)學(xué)畢業(yè)論文
1 緒論
生物醫(yī)學(xué)研究與二十一世紀(jì)生物技術(shù)科學(xué)的形成和發(fā)展密切相關(guān),生物醫(yī)學(xué)領(lǐng)域是關(guān)系到提高醫(yī)療診斷水平和人類(lèi)自身健康的重要工程領(lǐng)域。作為最受關(guān)注的研究領(lǐng)域之一,生物醫(yī)學(xué)研究領(lǐng)域發(fā)表了巨量的研究論文,已經(jīng)達(dá)到年均60萬(wàn)篇以上。生物醫(yī)學(xué)領(lǐng)域的文獻(xiàn)記錄展現(xiàn)了該領(lǐng)域內(nèi)的大量成果和實(shí)驗(yàn)發(fā)現(xiàn)。面對(duì)數(shù)量如此巨大且快速增長(zhǎng)的文獻(xiàn),如何快速有效地獲取相關(guān)知識(shí),是該領(lǐng)域所面臨的挑戰(zhàn)。生物醫(yī)學(xué)文本挖掘技術(shù)作為生物信息學(xué)分支之一,是一項(xiàng)高效自動(dòng)地獲取相關(guān)知識(shí)的新探索,近年來(lái)取得了較大進(jìn)展。國(guó)際上生物醫(yī)學(xué)領(lǐng)域的權(quán)威數(shù)據(jù)庫(kù)MEDLINE(Medical Literature Analysis andRetrieval System Online)的文獻(xiàn)總數(shù)目前已超過(guò)1800萬(wàn)篇,這些文本中所蘊(yùn)含的生物醫(yī)學(xué)知識(shí)是對(duì)海量的生物醫(yī)學(xué)數(shù)據(jù)進(jìn)行分析的知識(shí)寶庫(kù)。但是通過(guò)關(guān)鍵詞在MEDLINE中或者互聯(lián)網(wǎng)上進(jìn)行檢索,只能從大量文檔集合中找到相關(guān)的文件列表,這些文本中所蘊(yùn)含的大量知識(shí)并不能直接展現(xiàn)給用戶(hù)。因此,提供從大規(guī)模生物醫(yī)學(xué)文獻(xiàn)中自動(dòng)獲取相關(guān)知識(shí)的有效工具是一項(xiàng)迫在眉睫的任務(wù)。生物醫(yī)學(xué)文本挖掘技術(shù)通常涉及到信息檢索、信息抽取、數(shù)據(jù)挖掘、文本分類(lèi)、假設(shè)生成以及自動(dòng)文摘等技術(shù)。信息檢索用于識(shí)別相關(guān)文本。信息抽取用于識(shí)別實(shí)體、關(guān)系、事件等信息。數(shù)據(jù)挖掘則從結(jié)構(gòu)化信息中識(shí)別出相互間的關(guān)聯(lián)[1]。文本分類(lèi)用于將海量的文本按照用戶(hù)篩選粒度的大小進(jìn)行快速的分類(lèi)。假設(shè)生成可以從文獻(xiàn)中挖掘出實(shí)驗(yàn)條件和實(shí)驗(yàn)結(jié)果,便于生物學(xué)家通過(guò)生物實(shí)驗(yàn)進(jìn)行驗(yàn)證。自動(dòng)文摘是計(jì)算機(jī)自動(dòng)在大量文獻(xiàn)中對(duì)用戶(hù)感興趣的信息進(jìn)行摘要,節(jié)省研究者閱讀的時(shí)間,在有限的文摘中展現(xiàn)用戶(hù)需要的知識(shí)。
.........
2 生物醫(yī)學(xué)命名實(shí)體識(shí)別方法
2.1 引言
生物醫(yī)學(xué)領(lǐng)域文獻(xiàn)數(shù)量的快速增長(zhǎng)促進(jìn)了文本挖掘的應(yīng)用。生物醫(yī)學(xué)命名實(shí)體識(shí)別任務(wù)做為其他挖掘任務(wù)如人類(lèi)基因/蛋白質(zhì)標(biāo)準(zhǔn)化、關(guān)系抽取和假設(shè)生成的關(guān)鍵步驟,面臨著很大的挑戰(zhàn)。目前,命名實(shí)體識(shí)別在生物醫(yī)學(xué)領(lǐng)域和新聞?lì)I(lǐng)域存在著巨大的差距。新聞?lì)I(lǐng)域中命名實(shí)體識(shí)別系統(tǒng)可以達(dá)到96%的F值[78],,而在生物醫(yī)學(xué)領(lǐng)域中,最好的結(jié)果介于75%和85%之間[1]。生物醫(yī)學(xué)文獻(xiàn)中書(shū)寫(xiě)的不規(guī)范性、縮寫(xiě)詞、描述習(xí)慣等問(wèn)題導(dǎo)致生物醫(yī)學(xué)命名識(shí)別存在很大的困難。當(dāng)前用于生物醫(yī)學(xué)命名實(shí)體識(shí)別任務(wù)的方法分為三大類(lèi)。主要有基于詞典的方法[79]、基于規(guī)則的方法和基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法[80]。采用基于詞典的方法直接對(duì)文本進(jìn)行匹配簡(jiǎn)單而精確,但是由于詞典的容量有限,導(dǎo)致召回率很低。基于規(guī)則的方法依賴(lài)于領(lǐng)域?qū)<业闹R(shí),并且不適于移植到其他的命名實(shí)體類(lèi)型和領(lǐng)域。機(jī)器學(xué)習(xí)方法在自然語(yǔ)言處理任務(wù)中取得了良好的表現(xiàn)。機(jī)器學(xué)習(xí)方法能夠識(shí)別出標(biāo)準(zhǔn)詞典中不包含的隱藏的生物醫(yī)學(xué)實(shí)體。
2.2 基于雙層模型的實(shí)體識(shí)別方法
本章將生物命名實(shí)體識(shí)別分為兩個(gè)任務(wù):實(shí)體邊界探測(cè)和語(yǔ)義標(biāo)識(shí)。在探測(cè)實(shí)體的邊界階段,將所有的實(shí)體都識(shí)別為一種類(lèi)型。在語(yǔ)義標(biāo)識(shí)階段,將第一階段識(shí)別到的實(shí)體分別識(shí)別為具體的實(shí)體類(lèi)型。為了提高精確率和召回率,本章在兩個(gè)階段都對(duì)特征集合進(jìn)行了探索。半馬爾科夫條件隨機(jī)場(chǎng)模型通過(guò)Viterbi的動(dòng)態(tài)規(guī)劃算法求取結(jié)果。Viterbi 算法是一種尋找隱藏狀態(tài)的最佳序列的動(dòng)態(tài)規(guī)劃算法。本章對(duì)基于條件隨機(jī)場(chǎng)和半馬爾科夫條件隨機(jī)場(chǎng)的雙層模型在每一層都進(jìn)行了詳細(xì)的實(shí)驗(yàn)對(duì)比。本節(jié)介紹了條件隨機(jī)場(chǎng)和半馬爾科夫條件隨機(jī)場(chǎng)的定義,并對(duì)實(shí)體識(shí)別方法進(jìn)行了描述。
3 基于文本發(fā)現(xiàn)的疾病本體標(biāo)注...........41
3.1 引言..................41
3.2 疾病本體標(biāo)注方法..................43
3.3 結(jié)果與討論.....................50
3.4 本章小結(jié)..........................56
4 基于文本發(fā)現(xiàn)的疾病語(yǔ)義關(guān)系挖掘...........58
4.1 引言.................................58
4.2 疾病語(yǔ)義關(guān)系挖掘方法.......................60
5 生物醫(yī)學(xué)文本中疾病網(wǎng)絡(luò)的假設(shè)生成...........68
5.1 引言.............................68
5.2 基于文本分類(lèi)和概念共現(xiàn)的假設(shè)生成方法 ................70
5 生物醫(yī)學(xué)文本中疾病網(wǎng)絡(luò)的假設(shè)生成
5.1 引言
隨著科技水平的不斷提高,科研方向逐漸細(xì)分,科研領(lǐng)域更加面向?qū)I(yè)化,科技文獻(xiàn)的數(shù)量也在快速增長(zhǎng),大量的潛在關(guān)聯(lián)關(guān)系隱藏在表面上看來(lái)沒(méi)有任何聯(lián)系的文獻(xiàn)中。另外,文獻(xiàn)的數(shù)量過(guò)大,對(duì)文獻(xiàn)進(jìn)行人工分析具備不完備性和參考數(shù)量有限的問(wèn)題。因此,事實(shí)上存在著有些知識(shí)隱含在文獻(xiàn)中不為人們認(rèn)識(shí)。“基于文獻(xiàn)的假設(shè)生成”揭示蘊(yùn)含于公開(kāi)發(fā)表的文獻(xiàn)中但尚未被人們認(rèn)識(shí)或發(fā)覺(jué)的知識(shí)片段間的邏輯聯(lián)系,提出知識(shí)假設(shè)供專(zhuān)業(yè)研究人員進(jìn)一步證實(shí)[100]。Swanson 教授在 1987 年提出在科學(xué)文獻(xiàn)中存在著無(wú)意的邏輯關(guān)聯(lián),這種關(guān)聯(lián)往往揭示了潛在的新知識(shí),而參考文獻(xiàn)引用或者數(shù)目線索并沒(méi)有對(duì)這種關(guān)聯(lián)進(jìn)行標(biāo)識(shí)[53]。Swanson 教授發(fā)現(xiàn) 25 篇文獻(xiàn)記載了食用魚(yú)油引起一定的血液變化,34 篇文獻(xiàn)記錄了相似的血液變化可以改善雷諾氏。≧aynaud's disease)。通過(guò)這兩組文獻(xiàn),可以隱含的推理出食用魚(yú)油可能對(duì)雷諾氏病人有益。而在此之前,關(guān)于食用魚(yú)油與雷諾氏病之間的假設(shè)沒(méi)有被任何文獻(xiàn)明確記載。
5.2 基于文本分類(lèi)和概念共現(xiàn)的假設(shè)生成方法
由于 LDA 中的似然函數(shù)無(wú)法直接計(jì)算但可以用隱含變量表示,采用 EM 算法來(lái)計(jì)算極大似然估計(jì)計(jì)算出 α 和 β 的值。先用 EM 算法隨機(jī)給每個(gè)參數(shù)賦值,然后迭代的執(zhí)行兩個(gè)步驟 E-STEP 和 M-STEP。在 E-STEP,EM 算法計(jì)算出期望的似然函數(shù)。在 M-STEP,EM 算法重新估計(jì)參數(shù)值,按照最大化似然函數(shù)的標(biāo)準(zhǔn),多次迭代直到收斂為止。普通的文本分類(lèi)技術(shù)對(duì)于豐富的上下文信息和領(lǐng)域知識(shí)并沒(méi)有考慮,文本的分類(lèi)效果并不好。使用帶有語(yǔ)義的主題模型將未標(biāo)注文本的領(lǐng)域知識(shí)轉(zhuǎn)化成富含語(yǔ)義的核平滑矩陣有助于改善分類(lèi)結(jié)果。目前生物醫(yī)學(xué)文本的命名實(shí)體識(shí)別、關(guān)系抽取和假設(shè)生成等問(wèn)題都受制于已標(biāo)注語(yǔ)料集的缺乏。另外,由于語(yǔ)料集的規(guī)模有限,單個(gè)句子僅包含很小比例的特征,那么往往會(huì)造成訓(xùn)練集向量的稀疏。充分挖掘詞語(yǔ)上下文的相似性可以改進(jìn)分類(lèi)的性能,我們從未標(biāo)注的語(yǔ)料集中收集上下文數(shù)據(jù),并通過(guò)語(yǔ)義核進(jìn)行合并。
.......
6 結(jié)論與展望
本研究運(yùn)用機(jī)器學(xué)習(xí)方法,采用本體標(biāo)注方法對(duì)實(shí)體進(jìn)行標(biāo)準(zhǔn)化,建立基于文本的網(wǎng)絡(luò)之后抽取有向子圖計(jì)算概念之間的相似度,利用基于語(yǔ)義的概念共現(xiàn)方法對(duì)概念之間的關(guān)系進(jìn)行預(yù)測(cè),主要的研究工作和結(jié)果如下:(1)提出了雙層半馬爾科夫條件隨機(jī)場(chǎng)模型,并分層探索了新的特征。半馬爾科夫條件隨機(jī)場(chǎng)構(gòu)建實(shí)體級(jí)而不是單個(gè)單詞的特征,在命名實(shí)體識(shí)別上取得了較好的結(jié)果。雙層模型的第一階段僅探測(cè)實(shí)體的邊界,第二階段對(duì)探測(cè)到的實(shí)體進(jìn)行分類(lèi)。本研究在 JNLPBA2004 數(shù)據(jù)集上分別運(yùn)用雙層條件隨機(jī)場(chǎng)和雙層半馬爾科夫條件隨機(jī)場(chǎng)模型進(jìn)行了實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了充分的比對(duì)。本研究詳細(xì)的分析了每一個(gè)新特征所帶來(lái)的性能上的改進(jìn),從而證明了新挖掘的特征的有效性。與同類(lèi)的實(shí)驗(yàn)結(jié)果對(duì)比,本研究在命名實(shí)體識(shí)別上獲得了較好的性能。
............
參考文獻(xiàn)(略)
本文編號(hào):11942
本文鏈接:http://sikaile.net/caijicangku/wuyoulunwen/11942.html