當(dāng)前位置：主頁(yè) > 采集倉(cāng)庫(kù) > 無(wú)憂(yōu)論文 >

面向生物醫(yī)學(xué)文本之疾病關(guān)系發(fā)掘模型及算法研究,醫(yī)學(xué)畢業(yè)論文

發(fā)布時(shí)間：2015-02-02 17:02

1 緒論

生物醫(yī)學(xué)研究與二十一世紀(jì)生物技術(shù)科學(xué)的形成和發(fā)展密切相關(guān)，生物醫(yī)學(xué)領(lǐng)域是關(guān)系到提高醫(yī)療診斷水平和人類(lèi)自身健康的重要工程領(lǐng)域。作為最受關(guān)注的研究領(lǐng)域之一，生物醫(yī)學(xué)研究領(lǐng)域發(fā)表了巨量的研究論文，已經(jīng)達(dá)到年均60萬(wàn)篇以上。生物醫(yī)學(xué)領(lǐng)域的文獻(xiàn)記錄展現(xiàn)了該領(lǐng)域內(nèi)的大量成果和實(shí)驗(yàn)發(fā)現(xiàn)。面對(duì)數(shù)量如此巨大且快速增長(zhǎng)的文獻(xiàn)，如何快速有效地獲取相關(guān)知識(shí)，是該領(lǐng)域所面臨的挑戰(zhàn)。生物醫(yī)學(xué)文本挖掘技術(shù)作為生物信息學(xué)分支之一，是一項(xiàng)高效自動(dòng)地獲取相關(guān)知識(shí)的新探索，近年來(lái)取得了較大進(jìn)展。國(guó)際上生物醫(yī)學(xué)領(lǐng)域的權(quán)威數(shù)據(jù)庫(kù)MEDLINE（Medical Literature Analysis andRetrieval System Online）的文獻(xiàn)總數(shù)目前已超過(guò)1800萬(wàn)篇，這些文本中所蘊(yùn)含的生物醫(yī)學(xué)知識(shí)是對(duì)海量的生物醫(yī)學(xué)數(shù)據(jù)進(jìn)行分析的知識(shí)寶庫(kù)。但是通過(guò)關(guān)鍵詞在MEDLINE中或者互聯(lián)網(wǎng)上進(jìn)行檢索，只能從大量文檔集合中找到相關(guān)的文件列表，這些文本中所蘊(yùn)含的大量知識(shí)并不能直接展現(xiàn)給用戶(hù)。因此，提供從大規(guī)模生物醫(yī)學(xué)文獻(xiàn)中自動(dòng)獲取相關(guān)知識(shí)的有效工具是一項(xiàng)迫在眉睫的任務(wù)。生物醫(yī)學(xué)文本挖掘技術(shù)通常涉及到信息檢索、信息抽取、數(shù)據(jù)挖掘、文本分類(lèi)、假設(shè)生成以及自動(dòng)文摘等技術(shù)。信息檢索用于識(shí)別相關(guān)文本。信息抽取用于識(shí)別實(shí)體、關(guān)系、事件等信息。數(shù)據(jù)挖掘則從結(jié)構(gòu)化信息中識(shí)別出相互間的關(guān)聯(lián)[1]。文本分類(lèi)用于將海量的文本按照用戶(hù)篩選粒度的大小進(jìn)行快速的分類(lèi)。假設(shè)生成可以從文獻(xiàn)中挖掘出實(shí)驗(yàn)條件和實(shí)驗(yàn)結(jié)果，便于生物學(xué)家通過(guò)生物實(shí)驗(yàn)進(jìn)行驗(yàn)證。自動(dòng)文摘是計(jì)算機(jī)自動(dòng)在大量文獻(xiàn)中對(duì)用戶(hù)感興趣的信息進(jìn)行摘要，節(jié)省研究者閱讀的時(shí)間，在有限的文摘中展現(xiàn)用戶(hù)需要的知識(shí)。
.........

2 生物醫(yī)學(xué)命名實(shí)體識(shí)別方法

2.1 引言
生物醫(yī)學(xué)領(lǐng)域文獻(xiàn)數(shù)量的快速增長(zhǎng)促進(jìn)了文本挖掘的應(yīng)用。生物醫(yī)學(xué)命名實(shí)體識(shí)別任務(wù)做為其他挖掘任務(wù)如人類(lèi)基因/蛋白質(zhì)標(biāo)準(zhǔn)化、關(guān)系抽取和假設(shè)生成的關(guān)鍵步驟，面臨著很大的挑戰(zhàn)。目前，命名實(shí)體識(shí)別在生物醫(yī)學(xué)領(lǐng)域和新聞?lì)I(lǐng)域存在著巨大的差距。新聞?lì)I(lǐng)域中命名實(shí)體識(shí)別系統(tǒng)可以達(dá)到96%的F值[78]，，而在生物醫(yī)學(xué)領(lǐng)域中，最好的結(jié)果介于75%和85%之間[1]。生物醫(yī)學(xué)文獻(xiàn)中書(shū)寫(xiě)的不規(guī)范性、縮寫(xiě)詞、描述習(xí)慣等問(wèn)題導(dǎo)致生物醫(yī)學(xué)命名識(shí)別存在很大的困難。當(dāng)前用于生物醫(yī)學(xué)命名實(shí)體識(shí)別任務(wù)的方法分為三大類(lèi)。主要有基于詞典的方法[79]、基于規(guī)則的方法和基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法[80]。采用基于詞典的方法直接對(duì)文本進(jìn)行匹配簡(jiǎn)單而精確，但是由于詞典的容量有限，導(dǎo)致召回率很低。基于規(guī)則的方法依賴(lài)于領(lǐng)域?qū)＜业闹R(shí)，并且不適于移植到其他的命名實(shí)體類(lèi)型和領(lǐng)域。機(jī)器學(xué)習(xí)方法在自然語(yǔ)言處理任務(wù)中取得了良好的表現(xiàn)。機(jī)器學(xué)習(xí)方法能夠識(shí)別出標(biāo)準(zhǔn)詞典中不包含的隱藏的生物醫(yī)學(xué)實(shí)體。

2.2 基于雙層模型的實(shí)體識(shí)別方法
本章將生物命名實(shí)體識(shí)別分為兩個(gè)任務(wù)：實(shí)體邊界探測(cè)和語(yǔ)義標(biāo)識(shí)。在探測(cè)實(shí)體的邊界階段，將所有的實(shí)體都識(shí)別為一種類(lèi)型。在語(yǔ)義標(biāo)識(shí)階段，將第一階段識(shí)別到的實(shí)體分別識(shí)別為具體的實(shí)體類(lèi)型。為了提高精確率和召回率，本章在兩個(gè)階段都對(duì)特征集合進(jìn)行了探索。半馬爾科夫條件隨機(jī)場(chǎng)模型通過(guò)Viterbi的動(dòng)態(tài)規(guī)劃算法求取結(jié)果。Viterbi 算法是一種尋找隱藏狀態(tài)的最佳序列的動(dòng)態(tài)規(guī)劃算法。本章對(duì)基于條件隨機(jī)場(chǎng)和半馬爾科夫條件隨機(jī)場(chǎng)的雙層模型在每一層都進(jìn)行了詳細(xì)的實(shí)驗(yàn)對(duì)比。本節(jié)介紹了條件隨機(jī)場(chǎng)和半馬爾科夫條件隨機(jī)場(chǎng)的定義，并對(duì)實(shí)體識(shí)別方法進(jìn)行了描述。

3 基于文本發(fā)現(xiàn)的疾病本體標(biāo)注...........41

3.1 引言..................41
3.2 疾病本體標(biāo)注方法..................43
3.3 結(jié)果與討論.....................50
3.4 本章小結(jié)..........................56
4 基于文本發(fā)現(xiàn)的疾病語(yǔ)義關(guān)系挖掘...........58

4.1 引言.................................58
4.2 疾病語(yǔ)義關(guān)系挖掘方法.......................60
5 生物醫(yī)學(xué)文本中疾病網(wǎng)絡(luò)的假設(shè)生成...........68
5.1 引言.............................68
5.2 基于文本分類(lèi)和概念共現(xiàn)的假設(shè)生成方法 ................70

5 生物醫(yī)學(xué)文本中疾病網(wǎng)絡(luò)的假設(shè)生成

5.1 引言
隨著科技水平的不斷提高，科研方向逐漸細(xì)分，科研領(lǐng)域更加面向?qū)I(yè)化，科技文獻(xiàn)的數(shù)量也在快速增長(zhǎng)，大量的潛在關(guān)聯(lián)關(guān)系隱藏在表面上看來(lái)沒(méi)有任何聯(lián)系的文獻(xiàn)中。另外，文獻(xiàn)的數(shù)量過(guò)大，對(duì)文獻(xiàn)進(jìn)行人工分析具備不完備性和參考數(shù)量有限的問(wèn)題。因此，事實(shí)上存在著有些知識(shí)隱含在文獻(xiàn)中不為人們認(rèn)識(shí)。“基于文獻(xiàn)的假設(shè)生成”揭示蘊(yùn)含于公開(kāi)發(fā)表的文獻(xiàn)中但尚未被人們認(rèn)識(shí)或發(fā)覺(jué)的知識(shí)片段間的邏輯聯(lián)系，提出知識(shí)假設(shè)供專(zhuān)業(yè)研究人員進(jìn)一步證實(shí)[100]。Swanson 教授在 1987 年提出在科學(xué)文獻(xiàn)中存在著無(wú)意的邏輯關(guān)聯(lián)，這種關(guān)聯(lián)往往揭示了潛在的新知識(shí)，而參考文獻(xiàn)引用或者數(shù)目線索并沒(méi)有對(duì)這種關(guān)聯(lián)進(jìn)行標(biāo)識(shí)[53]。Swanson 教授發(fā)現(xiàn) 25 篇文獻(xiàn)記載了食用魚(yú)油引起一定的血液變化，34 篇文獻(xiàn)記錄了相似的血液變化可以改善雷諾氏�。≧aynaud's disease）。通過(guò)這兩組文獻(xiàn)，可以隱含的推理出食用魚(yú)油可能對(duì)雷諾氏病人有益。而在此之前，關(guān)于食用魚(yú)油與雷諾氏病之間的假設(shè)沒(méi)有被任何文獻(xiàn)明確記載。

5.2 基于文本分類(lèi)和概念共現(xiàn)的假設(shè)生成方法
由于 LDA 中的似然函數(shù)無(wú)法直接計(jì)算但可以用隱含變量表示，采用 EM 算法來(lái)計(jì)算極大似然估計(jì)計(jì)算出 α 和 β 的值。先用 EM 算法隨機(jī)給每個(gè)參數(shù)賦值，然后迭代的執(zhí)行兩個(gè)步驟 E-STEP 和 M-STEP。在 E-STEP，EM 算法計(jì)算出期望的似然函數(shù)。在 M-STEP，EM 算法重新估計(jì)參數(shù)值，按照最大化似然函數(shù)的標(biāo)準(zhǔn)，多次迭代直到收斂為止。普通的文本分類(lèi)技術(shù)對(duì)于豐富的上下文信息和領(lǐng)域知識(shí)并沒(méi)有考慮，文本的分類(lèi)效果并不好。使用帶有語(yǔ)義的主題模型將未標(biāo)注文本的領(lǐng)域知識(shí)轉(zhuǎn)化成富含語(yǔ)義的核平滑矩陣有助于改善分類(lèi)結(jié)果。目前生物醫(yī)學(xué)文本的命名實(shí)體識(shí)別、關(guān)系抽取和假設(shè)生成等問(wèn)題都受制于已標(biāo)注語(yǔ)料集的缺乏。另外，由于語(yǔ)料集的規(guī)模有限，單個(gè)句子僅包含很小比例的特征，那么往往會(huì)造成訓(xùn)練集向量的稀疏。充分挖掘詞語(yǔ)上下文的相似性可以改進(jìn)分類(lèi)的性能，我們從未標(biāo)注的語(yǔ)料集中收集上下文數(shù)據(jù)，并通過(guò)語(yǔ)義核進(jìn)行合并。
.......

6 結(jié)論與展望

本研究運(yùn)用機(jī)器學(xué)習(xí)方法，采用本體標(biāo)注方法對(duì)實(shí)體進(jìn)行標(biāo)準(zhǔn)化，建立基于文本的網(wǎng)絡(luò)之后抽取有向子圖計(jì)算概念之間的相似度，利用基于語(yǔ)義的概念共現(xiàn)方法對(duì)概念之間的關(guān)系進(jìn)行預(yù)測(cè)，主要的研究工作和結(jié)果如下：（1）提出了雙層半馬爾科夫條件隨機(jī)場(chǎng)模型，并分層探索了新的特征。半馬爾科夫條件隨機(jī)場(chǎng)構(gòu)建實(shí)體級(jí)而不是單個(gè)單詞的特征，在命名實(shí)體識(shí)別上取得了較好的結(jié)果。雙層模型的第一階段僅探測(cè)實(shí)體的邊界，第二階段對(duì)探測(cè)到的實(shí)體進(jìn)行分類(lèi)。本研究在 JNLPBA2004 數(shù)據(jù)集上分別運(yùn)用雙層條件隨機(jī)場(chǎng)和雙層半馬爾科夫條件隨機(jī)場(chǎng)模型進(jìn)行了實(shí)驗(yàn)，并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了充分的比對(duì)。本研究詳細(xì)的分析了每一個(gè)新特征所帶來(lái)的性能上的改進(jìn)，從而證明了新挖掘的特征的有效性。與同類(lèi)的實(shí)驗(yàn)結(jié)果對(duì)比，本研究在命名實(shí)體識(shí)別上獲得了較好的性能。
............

參考文獻(xiàn)（略）

本文編號(hào)：11942

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/caijicangku/wuyoulunwen/11942.html

上一篇：綜合護(hù)理干預(yù)給中青年慢性心力衰弱者負(fù)面情緒及預(yù)后的影響,護(hù)理學(xué)畢業(yè)論文
下一篇：新媒體對(duì)北京體育大學(xué)學(xué)生社團(tuán)建設(shè)的影響及其策略分析,大學(xué)生論文

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向生物醫(yī)學(xué)文本之疾病關(guān)系發(fā)掘模型及算法研究,醫(yī)學(xué)畢業(yè)論文