生物事件抽取聯(lián)合模型研究
發(fā)布時間:2020-01-26 09:27
【摘要】:高通量測序技術(shù)的應(yīng)用,越來越多的生物分子實(shí)驗(yàn)成果和臨床醫(yī)學(xué)的成果以文本的形式發(fā)表,使得該領(lǐng)域產(chǎn)生了海量的生物醫(yī)學(xué)文獻(xiàn)。這些文獻(xiàn)雖然包含有大量的生物醫(yī)學(xué)知識,但是它們都是以無結(jié)構(gòu)的自由文本狀態(tài)存在,難以為人類所利用。生物文本挖掘研究的目的在于綜合運(yùn)用自然語言處理、生物醫(yī)療信息、計算語言、人工智能技術(shù),從生物醫(yī)學(xué)文獻(xiàn)中抽取豐富的生物實(shí)體之間的語義信息,構(gòu)建結(jié)構(gòu)化的知識庫,供相關(guān)領(lǐng)域的人員使用。生物文本挖掘常規(guī)任務(wù)包括信息檢索(Information Retrieval, IR),信息抽取(Information Extraction, IE),知識庫構(gòu)建和知識發(fā)現(xiàn)等。信息抽取包括有命名實(shí)體識別(Named Entity Recogniztion, NER)和名稱實(shí)體標(biāo)準(zhǔn)化,以及實(shí)體關(guān)系抽取。生物事件抽取是生物信息抽取領(lǐng)域最近幾年興起一個研究熱點(diǎn)。它是由日本東京大學(xué)的Tsujii實(shí)驗(yàn)室于2009年發(fā)起的一個共享評測任務(wù),其目標(biāo)是識別文本中與蛋白質(zhì)實(shí)體有關(guān)的嵌套事件。在該任務(wù)中對生物事件給出具有普遍性且一致性的定義,并且提供了與任務(wù)一致的數(shù)據(jù)集及相關(guān)的評估標(biāo)準(zhǔn)。數(shù)據(jù)集中蛋白質(zhì)名稱已經(jīng)標(biāo)注,但是需要識別引起蛋白質(zhì)動態(tài)變化或者狀態(tài)改變的觸發(fā)詞以及它們之間嵌套的語義關(guān)系。由于任務(wù)本身的復(fù)雜性,事件抽取系統(tǒng)的性能目前為止還達(dá)不到應(yīng)用的要求,因此還有進(jìn)一步研究的空間。本文重點(diǎn)研究了基于聯(lián)合模型(Joint model)的生物事件抽取方法,在此之前完成了事件抽取中觸發(fā)詞識別子任務(wù)和基于串行模型(Pipelined model)的事件抽取方法的研究。主要研究內(nèi)容概括如下:(1)基于豐富特征的序列標(biāo)注模型識別生物事件中的觸發(fā)詞。從生物文獻(xiàn)中抽取生物事件對于生物領(lǐng)域的知識挖掘起著重要的作用,而事件觸發(fā)詞的識別性能直接影響到事件抽取性能。在本文中,我們把觸發(fā)詞識別看作一個序列標(biāo)注問題,利用CRF模型進(jìn)行預(yù)測。在模型中我們利用了豐富的詞法特征與結(jié)構(gòu)特征,包括詞匯及其上下文特征、短語標(biāo)記特征、詞聚類特征、以及統(tǒng)計的詞典特征,構(gòu)造不同的基于詞級CRF模型,用于生物事件觸發(fā)詞的標(biāo)記。然后針對不同的觸發(fā)詞類型選擇對應(yīng)最優(yōu)的標(biāo)記模型,構(gòu)造了一個混合CRF模型。實(shí)驗(yàn)結(jié)果在BioNLP-ST 2009語料庫取得了60.9%的F-score,跟Baseline系統(tǒng)相比有明顯優(yōu)勢。另外,該方法應(yīng)用在BioCreativeⅣ的ChemistryNer任務(wù)評測中,分別在CDI在和CEM子任務(wù)中獲得了第一和第二的成績。(2)采用串行策略抽取生物事件。串行事件抽取策略是一類重要的事件抽取方法,因此在研究聯(lián)合模型之前,我們嘗試了用串行方法實(shí)現(xiàn)生物事件抽取。主要步驟包括:首先,基于依存分析的結(jié)果抽取目標(biāo)依存序列,并在目標(biāo)依存序列中獲取候選的事件關(guān)系對;然后用SVM模型對候選事件關(guān)系對分類,分類過程包括兩個子步驟:一個是將候選事件對分成9個類別的多分類過程,另一個子步驟是分別將這9個類別進(jìn)行二分類判別它們是正樣本還是負(fù)樣本;最后用一個后處理步驟將分類后的事件關(guān)系對構(gòu)成事件。在BioNLP-ST2013年的語料評估上,精度值高于所有公開評估的模型,但是總體性能上表現(xiàn)一般。(3)采用基于實(shí)體鏈標(biāo)記的聯(lián)合模型抽取生物事件。我們提出了一種簡單而有效的聯(lián)合模型抽取生物事件,同時識別事件的觸發(fā)詞和抽取事件邊。在概念上,我們將嵌套的生物事件看作是一棵樹,樹的葉子節(jié)點(diǎn)到根節(jié)點(diǎn)的路徑是蛋白質(zhì)實(shí)體到最高嵌套層的觸發(fā)詞實(shí)體的實(shí)體鏈。由于實(shí)體之間的關(guān)系是一種語義關(guān)系,可以通過依存關(guān)系表現(xiàn)。因此我們先抽取包含實(shí)體鏈的依存序列,然后用序列標(biāo)記模型對抽取的依存序列標(biāo)記出其中的實(shí)體鏈。標(biāo)記完成后,我們采用規(guī)則對標(biāo)記結(jié)果進(jìn)行了修正。最后根據(jù)標(biāo)記出來的實(shí)體鏈,構(gòu)建生物事件。實(shí)驗(yàn)結(jié)果在BioNLP-ST2013年的語料上獲得了47.3%的F-score,與當(dāng)年的的評測隊(duì)伍中同樣采用聯(lián)合機(jī)器學(xué)習(xí)模型的Baseline系統(tǒng)相比,有明顯的優(yōu)勢。并且對觸發(fā)詞的識別結(jié)果單獨(dú)評估時,在2009和2013年的數(shù)據(jù)集上分別獲得了68.03%和71.33%的F-score。(4)采用基于非精確搜索的結(jié)構(gòu)預(yù)測聯(lián)合模型抽取生物事件。結(jié)構(gòu)預(yù)測方法將句子及句子中實(shí)體關(guān)系看作一個結(jié)構(gòu),用增量搜索方法聯(lián)合預(yù)測這個結(jié)構(gòu)。實(shí)驗(yàn)中采用了感知機(jī)算法訓(xùn)練模型,但是由于生物事件抽取任務(wù)本身的復(fù)雜性,使得算法搜索空間很大,精確的聯(lián)合推導(dǎo)非常困難,因此在模型訓(xùn)練中采用了Beam Search非精確搜索算法解碼。Beam search解碼算法和提前更新策略可以降低搜索空間,使得整個結(jié)構(gòu)預(yù)測模型成為可行。該模型特點(diǎn)是不僅可以使用局部特征,還可以充分考慮句子的全局特征。在BioNLP-ST數(shù)據(jù)集的評估中,我們獲得了43.8%的F-score。相比前面基于實(shí)體鏈標(biāo)記的聯(lián)合模型,在整體性能上沒有優(yōu)勢,但是在多論元事件的抽取上卻有提高。因此,基于結(jié)構(gòu)預(yù)測的聯(lián)合抽取方法對于復(fù)雜生物事件抽取是有效的。
【圖文】:
生物自然語言處理(BioNLP邋)常規(guī)任務(wù)包括信息檢索(Information逡逑Retriev吐化),信息抽。ǎ桑睿妫铮颍恚幔簦椋铮铄澹牛簦颍幔悖簦椋铮睿琖'),,問答(Question-answer,邋QA),逡逑知識庫構(gòu)建和知識發(fā)現(xiàn),整個研究架構(gòu)如圖1.1所示。逡逑植fisr]巧巧公。逡逑睛H時哺/逡逑■"氣.^邐0邐?逡逑\逡逑^0^邋■■■邐'
本文編號:2573269
【圖文】:
生物自然語言處理(BioNLP邋)常規(guī)任務(wù)包括信息檢索(Information逡逑Retriev吐化),信息抽。ǎ桑睿妫铮颍恚幔簦椋铮铄澹牛簦颍幔悖簦椋铮睿琖'),,問答(Question-answer,邋QA),逡逑知識庫構(gòu)建和知識發(fā)現(xiàn),整個研究架構(gòu)如圖1.1所示。逡逑植fisr]巧巧公。逡逑睛H時哺/逡逑■"氣.^邐0邐?逡逑\逡逑^0^邋■■■邐'
本文編號:2573269
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2573269.html
最近更新
教材專著