生物事件抽取聯(lián)合模型研究
發(fā)布時間:2020-01-26 09:27
【摘要】:高通量測序技術(shù)的應(yīng)用,越來越多的生物分子實驗成果和臨床醫(yī)學(xué)的成果以文本的形式發(fā)表,使得該領(lǐng)域產(chǎn)生了海量的生物醫(yī)學(xué)文獻。這些文獻雖然包含有大量的生物醫(yī)學(xué)知識,但是它們都是以無結(jié)構(gòu)的自由文本狀態(tài)存在,難以為人類所利用。生物文本挖掘研究的目的在于綜合運用自然語言處理、生物醫(yī)療信息、計算語言、人工智能技術(shù),從生物醫(yī)學(xué)文獻中抽取豐富的生物實體之間的語義信息,構(gòu)建結(jié)構(gòu)化的知識庫,供相關(guān)領(lǐng)域的人員使用。生物文本挖掘常規(guī)任務(wù)包括信息檢索(Information Retrieval, IR),信息抽取(Information Extraction, IE),知識庫構(gòu)建和知識發(fā)現(xiàn)等。信息抽取包括有命名實體識別(Named Entity Recogniztion, NER)和名稱實體標準化,以及實體關(guān)系抽取。生物事件抽取是生物信息抽取領(lǐng)域最近幾年興起一個研究熱點。它是由日本東京大學(xué)的Tsujii實驗室于2009年發(fā)起的一個共享評測任務(wù),其目標是識別文本中與蛋白質(zhì)實體有關(guān)的嵌套事件。在該任務(wù)中對生物事件給出具有普遍性且一致性的定義,并且提供了與任務(wù)一致的數(shù)據(jù)集及相關(guān)的評估標準。數(shù)據(jù)集中蛋白質(zhì)名稱已經(jīng)標注,但是需要識別引起蛋白質(zhì)動態(tài)變化或者狀態(tài)改變的觸發(fā)詞以及它們之間嵌套的語義關(guān)系。由于任務(wù)本身的復(fù)雜性,事件抽取系統(tǒng)的性能目前為止還達不到應(yīng)用的要求,因此還有進一步研究的空間。本文重點研究了基于聯(lián)合模型(Joint model)的生物事件抽取方法,在此之前完成了事件抽取中觸發(fā)詞識別子任務(wù)和基于串行模型(Pipelined model)的事件抽取方法的研究。主要研究內(nèi)容概括如下:(1)基于豐富特征的序列標注模型識別生物事件中的觸發(fā)詞。從生物文獻中抽取生物事件對于生物領(lǐng)域的知識挖掘起著重要的作用,而事件觸發(fā)詞的識別性能直接影響到事件抽取性能。在本文中,我們把觸發(fā)詞識別看作一個序列標注問題,利用CRF模型進行預(yù)測。在模型中我們利用了豐富的詞法特征與結(jié)構(gòu)特征,包括詞匯及其上下文特征、短語標記特征、詞聚類特征、以及統(tǒng)計的詞典特征,構(gòu)造不同的基于詞級CRF模型,用于生物事件觸發(fā)詞的標記。然后針對不同的觸發(fā)詞類型選擇對應(yīng)最優(yōu)的標記模型,構(gòu)造了一個混合CRF模型。實驗結(jié)果在BioNLP-ST 2009語料庫取得了60.9%的F-score,跟Baseline系統(tǒng)相比有明顯優(yōu)勢。另外,該方法應(yīng)用在BioCreativeⅣ的ChemistryNer任務(wù)評測中,分別在CDI在和CEM子任務(wù)中獲得了第一和第二的成績。(2)采用串行策略抽取生物事件。串行事件抽取策略是一類重要的事件抽取方法,因此在研究聯(lián)合模型之前,我們嘗試了用串行方法實現(xiàn)生物事件抽取。主要步驟包括:首先,基于依存分析的結(jié)果抽取目標依存序列,并在目標依存序列中獲取候選的事件關(guān)系對;然后用SVM模型對候選事件關(guān)系對分類,分類過程包括兩個子步驟:一個是將候選事件對分成9個類別的多分類過程,另一個子步驟是分別將這9個類別進行二分類判別它們是正樣本還是負樣本;最后用一個后處理步驟將分類后的事件關(guān)系對構(gòu)成事件。在BioNLP-ST2013年的語料評估上,精度值高于所有公開評估的模型,但是總體性能上表現(xiàn)一般。(3)采用基于實體鏈標記的聯(lián)合模型抽取生物事件。我們提出了一種簡單而有效的聯(lián)合模型抽取生物事件,同時識別事件的觸發(fā)詞和抽取事件邊。在概念上,我們將嵌套的生物事件看作是一棵樹,樹的葉子節(jié)點到根節(jié)點的路徑是蛋白質(zhì)實體到最高嵌套層的觸發(fā)詞實體的實體鏈。由于實體之間的關(guān)系是一種語義關(guān)系,可以通過依存關(guān)系表現(xiàn)。因此我們先抽取包含實體鏈的依存序列,然后用序列標記模型對抽取的依存序列標記出其中的實體鏈。標記完成后,我們采用規(guī)則對標記結(jié)果進行了修正。最后根據(jù)標記出來的實體鏈,構(gòu)建生物事件。實驗結(jié)果在BioNLP-ST2013年的語料上獲得了47.3%的F-score,與當年的的評測隊伍中同樣采用聯(lián)合機器學(xué)習(xí)模型的Baseline系統(tǒng)相比,有明顯的優(yōu)勢。并且對觸發(fā)詞的識別結(jié)果單獨評估時,在2009和2013年的數(shù)據(jù)集上分別獲得了68.03%和71.33%的F-score。(4)采用基于非精確搜索的結(jié)構(gòu)預(yù)測聯(lián)合模型抽取生物事件。結(jié)構(gòu)預(yù)測方法將句子及句子中實體關(guān)系看作一個結(jié)構(gòu),用增量搜索方法聯(lián)合預(yù)測這個結(jié)構(gòu)。實驗中采用了感知機算法訓(xùn)練模型,但是由于生物事件抽取任務(wù)本身的復(fù)雜性,使得算法搜索空間很大,精確的聯(lián)合推導(dǎo)非常困難,因此在模型訓(xùn)練中采用了Beam Search非精確搜索算法解碼。Beam search解碼算法和提前更新策略可以降低搜索空間,使得整個結(jié)構(gòu)預(yù)測模型成為可行。該模型特點是不僅可以使用局部特征,還可以充分考慮句子的全局特征。在BioNLP-ST數(shù)據(jù)集的評估中,我們獲得了43.8%的F-score。相比前面基于實體鏈標記的聯(lián)合模型,在整體性能上沒有優(yōu)勢,但是在多論元事件的抽取上卻有提高。因此,基于結(jié)構(gòu)預(yù)測的聯(lián)合抽取方法對于復(fù)雜生物事件抽取是有效的。
【圖文】:
生物自然語言處理(BioNLP邋)常規(guī)任務(wù)包括信息檢索(Information逡逑Retriev吐化),信息抽。ǎ桑睿妫铮颍恚幔簦椋铮铄澹牛簦颍幔悖簦椋铮睿琖'),,問答(Question-answer,邋QA),逡逑知識庫構(gòu)建和知識發(fā)現(xiàn),整個研究架構(gòu)如圖1.1所示。逡逑植fisr]巧巧公。逡逑睛H時哺/逡逑■"氣.^邐0邐?逡逑\逡逑^0^邋■■■邐'
本文編號:2573269
【圖文】:
生物自然語言處理(BioNLP邋)常規(guī)任務(wù)包括信息檢索(Information逡逑Retriev吐化),信息抽。ǎ桑睿妫铮颍恚幔簦椋铮铄澹牛簦颍幔悖簦椋铮睿琖'),,問答(Question-answer,邋QA),逡逑知識庫構(gòu)建和知識發(fā)現(xiàn),整個研究架構(gòu)如圖1.1所示。逡逑植fisr]巧巧公。逡逑睛H時哺/逡逑■"氣.^邐0邐?逡逑\逡逑^0^邋■■■邐'
本文編號:2573269
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2573269.html
最近更新
教材專著