天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于組合學(xué)習(xí)和自訓(xùn)練的生物醫(yī)學(xué)事件抽取研究

發(fā)布時(shí)間:2017-06-09 04:06

  本文關(guān)鍵詞:基于組合學(xué)習(xí)和自訓(xùn)練的生物醫(yī)學(xué)事件抽取研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:生物醫(yī)學(xué)文獻(xiàn)數(shù)量的急劇增加,使得生物醫(yī)學(xué)從業(yè)者在海量生物醫(yī)學(xué)文獻(xiàn)中快速地獲取大量的感興趣的信息變得困難。因此,快速有效地從海量無(wú)結(jié)構(gòu)化的文本中抽取出便于管理、查詢(xún)的結(jié)構(gòu)化信息成為生物醫(yī)學(xué)信息抽取的熱點(diǎn)的研究課題。生物醫(yī)學(xué)事件抽取屬于生物醫(yī)學(xué)信息抽取的范疇,旨在從分子層面在無(wú)結(jié)構(gòu)化的文本信息中抽取出有蛋白質(zhì)有關(guān)的結(jié)構(gòu)化生物事件信息。 在生物醫(yī)學(xué)事件抽取的研究中,機(jī)器學(xué)習(xí)的方法得到了廣泛的應(yīng)用。本文在研究過(guò)程中主要利用了機(jī)器學(xué)習(xí)的方法對(duì)生物醫(yī)學(xué)事件進(jìn)行抽取,涉及到組合學(xué)習(xí),模型自訓(xùn)練以及核方法的機(jī)器學(xué)習(xí)方法。在事件的處理流程上采用了常用的文本預(yù)處理、事件觸發(fā)詞檢測(cè)、事件元素識(shí)別以及整體后處理的步驟。本文在生物醫(yī)學(xué)事件觸發(fā)詞檢測(cè)的階段采用了基于不同決策規(guī)則的學(xué)習(xí)器進(jìn)行組合學(xué)習(xí)、使用模型自訓(xùn)練的方法在觸發(fā)詞檢測(cè)階段引入了未標(biāo)注語(yǔ)料實(shí)現(xiàn)半監(jiān)督學(xué)習(xí)。在觸發(fā)詞的檢測(cè)過(guò)程中,采用了建立觸發(fā)詞字典來(lái)判斷文檔中詞是否為候選觸發(fā)詞,對(duì)所選候選觸發(fā)詞進(jìn)行特征提取進(jìn)行分類(lèi)任務(wù),確定候選詞是否為觸發(fā)詞并指定相應(yīng)的觸發(fā)詞類(lèi)型。在事件元素檢測(cè)的階段,構(gòu)造觸發(fā)詞和蛋白質(zhì)關(guān)系對(duì),借鑒蛋白質(zhì)交互關(guān)系抽取的方法對(duì)觸發(fā)詞蛋白質(zhì)對(duì)之間的關(guān)系進(jìn)行檢測(cè)。根據(jù)事件的定義類(lèi)型將事件分為簡(jiǎn)單事件和復(fù)雜事件分別進(jìn)行元素的檢測(cè)。在簡(jiǎn)單事件中直接鑒定觸發(fā)詞蛋白質(zhì)的關(guān)系,在復(fù)雜事件中采用了先鑒定是否存在關(guān)系再鑒定存在哪一種關(guān)系的方法。最終采用核函數(shù)的方法對(duì)觸發(fā)詞蛋白質(zhì)對(duì)進(jìn)行關(guān)系檢測(cè),來(lái)確定事件的元素。 本文是在BioNLP'09和BioNLP' ll共享任務(wù)提供的公開(kāi)的語(yǔ)料集上進(jìn)行訓(xùn)練和測(cè)試的,同時(shí)實(shí)驗(yàn)過(guò)程中采用的未標(biāo)注語(yǔ)料來(lái)源于PubMed中的摘要文檔。利用本文的方法在采用的語(yǔ)料集上進(jìn)行模型建立和驗(yàn)證,結(jié)果表明本文采用的方法對(duì)事件抽取系統(tǒng)的性能有所改善,取得了不錯(cuò)的抽取效果。
【關(guān)鍵詞】:生物醫(yī)學(xué) 事件抽取 組合學(xué)習(xí) 自訓(xùn)練 核方法
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:R318;TP18
【目錄】:
  • 摘要4-5
  • Abstract5-7
  • 目錄7-9
  • 1 緒論9-13
  • 1.1 研究背景9-10
  • 1.2 研究現(xiàn)狀10-11
  • 1.3 本文的工作11-12
  • 1.4 本文的結(jié)構(gòu)12-13
  • 2 生物醫(yī)學(xué)事件抽取相關(guān)技術(shù)13-26
  • 2.1 信息抽取技術(shù)與文本挖掘相關(guān)知識(shí)13-15
  • 2.1.1 文本挖掘13-14
  • 2.1.2 信息抽取14-15
  • 2.2 生物醫(yī)學(xué)事件抽取15-17
  • 2.3 句法分析17-19
  • 2.4 相關(guān)機(jī)器學(xué)習(xí)方法19-23
  • 2.4.1 支持向量機(jī)19-22
  • 2.4.2 隨機(jī)森林22-23
  • 2.5 評(píng)價(jià)指標(biāo)和語(yǔ)料23-26
  • 2.5.1 評(píng)價(jià)指標(biāo)23-24
  • 2.5.2 語(yǔ)料24-26
  • 3 組合學(xué)習(xí)器的生物醫(yī)學(xué)事件觸發(fā)詞檢測(cè)26-36
  • 3.1 語(yǔ)料預(yù)處理27-28
  • 3.2 特征提取28-31
  • 3.2.1 上下文特征28-29
  • 3.2.2 語(yǔ)義特征29-31
  • 3.5 實(shí)驗(yàn)過(guò)程及結(jié)果分析31-36
  • 3.5.1 實(shí)驗(yàn)過(guò)程31-32
  • 3.5.2 實(shí)驗(yàn)結(jié)果分析32-35
  • 3.5.3 小結(jié)35-36
  • 4 自訓(xùn)練和核方法的生物醫(yī)學(xué)事件抽取36-46
  • 4.1 基于自訓(xùn)練的觸發(fā)詞檢測(cè)過(guò)程37-42
  • 4.1.1 半監(jiān)督方法和自訓(xùn)練學(xué)習(xí)37-38
  • 4.1.2 未標(biāo)注語(yǔ)料38-39
  • 4.1.3 自訓(xùn)練方法算法及實(shí)驗(yàn)步驟39-40
  • 4.1.4 實(shí)驗(yàn)結(jié)果及分析40-42
  • 4.2 基于核方法的事件元素檢測(cè)42-46
  • 4.2.1 圖核42
  • 4.2.2 實(shí)驗(yàn)方法42-44
  • 4.2.3 事件后處理44
  • 4.2.4 實(shí)驗(yàn)結(jié)果及分析44-46
  • 結(jié)論46-48
  • 參考文獻(xiàn)48-52
  • 攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況52-53
  • 致謝53-54

【共引文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 劉劍武;朱映映;宋娜;;融合音頻特征的比賽場(chǎng)地主顏色聚類(lèi)算法[J];莆田學(xué)院學(xué)報(bào);2010年05期

2 蒲筱哥;;自動(dòng)文本分類(lèi)方法研究述評(píng)[J];情報(bào)科學(xué);2008年03期

3 殷天石;孫濟(jì)慶;;基于樹(shù)型結(jié)構(gòu)的SVM多類(lèi)組合分類(lèi)器在文本分類(lèi)中的應(yīng)用[J];情報(bào)雜志;2006年02期

4 趙中英;梁永全;紀(jì)淑娟;李超;;文本分類(lèi)中改進(jìn)的特征加權(quán)方法[J];情報(bào)雜志;2009年04期

5 許君寧;董萍;劉懷亮;;基于知網(wǎng)的中文事件抽取研究[J];情報(bào)雜志;2009年S2期

6 謝玲;屈錫華;賀昌政;肖進(jìn);;區(qū)域創(chuàng)新能力綜合集成評(píng)價(jià)研究[J];情報(bào)雜志;2010年09期

7 滕青青;吉久明;鄭榮廷;李楠;;基于文獻(xiàn)的中文命名實(shí)體識(shí)別算法適用性分析研究[J];情報(bào)雜志;2010年09期

8 葉君香;徐高歡;;基于SVM和噪聲分析的汽車(chē)發(fā)動(dòng)機(jī)故障快速診斷方法研究[J];汽車(chē)零部件;2012年05期

9 李玉景;趙志剛;郭振波;;一種新型的增式SVM訓(xùn)練算法[J];青島大學(xué)學(xué)報(bào)(工程技術(shù)版);2007年03期

10 王興玲,李占斌;基于網(wǎng)格搜索的支持向量機(jī)核函數(shù)參數(shù)的確定[J];中國(guó)海洋大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年05期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 葉紅云;倪志偉;陳恩紅;;一種混合型集成學(xué)習(xí)演化決策樹(shù)算法[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年

2 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中國(guó)科學(xué)院地質(zhì)與地球物理研究所第11屆(2011年度)學(xué)術(shù)年會(huì)論文集(下)[C];2012年

3 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年

4 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年

5 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年

6 ;State Estimation Model of Ferment Process Based on PSO[A];第二十九屆中國(guó)控制會(huì)議論文集[C];2010年

7 ?×;魏巍;梁君燕;;基于支持向量機(jī)的SURF改進(jìn)算法[A];中國(guó)自動(dòng)化學(xué)會(huì)控制理論專(zhuān)業(yè)委員會(huì)C卷[C];2011年

8 ;Research of Intelligent Control Model and System on Traffic Light Time[A];中國(guó)自動(dòng)化學(xué)會(huì)控制理論專(zhuān)業(yè)委員會(huì)D卷[C];2011年

9 杜方鍵;楊宏暉;;K均值聚類(lèi)優(yōu)化集成學(xué)習(xí)[A];2011'中國(guó)西部聲學(xué)學(xué)術(shù)交流會(huì)論文集[C];2011年

10 賈少春;胡秀珍;;A Method of Predicting theβ-hairpin Motifs in Proteins[A];第四屆全國(guó)生物信息學(xué)與系統(tǒng)生物學(xué)學(xué)術(shù)大會(huì)論文集[C];2010年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 于化龍;基于DNA微陣列數(shù)據(jù)的癌癥分類(lèi)技術(shù)研究[D];哈爾濱工程大學(xué);2010年

2 殷志偉;基于統(tǒng)計(jì)學(xué)習(xí)理論的分類(lèi)方法研究[D];哈爾濱工程大學(xué);2009年

3 孔凡芝;引線鍵合視覺(jué)檢測(cè)關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2009年

4 鄭大騰;柔性坐標(biāo)測(cè)量機(jī)空間誤差模型及最佳測(cè)量區(qū)研究[D];合肥工業(yè)大學(xué);2010年

5 李書(shū)艷;單點(diǎn)氨基酸多態(tài)性與疾病相關(guān)關(guān)系的預(yù)測(cè)及其機(jī)制研究[D];蘭州大學(xué);2010年

6 姚志明;基于步態(tài)觸覺(jué)信息的身份識(shí)別研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年

7 張昌明;新疆漢族、維吾爾族及哈薩克族食管癌血清蛋白質(zhì)指紋圖譜研究[D];新疆醫(yī)科大學(xué);2010年

8 王曉明;基于統(tǒng)計(jì)學(xué)習(xí)的模式識(shí)別幾個(gè)問(wèn)題及其應(yīng)用研究[D];江南大學(xué);2010年

9 劉衛(wèi)紅;垃圾郵件檢測(cè)與過(guò)濾關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2010年

10 許偉;基于進(jìn)化算法的復(fù)雜化工過(guò)程智能建模方法及其應(yīng)用[D];華東理工大學(xué);2011年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 李金華;基于SVM的多類(lèi)文本分類(lèi)研究[D];山東科技大學(xué);2010年

2 馬冉冉;集成學(xué)習(xí)算法研究[D];山東科技大學(xué);2010年

3 呂萬(wàn)里;中文文本分類(lèi)技術(shù)研究[D];山東科技大學(xué);2010年

4 朱耿峰;支持向量機(jī)在沖擊地壓預(yù)測(cè)模型中的應(yīng)用研究[D];山東科技大學(xué);2010年

5 李朋勇;基于全矢高階譜的故障診斷方法及其應(yīng)用研究[D];鄭州大學(xué);2010年

6 石國(guó)強(qiáng);基于規(guī)則的組合分類(lèi)器的研究[D];鄭州大學(xué);2010年

7 劉磊;多泥沙河流水庫(kù)優(yōu)化調(diào)度研究[D];鄭州大學(xué);2010年

8 辛保兵;既有預(yù)應(yīng)力混凝土梁橋剩余承載力評(píng)估方法研究[D];鄭州大學(xué);2010年

9 陳松峰;利用PCA和AdaBoost建立基于貝葉斯的組合分類(lèi)器[D];鄭州大學(xué);2010年

10 吳正娟;特征變換在組合分類(lèi)中的應(yīng)用研究[D];鄭州大學(xué);2010年


  本文關(guān)鍵詞:基于組合學(xué)習(xí)和自訓(xùn)練的生物醫(yī)學(xué)事件抽取研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):434389

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/yixuelunwen/swyx/434389.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)d0907***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com