天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

生物醫(yī)學(xué)縮略語消歧

發(fā)布時(shí)間:2020-05-07 07:50
【摘要】:隨著計(jì)算機(jī)技術(shù)和生物技術(shù)的進(jìn)步,當(dāng)前生物醫(yī)學(xué)領(lǐng)域文獻(xiàn)正在爆炸性增長。文獻(xiàn)中蘊(yùn)含著最新的研究成果和豐富的生物醫(yī)學(xué)知識。從生物醫(yī)學(xué)文獻(xiàn)中自動(dòng)獲取生物醫(yī)學(xué)知識已經(jīng)成為生物信息學(xué)研究的重要領(lǐng)域。生物醫(yī)學(xué)縮略語消歧在生物醫(yī)學(xué)和自然語言處理領(lǐng)域有著重要的理論和實(shí)踐意義,在機(jī)器翻譯和信息檢索領(lǐng)域起著非常重要的作用。生物醫(yī)學(xué)縮略語在文獻(xiàn)中出現(xiàn)形式有兩種:一種縮略語與其全稱同時(shí)出現(xiàn),另一種文獻(xiàn)中只有縮略語出現(xiàn)?s略語的出現(xiàn)形式?jīng)Q定了當(dāng)前縮略語消歧的方法主要有兩種:基于啟發(fā)式方法,需要構(gòu)建規(guī)則集;另一種是使用統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)的方法,從大量的樣本中推導(dǎo)出語言使用模型。 由于生物醫(yī)學(xué)文獻(xiàn)的復(fù)雜性和多樣性,生物醫(yī)學(xué)縮略語在文獻(xiàn)中的出現(xiàn)形式亦呈現(xiàn)出多樣性。生物醫(yī)學(xué)縮略語消歧是一個(gè)相當(dāng)困難的任務(wù)。本文根據(jù)生物醫(yī)學(xué)縮略語在文獻(xiàn)中出現(xiàn)的形式,分別應(yīng)用基于規(guī)則和基于機(jī)器學(xué)習(xí)的方法對生物醫(yī)學(xué)縮略語消歧進(jìn)行了深入研究。對于需要消歧的文檔,本文首先根據(jù)縮略語識別法定位到縮略語;其次用基于規(guī)則和統(tǒng)計(jì)的方法對第一種形式的縮略語進(jìn)行消歧;然后使用縮略語詞典判斷是否對此縮略語消歧;若此步?jīng)]有找到縮略語正確全稱,最后進(jìn)行全局縮略語消歧。本文通過實(shí)驗(yàn)分析證明基于向量空間模型的方法最適用于第二種形式的生物醫(yī)學(xué)縮略語消歧。 生物醫(yī)學(xué)縮略語消歧實(shí)驗(yàn)?zāi)壳斑沒有統(tǒng)一的語料,以往研究都是針對文獻(xiàn)中縮略語出現(xiàn)的其一種形式進(jìn)行消歧,沒有形成完善、高效的消歧系統(tǒng)。本文在自己構(gòu)建語料的基礎(chǔ)上進(jìn)行實(shí)驗(yàn)證明:本文所構(gòu)建的生物醫(yī)學(xué)縮略語消歧系統(tǒng),實(shí)現(xiàn)了所有形式的縮略語消歧,并且取得了較高的性能,達(dá)到了目前的較好水平。本文的研究和所取得的成果對今后縮略語消歧研究具有一定的參考價(jià)值。
【圖文】:

縮略語,網(wǎng)頁,全稱,生物醫(yī)學(xué)


圖 3-3 將縮略語做查詢詞提交給 Google 后獲得的網(wǎng)頁摘要圖 3-4 Google 返回結(jié)果中包含全稱摘要的一個(gè)實(shí)例每組全稱候選短語進(jìn)行過濾。具體方法與生物醫(yī)學(xué)縮略語詞范縮略語及其擴(kuò)展構(gòu)建詞典,最終結(jié)果如表 3-3 所示。由顯多于生物醫(yī)學(xué)縮略語全稱,這是由所用數(shù)據(jù)庫的不同導(dǎo)域的,,資源廣;而 PubMed 則是面向生物醫(yī)學(xué)領(lǐng)域的,數(shù)獻(xiàn),且資源數(shù)量有限。表 3-3 縮略語全稱擴(kuò)展對表EDI Education Development International EDI is a leadprovider of vocational qualifications and online assessmsolutions and an awarding body accredited by the UK regulatauthorities

流程圖,縮略語,消歧,全稱


圖 4-1:local 縮略語消歧流程圖優(yōu)全稱抽取識別,縮略語全稱擴(kuò)展識別,得到一批縮略語全稱擴(kuò)最優(yōu)全稱,本文提出了一個(gè)綜合、有效的方法,見公( , )* (1 )AC C i iiS A F = α apr + αsr, isr為用基于規(guī)則的方法求得的第i個(gè)全稱候選的權(quán)得的第i個(gè)全稱候選的權(quán)重。α為可調(diào)參數(shù),通過調(diào))i值,通過實(shí)驗(yàn)證明α最優(yōu)值為 0.4。( ,)AC CiS A F為第對所有的候選降序排序,取第一個(gè)為最優(yōu)全稱;诔:,但是對無規(guī)則縮略的全稱無法識別;基于統(tǒng)計(jì)制,但是在無規(guī)律縮略的全稱識別時(shí)效果尤為突出。
【學(xué)位授予單位】:蘇州大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2011
【分類號】:R-5

【參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 張學(xué)工;關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J];自動(dòng)化學(xué)報(bào);2000年01期



本文編號:2652665

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/2652665.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶46f77***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com