生物醫(yī)學縮略語消歧
發(fā)布時間:2020-05-07 07:50
【摘要】:隨著計算機技術(shù)和生物技術(shù)的進步,當前生物醫(yī)學領域文獻正在爆炸性增長。文獻中蘊含著最新的研究成果和豐富的生物醫(yī)學知識。從生物醫(yī)學文獻中自動獲取生物醫(yī)學知識已經(jīng)成為生物信息學研究的重要領域。生物醫(yī)學縮略語消歧在生物醫(yī)學和自然語言處理領域有著重要的理論和實踐意義,在機器翻譯和信息檢索領域起著非常重要的作用。生物醫(yī)學縮略語在文獻中出現(xiàn)形式有兩種:一種縮略語與其全稱同時出現(xiàn),另一種文獻中只有縮略語出現(xiàn)?s略語的出現(xiàn)形式?jīng)Q定了當前縮略語消歧的方法主要有兩種:基于啟發(fā)式方法,需要構(gòu)建規(guī)則集;另一種是使用統(tǒng)計學和機器學習的方法,從大量的樣本中推導出語言使用模型。 由于生物醫(yī)學文獻的復雜性和多樣性,生物醫(yī)學縮略語在文獻中的出現(xiàn)形式亦呈現(xiàn)出多樣性。生物醫(yī)學縮略語消歧是一個相當困難的任務。本文根據(jù)生物醫(yī)學縮略語在文獻中出現(xiàn)的形式,分別應用基于規(guī)則和基于機器學習的方法對生物醫(yī)學縮略語消歧進行了深入研究。對于需要消歧的文檔,本文首先根據(jù)縮略語識別法定位到縮略語;其次用基于規(guī)則和統(tǒng)計的方法對第一種形式的縮略語進行消歧;然后使用縮略語詞典判斷是否對此縮略語消歧;若此步?jīng)]有找到縮略語正確全稱,最后進行全局縮略語消歧。本文通過實驗分析證明基于向量空間模型的方法最適用于第二種形式的生物醫(yī)學縮略語消歧。 生物醫(yī)學縮略語消歧實驗目前還沒有統(tǒng)一的語料,以往研究都是針對文獻中縮略語出現(xiàn)的其一種形式進行消歧,沒有形成完善、高效的消歧系統(tǒng)。本文在自己構(gòu)建語料的基礎上進行實驗證明:本文所構(gòu)建的生物醫(yī)學縮略語消歧系統(tǒng),實現(xiàn)了所有形式的縮略語消歧,并且取得了較高的性能,達到了目前的較好水平。本文的研究和所取得的成果對今后縮略語消歧研究具有一定的參考價值。
【圖文】:
圖 3-3 將縮略語做查詢詞提交給 Google 后獲得的網(wǎng)頁摘要圖 3-4 Google 返回結(jié)果中包含全稱摘要的一個實例每組全稱候選短語進行過濾。具體方法與生物醫(yī)學縮略語詞范縮略語及其擴展構(gòu)建詞典,最終結(jié)果如表 3-3 所示。由顯多于生物醫(yī)學縮略語全稱,這是由所用數(shù)據(jù)庫的不同導域的,,資源廣;而 PubMed 則是面向生物醫(yī)學領域的,數(shù)獻,且資源數(shù)量有限。表 3-3 縮略語全稱擴展對表EDI Education Development International EDI is a leadprovider of vocational qualifications and online assessmsolutions and an awarding body accredited by the UK regulatauthorities
圖 4-1:local 縮略語消歧流程圖優(yōu)全稱抽取識別,縮略語全稱擴展識別,得到一批縮略語全稱擴最優(yōu)全稱,本文提出了一個綜合、有效的方法,見公( , )* (1 )AC C i iiS A F = α apr + αsr, isr為用基于規(guī)則的方法求得的第i個全稱候選的權(quán)得的第i個全稱候選的權(quán)重。α為可調(diào)參數(shù),通過調(diào))i值,通過實驗證明α最優(yōu)值為 0.4。( ,)AC CiS A F為第對所有的候選降序排序,取第一個為最優(yōu)全稱;诔:,但是對無規(guī)則縮略的全稱無法識別;基于統(tǒng)計制,但是在無規(guī)律縮略的全稱識別時效果尤為突出。
【學位授予單位】:蘇州大學
【學位級別】:碩士
【學位授予年份】:2011
【分類號】:R-5
本文編號:2652665
【圖文】:
圖 3-3 將縮略語做查詢詞提交給 Google 后獲得的網(wǎng)頁摘要圖 3-4 Google 返回結(jié)果中包含全稱摘要的一個實例每組全稱候選短語進行過濾。具體方法與生物醫(yī)學縮略語詞范縮略語及其擴展構(gòu)建詞典,最終結(jié)果如表 3-3 所示。由顯多于生物醫(yī)學縮略語全稱,這是由所用數(shù)據(jù)庫的不同導域的,,資源廣;而 PubMed 則是面向生物醫(yī)學領域的,數(shù)獻,且資源數(shù)量有限。表 3-3 縮略語全稱擴展對表EDI Education Development International EDI is a leadprovider of vocational qualifications and online assessmsolutions and an awarding body accredited by the UK regulatauthorities
圖 4-1:local 縮略語消歧流程圖優(yōu)全稱抽取識別,縮略語全稱擴展識別,得到一批縮略語全稱擴最優(yōu)全稱,本文提出了一個綜合、有效的方法,見公( , )* (1 )AC C i iiS A F = α apr + αsr, isr為用基于規(guī)則的方法求得的第i個全稱候選的權(quán)得的第i個全稱候選的權(quán)重。α為可調(diào)參數(shù),通過調(diào))i值,通過實驗證明α最優(yōu)值為 0.4。( ,)AC CiS A F為第對所有的候選降序排序,取第一個為最優(yōu)全稱;诔:,但是對無規(guī)則縮略的全稱無法識別;基于統(tǒng)計制,但是在無規(guī)律縮略的全稱識別時效果尤為突出。
【學位授予單位】:蘇州大學
【學位級別】:碩士
【學位授予年份】:2011
【分類號】:R-5
【參考文獻】
相關期刊論文 前1條
1 張學工;關于統(tǒng)計學習理論與支持向量機[J];自動化學報;2000年01期
本文編號:2652665
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/2652665.html
最近更新
教材專著