MEDLINMEDLINE生物醫(yī)學文本聚類研究
發(fā)布時間:2020-07-20 20:32
【摘要】:生物醫(yī)學是21世紀的熱門研究領(lǐng)域,近年來該學科文獻增長速度驚人,但同時也導致了嚴重的信息過載現(xiàn)象:從大量的文獻中找到自己感興趣的論文,跟蹤最新的進展,成為一個越來越困難的任務。生物醫(yī)學文本聚類技術(shù)通過將相似的文檔聚在一起,不相似的文檔分開,能幫助用戶(如生物學家)有效地組織、概括、導航和定位生物醫(yī)學文獻信息。因此,作為一種有效的生物醫(yī)學文本挖掘工具,生物醫(yī)學文本聚類具有重要的理論研究意義和廣闊的應用前景。 本文以生物醫(yī)學文本為主要研究對象,提出了一種新的計算語義相似度的方法并且應用于生物醫(yī)學本體——醫(yī)學主題詞表MeSH (Medical Subject Headings)。同時針對醫(yī)學文本的特性,提出了基于主輔信息融合策略的半監(jiān)督聚類算法SSNCut,并且應用于生物醫(yī)學文本的聚類研究,實驗表明該方法提高了生物醫(yī)學文本聚類的精度。 本文的具體內(nèi)容包括: 1)介紹了生物醫(yī)學文本挖掘當前的研究進展,概述了文本聚類的模型表示、評估標準以及常用的聚類算法。此外,回顧了生物醫(yī)學文本聚類的相關(guān)研究,指出了當前研究的不足。 2)針對MEDLINE獨有的MeSH本體,綜述了基于本體的語義相似度度量方法,提出了一種更精確的語義相似度度量方法,并且提出了兩種基于MeSH本體計算語義相似度的框架,實驗驗證了我們提出的相似度算法優(yōu)于一般的語義相似度度量方法。 3)針對MEDLINE文獻包含的局部內(nèi)容信息(bag of words)、MeSH語義信息和全局內(nèi)容信息(相關(guān)文獻列表),提出一種融合這三種信息的半監(jiān)督聚類算法,實驗驗證了該算法可以有效利用這三種信息來提高生物醫(yī)學文本聚類的精度。
【學位授予單位】:復旦大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:R-5;TP391.1
本文編號:2763914
【學位授予單位】:復旦大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:R-5;TP391.1
【參考文獻】
相關(guān)期刊論文 前2條
1 王浩暢;趙鐵軍;;生物醫(yī)學文本挖掘技術(shù)的研究與進展[J];中文信息學報;2008年03期
2 張永彪,褚嘉yP;表觀遺傳學與人類疾病的研究進展[J];遺傳;2005年03期
本文編號:2763914
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/2763914.html
最近更新
教材專著