MEDLINMEDLINE生物醫(yī)學(xué)文本聚類(lèi)研究
發(fā)布時(shí)間:2020-07-20 20:32
【摘要】:生物醫(yī)學(xué)是21世紀(jì)的熱門(mén)研究領(lǐng)域,近年來(lái)該學(xué)科文獻(xiàn)增長(zhǎng)速度驚人,但同時(shí)也導(dǎo)致了嚴(yán)重的信息過(guò)載現(xiàn)象:從大量的文獻(xiàn)中找到自己感興趣的論文,跟蹤最新的進(jìn)展,成為一個(gè)越來(lái)越困難的任務(wù)。生物醫(yī)學(xué)文本聚類(lèi)技術(shù)通過(guò)將相似的文檔聚在一起,不相似的文檔分開(kāi),能幫助用戶(hù)(如生物學(xué)家)有效地組織、概括、導(dǎo)航和定位生物醫(yī)學(xué)文獻(xiàn)信息。因此,作為一種有效的生物醫(yī)學(xué)文本挖掘工具,生物醫(yī)學(xué)文本聚類(lèi)具有重要的理論研究意義和廣闊的應(yīng)用前景。 本文以生物醫(yī)學(xué)文本為主要研究對(duì)象,提出了一種新的計(jì)算語(yǔ)義相似度的方法并且應(yīng)用于生物醫(yī)學(xué)本體——醫(yī)學(xué)主題詞表MeSH (Medical Subject Headings)。同時(shí)針對(duì)醫(yī)學(xué)文本的特性,提出了基于主輔信息融合策略的半監(jiān)督聚類(lèi)算法SSNCut,并且應(yīng)用于生物醫(yī)學(xué)文本的聚類(lèi)研究,實(shí)驗(yàn)表明該方法提高了生物醫(yī)學(xué)文本聚類(lèi)的精度。 本文的具體內(nèi)容包括: 1)介紹了生物醫(yī)學(xué)文本挖掘當(dāng)前的研究進(jìn)展,概述了文本聚類(lèi)的模型表示、評(píng)估標(biāo)準(zhǔn)以及常用的聚類(lèi)算法。此外,回顧了生物醫(yī)學(xué)文本聚類(lèi)的相關(guān)研究,指出了當(dāng)前研究的不足。 2)針對(duì)MEDLINE獨(dú)有的MeSH本體,綜述了基于本體的語(yǔ)義相似度度量方法,提出了一種更精確的語(yǔ)義相似度度量方法,并且提出了兩種基于MeSH本體計(jì)算語(yǔ)義相似度的框架,實(shí)驗(yàn)驗(yàn)證了我們提出的相似度算法優(yōu)于一般的語(yǔ)義相似度度量方法。 3)針對(duì)MEDLINE文獻(xiàn)包含的局部?jī)?nèi)容信息(bag of words)、MeSH語(yǔ)義信息和全局內(nèi)容信息(相關(guān)文獻(xiàn)列表),提出一種融合這三種信息的半監(jiān)督聚類(lèi)算法,實(shí)驗(yàn)驗(yàn)證了該算法可以有效利用這三種信息來(lái)提高生物醫(yī)學(xué)文本聚類(lèi)的精度。
【學(xué)位授予單位】:復(fù)旦大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類(lèi)號(hào)】:R-5;TP391.1
本文編號(hào):2763914
【學(xué)位授予單位】:復(fù)旦大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類(lèi)號(hào)】:R-5;TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 王浩暢;趙鐵軍;;生物醫(yī)學(xué)文本挖掘技術(shù)的研究與進(jìn)展[J];中文信息學(xué)報(bào);2008年03期
2 張永彪,褚嘉yP;表觀(guān)遺傳學(xué)與人類(lèi)疾病的研究進(jìn)展[J];遺傳;2005年03期
本文編號(hào):2763914
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/2763914.html
最近更新
教材專(zhuān)著