基于MeSH的生物醫(yī)學(xué)知識圖譜構(gòu)建及其在組學(xué)數(shù)據(jù)分析的應(yīng)用
發(fā)布時間:2021-06-07 20:18
二代測序、生物質(zhì)譜等高通量實(shí)驗(yàn)技術(shù)的發(fā)展和應(yīng)用,產(chǎn)生了海量的組學(xué)數(shù)據(jù)(基因組學(xué)、轉(zhuǎn)錄組學(xué)和蛋白質(zhì)組學(xué)等),生物醫(yī)學(xué)研究已不可阻擋的邁入了大數(shù)據(jù)時代。對這些組學(xué)數(shù)據(jù)的解讀,可以幫助人們理解生命活動的基本原理,揭示疾病的發(fā)生發(fā)展原因。生命組學(xué)數(shù)據(jù)極大地擴(kuò)展了人類對自身生理和病理的認(rèn)識,但是生命組學(xué)數(shù)據(jù)的分析卻面臨著嚴(yán)峻挑戰(zhàn)。組學(xué)數(shù)據(jù)分析的首要任務(wù)就是從整體上對基因進(jìn)行注釋,了解基因參與的生物學(xué)過程和基因的功能,掌握基因與生理、病理過程的關(guān)系等。通量化的基因注釋對識別基因功能,研究基因的表達(dá)調(diào)控機(jī)制,分析基因產(chǎn)物之間的相互關(guān)系具有重要的意義。為了對基因進(jìn)行注釋,人們結(jié)合各自研究領(lǐng)域,采用專家方式對文獻(xiàn)中的信息進(jìn)行判讀和整理,構(gòu)建了GOA、KEGG、CTD、OMIM等知識庫。人工構(gòu)建的知識庫為組學(xué)數(shù)據(jù)注釋分析提供了有效的資源,但仍存在領(lǐng)域知識覆蓋不全面和更新不及時等問題。生物醫(yī)學(xué)文獻(xiàn)數(shù)量大,有限的人工使得知識庫只能針對特定生物醫(yī)學(xué)主題領(lǐng)域構(gòu)建,在癥狀和體征、行為和行為機(jī)制等領(lǐng)域仍缺少相應(yīng)的注釋資源。另外,生物醫(yī)學(xué)文獻(xiàn)的快速增長,也給專家方式的知識庫更新帶來了困難。注釋數(shù)據(jù)庫以上的知識覆蓋不全面...
【文章來源】:軍事科學(xué)院北京市
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
生物醫(yī)學(xué)知識圖譜示意圖
軍事科學(xué)院碩士學(xué)位論文1.2 材料和方法1.2.1 基于 MeSH 構(gòu)建知識圖譜的流程本文采用如圖 1.2 所示的流程建立基于 MeSH 的生物醫(yī)學(xué)知識圖譜。知識圖譜構(gòu)建所需的關(guān)聯(lián)數(shù)據(jù)集主要來自 PubMed 數(shù)據(jù)庫和 PubTator 數(shù)據(jù)庫。首先,本文通過 NCBI E-Utilities API 下載 XML 格式的 PubMed 元數(shù)據(jù)并使用 Python ElemeTree 模塊解析得到 MeSH 實(shí)體和文獻(xiàn)的關(guān)聯(lián)數(shù)據(jù)集。然后,本文使用 RESTful AP下載PubTator的基因和文獻(xiàn)關(guān)聯(lián)數(shù)據(jù)集并提取包括人類在內(nèi)的11個物種的基因和文獻(xiàn)關(guān)聯(lián)。接下來,本文整合了來自 PubMed 和 PubTator 的關(guān)聯(lián)數(shù)據(jù)得到基因和MeSH 實(shí)體之間的關(guān)聯(lián)數(shù)據(jù)集。進(jìn)一步,本文篩選出共現(xiàn)文獻(xiàn)數(shù)目大于 2 篇的關(guān)聯(lián)并用卡方檢驗(yàn)和標(biāo)準(zhǔn)點(diǎn)互信息判斷兩個實(shí)體之間是否相互獨(dú)立,從而篩選出統(tǒng)計學(xué)顯著差異的實(shí)體關(guān)聯(lián)。為了對知識圖譜進(jìn)行物種間的拓展,本文在 InParanoi網(wǎng)站的 ftp 站點(diǎn)獲取并解析了 11 個物種間直系同源基因關(guān)系。具體方法如圖 1所示。
圖 1.3 補(bǔ)充物種間基因注釋信息的方法示意圖基因信息(Gene A 與 Gene A’)補(bǔ)充物種間(O基因注釋信息。詞表 MeSHMedical Subject Headings, MeSH)[8]是由ry of Medicine, NLM)編制的權(quán)威性主題成為生物信息學(xué)領(lǐng)域中一個重要的方法利用。MeSH 分為主題詞表、副主題詞表詞表用規(guī)范的醫(yī)學(xué)術(shù)語來描述生物醫(yī)學(xué)準(zhǔn)化保證每一個實(shí)體僅使用一個關(guān)鍵詞可以通過副主題詞進(jìn)一步縮小包含主題ries and Subcategories)的建立使 MeSHree Structure),用來表達(dá)主題詞之間的層按照不同的領(lǐng)域分為 16 個一級類別,每
【參考文獻(xiàn)】:
期刊論文
[1]知識圖譜研究進(jìn)展[J]. 漆桂林,高桓,吳天星. 情報工程. 2017(01)
[2]Overview of immunosuppression in liver transplantation[J]. Anjana A Pillai,Josh Levitsky. World Journal of Gastroenterology. 2009(34)
本文編號:3217242
【文章來源】:軍事科學(xué)院北京市
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
生物醫(yī)學(xué)知識圖譜示意圖
軍事科學(xué)院碩士學(xué)位論文1.2 材料和方法1.2.1 基于 MeSH 構(gòu)建知識圖譜的流程本文采用如圖 1.2 所示的流程建立基于 MeSH 的生物醫(yī)學(xué)知識圖譜。知識圖譜構(gòu)建所需的關(guān)聯(lián)數(shù)據(jù)集主要來自 PubMed 數(shù)據(jù)庫和 PubTator 數(shù)據(jù)庫。首先,本文通過 NCBI E-Utilities API 下載 XML 格式的 PubMed 元數(shù)據(jù)并使用 Python ElemeTree 模塊解析得到 MeSH 實(shí)體和文獻(xiàn)的關(guān)聯(lián)數(shù)據(jù)集。然后,本文使用 RESTful AP下載PubTator的基因和文獻(xiàn)關(guān)聯(lián)數(shù)據(jù)集并提取包括人類在內(nèi)的11個物種的基因和文獻(xiàn)關(guān)聯(lián)。接下來,本文整合了來自 PubMed 和 PubTator 的關(guān)聯(lián)數(shù)據(jù)得到基因和MeSH 實(shí)體之間的關(guān)聯(lián)數(shù)據(jù)集。進(jìn)一步,本文篩選出共現(xiàn)文獻(xiàn)數(shù)目大于 2 篇的關(guān)聯(lián)并用卡方檢驗(yàn)和標(biāo)準(zhǔn)點(diǎn)互信息判斷兩個實(shí)體之間是否相互獨(dú)立,從而篩選出統(tǒng)計學(xué)顯著差異的實(shí)體關(guān)聯(lián)。為了對知識圖譜進(jìn)行物種間的拓展,本文在 InParanoi網(wǎng)站的 ftp 站點(diǎn)獲取并解析了 11 個物種間直系同源基因關(guān)系。具體方法如圖 1所示。
圖 1.3 補(bǔ)充物種間基因注釋信息的方法示意圖基因信息(Gene A 與 Gene A’)補(bǔ)充物種間(O基因注釋信息。詞表 MeSHMedical Subject Headings, MeSH)[8]是由ry of Medicine, NLM)編制的權(quán)威性主題成為生物信息學(xué)領(lǐng)域中一個重要的方法利用。MeSH 分為主題詞表、副主題詞表詞表用規(guī)范的醫(yī)學(xué)術(shù)語來描述生物醫(yī)學(xué)準(zhǔn)化保證每一個實(shí)體僅使用一個關(guān)鍵詞可以通過副主題詞進(jìn)一步縮小包含主題ries and Subcategories)的建立使 MeSHree Structure),用來表達(dá)主題詞之間的層按照不同的領(lǐng)域分為 16 個一級類別,每
【參考文獻(xiàn)】:
期刊論文
[1]知識圖譜研究進(jìn)展[J]. 漆桂林,高桓,吳天星. 情報工程. 2017(01)
[2]Overview of immunosuppression in liver transplantation[J]. Anjana A Pillai,Josh Levitsky. World Journal of Gastroenterology. 2009(34)
本文編號:3217242
本文鏈接:http://sikaile.net/yixuelunwen/swyx/3217242.html
最近更新
教材專著