基于FAERS數(shù)據(jù)的共病關(guān)系挖掘與分析
發(fā)布時間:2020-07-21 08:24
【摘要】:隨著電子病歷的大規(guī)模使用,有大量研究基于電子病歷所提供的數(shù)據(jù)做數(shù)據(jù)分析。數(shù)據(jù)研究表明在疾病中存在大量的而廣泛的共病現(xiàn)象。共病的產(chǎn)生和研究對日后的對疾病產(chǎn)生的機(jī)理和對有共同點(diǎn)的疾病的預(yù)防和治療有著重要作用。在本課題中,使用了更加豐富的數(shù)據(jù)源,更有優(yōu)勢的算法,旨在得到更為廣泛或更為難以發(fā)現(xiàn)的共病對。本課題對美國食品和藥品管理局藥品不良反應(yīng)報告系統(tǒng)(FAERS)所提供的病歷數(shù)據(jù)實(shí)現(xiàn)挖掘和分析。在此基礎(chǔ)上,對共病對做網(wǎng)絡(luò)化,實(shí)現(xiàn)可視化。通過聚類研究,將其中一些疾病分類。通過前期的發(fā)掘,實(shí)現(xiàn)了對共病對的數(shù)據(jù)分析和預(yù)測。本課題從FAERS數(shù)據(jù)庫中選擇了2012年第4季度至2017年第1季度的所有數(shù)據(jù)做處理,選取了健康數(shù)據(jù)科學(xué)與信息學(xué)觀測中心(Observational Health Data Sciences and Informatics,OHDSI)對數(shù)據(jù)進(jìn)行了清洗。在數(shù)據(jù)處理方面,主要完成了數(shù)據(jù)的歸一化,數(shù)據(jù)的提取、去重等工作。在經(jīng)過數(shù)據(jù)的預(yù)處理之后,解決了FAERS數(shù)據(jù)庫特有的數(shù)據(jù)不夠清晰的問題。之前對于共病的研究有兩個問題,第一是由于數(shù)據(jù)源的單一性,大多數(shù)研究者會針對一種單一的數(shù)據(jù)源做數(shù)據(jù)分析;第二是數(shù)據(jù)分析方法的缺點(diǎn),前人大多使用統(tǒng)計(jì)方法,并且只針對一對數(shù)據(jù)。在本課題中,使用了FAERS數(shù)據(jù)庫的資源,在數(shù)據(jù)的廣度和復(fù)雜性上要強(qiáng)于之前的研究。在方法的選擇中,使用關(guān)聯(lián)規(guī)則算法+網(wǎng)絡(luò)圖+數(shù)據(jù)分析的模式,使得得出的結(jié)論更有說服力,并針對多重共病對,更加全面。實(shí)驗(yàn)結(jié)果表明,本課題中得到的網(wǎng)絡(luò)圖分析的結(jié)果對比已知的數(shù)據(jù)是成立的,在數(shù)據(jù)分析方面,得出了有效的結(jié)果。于此同時,通過實(shí)驗(yàn)研究,文章提出的網(wǎng)絡(luò)實(shí)現(xiàn)了可視化的功效,對實(shí)際醫(yī)療有一定作用。課題具有實(shí)際意義。
【學(xué)位授予單位】:哈爾濱工程大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP311.13;R-05
【圖文】:
圖 2.1 INDI 文件下面是 INDI 中主要字段代表的含義:INDI 文件主要字段含義1)PRIMARYID:識別某不良事件的唯一標(biāo)志;2)INDI_PT:某不良事件中適應(yīng)癥的信息3)INDI_DRUG_SEQ:識別某藥品的唯一標(biāo)志;4)INDI_CONCEPT_ID:識別適用癥的類別標(biāo)識;由于在課題研究中,一般所用的是藥物和不良反應(yīng)的信息需要獲取的患者使用藥物的名稱以及發(fā)生不良反應(yīng)的名稱,但在本文中我們注重的是疾病信息,所以我們主要關(guān)注的是 PRIMARYID 字段與的 PT 字段。于是課題針對 FAERS 數(shù)據(jù)進(jìn)行預(yù)處理的第一步便是提取 2012 年 4 季度至今 FAERS 數(shù)據(jù)中 INDI 關(guān)鍵字段。2.1.2 MYSQL 數(shù)據(jù)庫整理FDA 的 FAERS 是公開的而免費(fèi)的,所以其中的數(shù)據(jù)非常繁雜。于是,因?yàn)槠鋽?shù)據(jù)
人員可以節(jié)省大量數(shù)據(jù)前期處理所花費(fèi)的時間,集中精力對數(shù)據(jù)進(jìn)行深入分析SI 做的主要工作是提供了一種叫做(Observational Medical Outcomesership ,OMDP)的(Common Data Model,CMD)公共數(shù)據(jù)模型[44]。提供各種不同向 CMD 轉(zhuǎn)化的機(jī)制,以及大量能夠使研究人員在 CMD 下使用其數(shù)據(jù)的工具構(gòu)統(tǒng)計(jì)收集的數(shù)據(jù)有著不同的編碼系統(tǒng),OMDP CMD 的 5.0.1 版本,能將不同統(tǒng)在信息損失最小的情況下的轉(zhuǎn)化為標(biāo)準(zhǔn)詞匯表,研究者們能夠利用其進(jìn)行可察性研究。由于 OMDP CMD 有以上的優(yōu)點(diǎn)本課題選擇 OMDP CMD 作為標(biāo)準(zhǔn)詞匯表,我作為標(biāo)準(zhǔn)對 FAERS 中的藥物名稱以及疾病的名稱進(jìn)行規(guī)范化處理。CMDP CM數(shù)據(jù)可以在 OHDSI 官網(wǎng)上進(jìn)行下載,其中包括 9 個 CSV 文件,分別是 CONCCEPT_ANCESTOR、CONCEPT_CLASS、CONCEPT_RELETIONSHIP、CEPT_SYNONYM、DOMAIN、DRUG_STRENGTH、RELATIONSHIP、ABULAR。本課題數(shù)據(jù)規(guī)范化過程中需要使用的是 CONCEPT 文件,CONCEPT 文件記錄準(zhǔn)名稱,以及其編號。CONCEPT 文件文件大致內(nèi)容如圖 2.2 所示。
圖 2.3 Apriori 算法FP-growth 算法的理論基礎(chǔ)是 Apriori 原理,首先將數(shù)據(jù)庫中的數(shù)據(jù)存放在 FP-TREE中,之后通過頻繁模式的挖掘得到數(shù)據(jù)組合。對比 Apriori 算法,F(xiàn)P-growth 算法舍棄了大量的掃描數(shù)據(jù)庫的過程,只需要對數(shù)據(jù)庫掃描 2 次,然而 Apriori 算法由于沒有構(gòu)建FP-TREE 的過程,于是在得到任何一個疑似的頻繁項(xiàng)集過程中都需對要數(shù)據(jù)集進(jìn)行掃描,因此,由于構(gòu)建了 FP-TREE,F(xiàn)P-growth 算法是高效的。其中算法發(fā)現(xiàn)頻繁項(xiàng)集的過程是:(1)構(gòu)建 FP 樹;(2)從 FP 樹中挖掘頻繁項(xiàng)集。FP 的發(fā)現(xiàn)過程就是一個循環(huán)里不斷遞歸的操作。循環(huán)的是 headTable 中的各個元素項(xiàng);遞歸,遞歸的是元素項(xiàng)的 CPB(條件模式基)構(gòu)成的事務(wù)數(shù)據(jù)集形成的 FP-tree 中發(fā)現(xiàn) FP。FP 代表了頻繁模式,通過支持度來連接相似元素,相互連接的事物就是一條鏈表。對事務(wù)數(shù)據(jù)表中的每一個數(shù)據(jù)對應(yīng)的數(shù)據(jù)項(xiàng)按照支持度正序排列后,將每個數(shù)據(jù)中的數(shù)據(jù)項(xiàng)按支持度降序依次排列到一棵以 NULL 為根節(jié)點(diǎn)的樹中。
本文編號:2764161
【學(xué)位授予單位】:哈爾濱工程大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP311.13;R-05
【圖文】:
圖 2.1 INDI 文件下面是 INDI 中主要字段代表的含義:INDI 文件主要字段含義1)PRIMARYID:識別某不良事件的唯一標(biāo)志;2)INDI_PT:某不良事件中適應(yīng)癥的信息3)INDI_DRUG_SEQ:識別某藥品的唯一標(biāo)志;4)INDI_CONCEPT_ID:識別適用癥的類別標(biāo)識;由于在課題研究中,一般所用的是藥物和不良反應(yīng)的信息需要獲取的患者使用藥物的名稱以及發(fā)生不良反應(yīng)的名稱,但在本文中我們注重的是疾病信息,所以我們主要關(guān)注的是 PRIMARYID 字段與的 PT 字段。于是課題針對 FAERS 數(shù)據(jù)進(jìn)行預(yù)處理的第一步便是提取 2012 年 4 季度至今 FAERS 數(shù)據(jù)中 INDI 關(guān)鍵字段。2.1.2 MYSQL 數(shù)據(jù)庫整理FDA 的 FAERS 是公開的而免費(fèi)的,所以其中的數(shù)據(jù)非常繁雜。于是,因?yàn)槠鋽?shù)據(jù)
人員可以節(jié)省大量數(shù)據(jù)前期處理所花費(fèi)的時間,集中精力對數(shù)據(jù)進(jìn)行深入分析SI 做的主要工作是提供了一種叫做(Observational Medical Outcomesership ,OMDP)的(Common Data Model,CMD)公共數(shù)據(jù)模型[44]。提供各種不同向 CMD 轉(zhuǎn)化的機(jī)制,以及大量能夠使研究人員在 CMD 下使用其數(shù)據(jù)的工具構(gòu)統(tǒng)計(jì)收集的數(shù)據(jù)有著不同的編碼系統(tǒng),OMDP CMD 的 5.0.1 版本,能將不同統(tǒng)在信息損失最小的情況下的轉(zhuǎn)化為標(biāo)準(zhǔn)詞匯表,研究者們能夠利用其進(jìn)行可察性研究。由于 OMDP CMD 有以上的優(yōu)點(diǎn)本課題選擇 OMDP CMD 作為標(biāo)準(zhǔn)詞匯表,我作為標(biāo)準(zhǔn)對 FAERS 中的藥物名稱以及疾病的名稱進(jìn)行規(guī)范化處理。CMDP CM數(shù)據(jù)可以在 OHDSI 官網(wǎng)上進(jìn)行下載,其中包括 9 個 CSV 文件,分別是 CONCCEPT_ANCESTOR、CONCEPT_CLASS、CONCEPT_RELETIONSHIP、CEPT_SYNONYM、DOMAIN、DRUG_STRENGTH、RELATIONSHIP、ABULAR。本課題數(shù)據(jù)規(guī)范化過程中需要使用的是 CONCEPT 文件,CONCEPT 文件記錄準(zhǔn)名稱,以及其編號。CONCEPT 文件文件大致內(nèi)容如圖 2.2 所示。
圖 2.3 Apriori 算法FP-growth 算法的理論基礎(chǔ)是 Apriori 原理,首先將數(shù)據(jù)庫中的數(shù)據(jù)存放在 FP-TREE中,之后通過頻繁模式的挖掘得到數(shù)據(jù)組合。對比 Apriori 算法,F(xiàn)P-growth 算法舍棄了大量的掃描數(shù)據(jù)庫的過程,只需要對數(shù)據(jù)庫掃描 2 次,然而 Apriori 算法由于沒有構(gòu)建FP-TREE 的過程,于是在得到任何一個疑似的頻繁項(xiàng)集過程中都需對要數(shù)據(jù)集進(jìn)行掃描,因此,由于構(gòu)建了 FP-TREE,F(xiàn)P-growth 算法是高效的。其中算法發(fā)現(xiàn)頻繁項(xiàng)集的過程是:(1)構(gòu)建 FP 樹;(2)從 FP 樹中挖掘頻繁項(xiàng)集。FP 的發(fā)現(xiàn)過程就是一個循環(huán)里不斷遞歸的操作。循環(huán)的是 headTable 中的各個元素項(xiàng);遞歸,遞歸的是元素項(xiàng)的 CPB(條件模式基)構(gòu)成的事務(wù)數(shù)據(jù)集形成的 FP-tree 中發(fā)現(xiàn) FP。FP 代表了頻繁模式,通過支持度來連接相似元素,相互連接的事物就是一條鏈表。對事務(wù)數(shù)據(jù)表中的每一個數(shù)據(jù)對應(yīng)的數(shù)據(jù)項(xiàng)按照支持度正序排列后,將每個數(shù)據(jù)中的數(shù)據(jù)項(xiàng)按支持度降序依次排列到一棵以 NULL 為根節(jié)點(diǎn)的樹中。
【相似文獻(xiàn)】
相關(guān)期刊論文 前1條
1 喻捷;;面向藥物不良反應(yīng)發(fā)現(xiàn)系統(tǒng)的多源數(shù)據(jù)融合研究[J];智能計(jì)算機(jī)與應(yīng)用;2019年02期
相關(guān)碩士學(xué)位論文 前2條
1 王旭;基于FAERS數(shù)據(jù)的共病關(guān)系挖掘與分析[D];哈爾濱工程大學(xué);2019年
2 黎潤靈;FAERS數(shù)據(jù)庫藥物不良反應(yīng)挖掘與分析[D];哈爾濱工程大學(xué);2017年
本文編號:2764161
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/2764161.html
最近更新
教材專著