基于甲狀腺疾病的臨床數(shù)據(jù)挖掘與分析研究
第一章 緒論
1.1 研究背景及意義
醫(yī)療信息技術(shù)和互聯(lián)網(wǎng)的飛速發(fā)展形成了醫(yī)院信息系統(tǒng)、公共衛(wèi)生信息系統(tǒng)、遠(yuǎn)程醫(yī)療、家庭護(hù)理和區(qū)域協(xié)同醫(yī)療等數(shù)百億的醫(yī)療衛(wèi)生產(chǎn)業(yè),并得到了學(xué)術(shù)界和工業(yè)界的廣泛重視[1,2]。 在我國,醫(yī)院大范圍建設(shè)以電子病歷為重點(diǎn)的臨床信息系統(tǒng)已進(jìn)行了 10 多年。電子病歷、醫(yī)護(hù)工作站、實(shí)驗(yàn)室信息系統(tǒng)、醫(yī)學(xué)影像傳輸和存儲(chǔ)系統(tǒng)、放射科信息系統(tǒng)、手術(shù)麻醉管理系統(tǒng)、病理管理系統(tǒng)、心電電生理管理系統(tǒng)等臨床信息系統(tǒng)已被引入到醫(yī)院中。據(jù)中國醫(yī)院協(xié)會(huì)信息管理專業(yè)委員會(huì)發(fā)布的2013-2014 年度中國醫(yī)院信息化狀況調(diào)查顯示,電子病歷、醫(yī)護(hù)工作站已在 80%以上醫(yī)院建設(shè),其它上述信息系統(tǒng)也已在 50%以上醫(yī)院建設(shè)[3]。 這些臨床信息系統(tǒng)的引入已為醫(yī)療行業(yè)積累了海量的、有價(jià)值的臨床數(shù)據(jù)資源,以本課題的研究對(duì)象上海某大型三甲綜合性醫(yī)院為例,該院在為患者提供醫(yī)療服務(wù)的過程中,積累了大量的臨床數(shù)據(jù),產(chǎn)生的年臨床數(shù)據(jù)約在 60TB。其中既有醫(yī)院信息系統(tǒng)(HIS)數(shù)據(jù),也有醫(yī)學(xué)影像數(shù)據(jù)(PACS)和病理報(bào)告等。這些臨床數(shù)據(jù)呈現(xiàn)出數(shù)據(jù)量大、數(shù)據(jù)形式多元、數(shù)據(jù)變化快和數(shù)據(jù)價(jià)值高的“大數(shù)據(jù)”特征。 隨著醫(yī)療服務(wù)水平的不斷提高,人們對(duì)醫(yī)療診斷效率以及準(zhǔn)確度有了更高的要求,同時(shí)醫(yī)療從業(yè)者對(duì)臨床數(shù)據(jù)也有更深層次的研究分析需求。如果能夠?qū)ι鲜龊A康呐R床數(shù)據(jù)進(jìn)行有效利用,分析挖掘出其中隱含的信息,對(duì)于提高醫(yī)療診斷準(zhǔn)確性、防治疾病和攻克頑疾等將具有重要意義,同時(shí),還可以為患者提供個(gè)性化精準(zhǔn)診療服務(wù),為醫(yī)療行業(yè)的管理者提供更好的決策支持。 因此,臨床數(shù)據(jù)的研究與分析在大數(shù)據(jù)時(shí)代顯得越來越重要。如何從大量的歷史臨床數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息,提高疾病診斷的準(zhǔn)確性和研究疾病的發(fā)展趨勢(shì),已成為擺在臨床數(shù)據(jù)分析面前的難題。為了解決該問題,近年來很多學(xué)者將數(shù)據(jù)挖掘技術(shù)應(yīng)用到醫(yī)學(xué)領(lǐng)域中。
.........
1.2 國內(nèi)外研究現(xiàn)狀
面對(duì)大量結(jié)構(gòu)復(fù)雜和種類繁多的醫(yī)療數(shù)據(jù),傳統(tǒng)的統(tǒng)計(jì)方法已經(jīng)無能為力;數(shù)據(jù)挖掘技術(shù)是傳統(tǒng)統(tǒng)計(jì)分析方法的延伸和補(bǔ)充,能夠通過數(shù)據(jù)挖掘算法對(duì)復(fù)雜的醫(yī)療數(shù)據(jù)進(jìn)行分析處理,從而實(shí)現(xiàn)自動(dòng)的信息模式的獲取。 國外對(duì)于醫(yī)學(xué)數(shù)據(jù)挖掘的研究起步較早,在醫(yī)學(xué)圖像分類、疾病診斷、藥物管理等方面的成果比較豐富。文獻(xiàn)[6]提出了利用人工神經(jīng)網(wǎng)絡(luò)方法對(duì)計(jì)算機(jī)斷層掃描(CT)和磁共振成像(MRI)等醫(yī)學(xué)影像進(jìn)行分類的方法。文獻(xiàn)[7]中對(duì)七種不同類型的神經(jīng)網(wǎng)絡(luò)進(jìn)行研究以實(shí)現(xiàn)對(duì)甲狀腺疾病更強(qiáng)大和更可靠的的診斷。使用啟發(fā)式訓(xùn)練算法的前饋多層神經(jīng)網(wǎng)絡(luò)的精度值比類似的研究要高。文獻(xiàn)[8]提出了通過決策支持系統(tǒng)對(duì)醫(yī)生處方中的用藥量、用藥頻率等因素進(jìn)行輔助指導(dǎo),引導(dǎo)醫(yī)生對(duì)腎功能不全的病人制定更準(zhǔn)確的治療方案,減少醫(yī)療事故。文獻(xiàn)[9]提出了分別采用決策樹、貝葉斯和神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘技術(shù),開發(fā)了一個(gè)智能心臟病預(yù)測(cè)系統(tǒng)原型系統(tǒng)(IHDPS)。IHDPS 系統(tǒng)能夠通過年齡、性別、血壓和血糖等醫(yī)療數(shù)據(jù)來預(yù)測(cè)心臟病的可能性。文獻(xiàn)[10]提出了利用樸素貝葉斯建立心臟病預(yù)測(cè)決策支持系統(tǒng),使用如年齡,性別,血壓和血糖等信息可預(yù)測(cè)心臟疾病發(fā)生的可能性。文獻(xiàn)[11]提出了一種用于眼底圖像自動(dòng)分類方法。對(duì)比了樸素貝葉斯分類器、K 近鄰和支持向量機(jī)三種方法,發(fā)現(xiàn)樸素貝葉斯分類器優(yōu)于其他兩個(gè)分類方法。 我國的醫(yī)院信息系統(tǒng)(HIS)經(jīng)過多年的信息化建設(shè),已具備相當(dāng)?shù)奈镔|(zhì)條件和人才儲(chǔ)備,并積累了大量數(shù)據(jù),為數(shù)據(jù)挖掘的應(yīng)用奠定了一定的物質(zhì)基礎(chǔ)。而且,醫(yī)院信息化發(fā)展是我國信息化建設(shè)的重要組成部分,國家對(duì)此給予了高度的重視并提供了大量政策上和經(jīng)濟(jì)上的支持,為行業(yè)性數(shù)據(jù)挖掘的實(shí)施提供了良好的政策環(huán)境和經(jīng)濟(jì)保障。
...........
第二章 相關(guān)技術(shù)研究
本文的研究目標(biāo)是通過數(shù)據(jù)挖掘技術(shù),從大量的甲狀腺病人的臨床數(shù)據(jù)中獲取有效的分類規(guī)則及關(guān)聯(lián)規(guī)則。因此,本章主要介紹本文用到的相關(guān)技術(shù),包括醫(yī)學(xué)數(shù)據(jù)挖掘技術(shù),分類算法和關(guān)聯(lián)規(guī)則算法。同時(shí)介紹了數(shù)據(jù)展示技術(shù)的兩個(gè)重要組成部分:HANA(High-Performance Analytic Appliance)數(shù)據(jù)庫管理系統(tǒng)和 BO(Business Objects)技術(shù)。
2.1 醫(yī)療數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是一門交叉學(xué)科,涉及到數(shù)據(jù)庫技術(shù)、模式識(shí)別、機(jī)器學(xué)習(xí)、人工智能、并行計(jì)算、統(tǒng)計(jì)學(xué)和數(shù)據(jù)可視化等領(lǐng)域。簡(jiǎn)單來說,數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的潛在有用的信息和知識(shí)的過程。數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)中的一個(gè)關(guān)鍵步驟,是在對(duì)數(shù)據(jù)全面而深刻認(rèn)識(shí)的基礎(chǔ)上,對(duì)數(shù)據(jù)內(nèi)在和本質(zhì)的高度抽象與概括,也是對(duì)數(shù)據(jù)從感性認(rèn)識(shí)到理性認(rèn)識(shí)的升華。自 20 世紀(jì)末提出以來,引起了許多專家學(xué)者的廣泛關(guān)注。 醫(yī)學(xué)的發(fā)展已經(jīng)由經(jīng)驗(yàn)醫(yī)學(xué)、實(shí)驗(yàn)醫(yī)學(xué)轉(zhuǎn)向目前以證據(jù)為基礎(chǔ)的循證醫(yī)學(xué), 醫(yī)學(xué)數(shù)據(jù)產(chǎn)生量大,具在客觀性、實(shí)驗(yàn)性等特點(diǎn),積極探索數(shù)據(jù)挖掘在此領(lǐng)域中的應(yīng)用具有重要的實(shí)用價(jià)值和經(jīng)濟(jì)價(jià)值。 醫(yī)療數(shù)據(jù)挖掘的過程大致分為五個(gè)部分:定義問題,數(shù)據(jù)準(zhǔn)備,數(shù)據(jù)挖掘,結(jié)果分析,知識(shí)運(yùn)用。首先需要與醫(yī)療專家進(jìn)行充分交流,進(jìn)行需求分析,定義需求,并決定數(shù)據(jù)挖掘的目標(biāo)以及衡量數(shù)據(jù)挖掘方法的成功標(biāo)準(zhǔn)。確定挖掘的數(shù)據(jù)源,主要包括數(shù)據(jù)庫中的數(shù)據(jù)源,包括數(shù)據(jù)集成(將多文件或多數(shù)據(jù)庫運(yùn)行環(huán)境中的異構(gòu)數(shù)據(jù)進(jìn)行合并處理,數(shù)據(jù)清洗(去除原數(shù)據(jù)集中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),處理缺失的數(shù)據(jù)和清洗臟數(shù)據(jù)),數(shù)據(jù)變換(主要是找到數(shù)據(jù)的特征表示,用轉(zhuǎn)換方式減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式)。
..........
2.2 分類算法
對(duì)醫(yī)學(xué)數(shù)據(jù)進(jìn)行挖掘的主要目的是預(yù)測(cè)疾病,常用的方法有貝葉斯[15,16]、人工神經(jīng)網(wǎng)絡(luò)[17]、決策樹[18,19]等基本分類算法,同時(shí)也有集成分類算法如 Bagging算法[20]、AdaBoost 算法[21]等。基于后驗(yàn)概率的貝葉斯定理,是建立在對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)處理基礎(chǔ)上的方法。貝葉斯的優(yōu)點(diǎn)是理論簡(jiǎn)單,易于理解,學(xué)習(xí)的速度很快,實(shí)用性強(qiáng),訓(xùn)練集的個(gè)數(shù)只要不是變動(dòng)很大,其分類結(jié)果是不會(huì)改變的,預(yù)測(cè)效果較好,缺點(diǎn)是對(duì)發(fā)生頻率很低的事件預(yù)測(cè)效果不好。 樸素貝葉斯分類假設(shè)一個(gè)屬性值對(duì)指定類別的影響和其他屬性對(duì)該類別的影響是獨(dú)立的,這主要是為了簡(jiǎn)化后面的計(jì)算步驟。屬性之間保持獨(dú)立性是該算法的必要條件。只有符合假設(shè)條件獨(dú)立時(shí),才會(huì)保證較高的分類準(zhǔn)確率。人工神經(jīng)網(wǎng)絡(luò)是一種模仿生物神經(jīng)網(wǎng)絡(luò),以人工神經(jīng)元為基本運(yùn)算單元的一類并行處理網(wǎng)絡(luò),利用非線性映射的思想和并行處理的方法。人工神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的自組織性、魯棒性和容錯(cuò)性,,通過簡(jiǎn)化、歸納,用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來表達(dá)輸入和輸出。 人工神經(jīng)網(wǎng)絡(luò)已經(jīng)在如航天、智能識(shí)別、地震預(yù)測(cè)等領(lǐng)域得到廣泛的應(yīng)用。人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于醫(yī)學(xué)領(lǐng)域亦有近 30 多年的歷史,但是近 10 余年才有較快的發(fā)展。神經(jīng)網(wǎng)絡(luò)具有結(jié)構(gòu)復(fù)雜、訓(xùn)練時(shí)間長(zhǎng)、結(jié)果表示不容易理解等缺點(diǎn),但其對(duì)噪聲數(shù)據(jù)的承受能力強(qiáng),錯(cuò)誤率低,具有較好的并行性,這些優(yōu)點(diǎn)是其他方法所不及的。各種網(wǎng)絡(luò)訓(xùn)練算法,尤其是各種網(wǎng)絡(luò)剪枝算法和規(guī)則提取算法的不斷提出與完善,使得神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘的應(yīng)用中越來越受到大家的青睞。目前國內(nèi)外有很多研究在探討其在臨床工作中的應(yīng)用。
........
第三章 臨床數(shù)據(jù)平臺(tái)的總體架構(gòu)設(shè)計(jì) ........ 15
3.1 醫(yī)院信息系統(tǒng)現(xiàn)狀 ........ 15
3.2 總體架構(gòu)設(shè)計(jì) ......... 16
3.2.1 邏輯架構(gòu)設(shè)計(jì) ..... 16
3.2.2 物理架構(gòu)設(shè)計(jì) ..... 17
3.3 本章小結(jié) .......... 19
第四章 甲狀腺疾病臨床數(shù)據(jù)預(yù)處理和多維分析 ........ 20
4.1 甲狀腺疾病臨床數(shù)據(jù)概況 .......... 20
4.1.1 數(shù)據(jù)選取 ....... 20
4.1.2 表結(jié)構(gòu) .... 22
4.2 甲狀腺數(shù)據(jù)的預(yù)處理 .... 23
4.2.1 數(shù)據(jù)抽取 ....... 24
4.2.2 數(shù)據(jù)清洗 ....... 25
4.2.3 數(shù)據(jù)轉(zhuǎn)換 ....... 28
4.3 甲狀腺疾病臨床數(shù)據(jù)多維分析及可視化 ....... 28
4.3.1 多維分析 ...... 29
4.3.2 可視化展示 ......... 31
4.4 本章小結(jié) .......... 34
第五章 甲狀腺疾病的分類方法 ........ 35
5.1 相關(guān)研究 .......... 35
5.2 隨機(jī)森林算法介紹 ........ 36
5.3 基于隨機(jī)森林的甲狀腺疾病分類 ..... 37
5.4 本章小結(jié) .......... 45
第五章 甲狀腺疾病的分類方法
在臨床醫(yī)療中,甲狀腺疾病類型的準(zhǔn)確診斷是治愈的首要問題。本章針對(duì)甲狀腺疾病的臨床數(shù)據(jù),提出一種基于隨機(jī)森林的甲狀腺疾病類型的分類方法,該方法首先采用主成分分析法對(duì)數(shù)據(jù)集進(jìn)行特征選擇,降低數(shù)據(jù)維度,然后利用隨機(jī)森林算法實(shí)現(xiàn)分類。實(shí)驗(yàn)表明,在 UCI 標(biāo)準(zhǔn)數(shù)據(jù)集中,該方法的分類準(zhǔn)確率可以達(dá)到 94.88%;在數(shù)據(jù)量及其維度都比 UCI 標(biāo)準(zhǔn)數(shù)據(jù)集高的真實(shí)臨床醫(yī)療數(shù)據(jù)集中,準(zhǔn)確率可達(dá)到 96.16%。
5.1 相關(guān)研究
甲狀腺疾病的種類較多,主要包括甲亢、甲減、甲狀腺結(jié)節(jié)以及各種種類的甲狀腺癌等。在甲狀腺疾病的實(shí)際臨床治療中,醫(yī)生首先對(duì)患者的促甲狀腺激素(TSH)、三碘甲狀腺氨酸(T3)以及甲狀腺素(T4)等多項(xiàng)相關(guān)指標(biāo)進(jìn)行檢測(cè),然后依靠臨床經(jīng)驗(yàn)來分析這些檢測(cè)數(shù)據(jù),具體確診患者所患甲狀腺疾病的種類,最后根據(jù)不同疾病的種類采取相應(yīng)的治療方案[26]。 在這個(gè)過程中,最重要的是醫(yī)生要能依據(jù)患者的多項(xiàng)檢測(cè)指標(biāo)數(shù)據(jù),正確地判斷患者所患甲狀腺疾病。由于不同醫(yī)生的知識(shí)水平和臨床經(jīng)驗(yàn)等存在差異性,勢(shì)必會(huì)出現(xiàn)一定的誤診率,錯(cuò)誤的臨床決策將會(huì)導(dǎo)致嚴(yán)重的后果。因此,為了輔助醫(yī)生診斷決策,提高醫(yī)生診斷的正確率,研究如何利用計(jì)算機(jī)對(duì)甲狀腺檢測(cè)指標(biāo)數(shù)據(jù)進(jìn)行挖掘分析,從而對(duì)患者所患甲狀腺疾病的種類進(jìn)行分類成為近年來學(xué)者們關(guān)注的熱點(diǎn)。 國外學(xué)者們分別從神經(jīng)網(wǎng)絡(luò)、模式識(shí)別和專家系統(tǒng)等方面用計(jì)算機(jī)來實(shí)現(xiàn)甲狀腺疾病的分類。文獻(xiàn)[27]首次提出利用神經(jīng)網(wǎng)絡(luò)的方法來診斷甲狀腺疾病,比較了反向傳播(MLP with bp)、徑向基函數(shù)(RBF)以及自適應(yīng)圓錐截面函數(shù)(CSFNN)等神經(jīng)網(wǎng)絡(luò)算法。文獻(xiàn)[28]通過概率神經(jīng)網(wǎng)絡(luò)(PNN),學(xué)習(xí)矢量量化神經(jīng)網(wǎng)絡(luò)(LVQ)對(duì)甲狀腺疾病的診斷進(jìn)行了比較研究,采用概率神經(jīng)網(wǎng)絡(luò)算法分類準(zhǔn)確率最高。文獻(xiàn)[29]從選擇不同的神經(jīng)網(wǎng)絡(luò)激勵(lì)函數(shù)入手,文中通過對(duì)Sigmoid 函數(shù)、雙曲正切函數(shù)、神經(jīng)元函數(shù)、對(duì)數(shù)函數(shù)、正弦函數(shù)和指數(shù)函數(shù)等比較,得出神經(jīng)元函數(shù)最適合甲狀腺疾病分類的結(jié)論。
總結(jié)
本文利用上海市某大型三甲綜合醫(yī)院提供的真實(shí)甲狀腺疾病數(shù)據(jù)集作為處理對(duì)象,研究了甲狀腺疾病臨床數(shù)據(jù)的數(shù)據(jù)挖掘與分析技術(shù),設(shè)計(jì)并實(shí)現(xiàn)了多維分析與展示系統(tǒng)。 本文主要完成以下 4 個(gè)方面工作:
(1)通過分析醫(yī)院信息系統(tǒng)的現(xiàn)狀和存在的問題,對(duì)現(xiàn)有業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行梳理,設(shè)計(jì)了以數(shù)據(jù)倉庫為基礎(chǔ)的臨床數(shù)據(jù)分析平臺(tái)。設(shè)計(jì)了系統(tǒng)總體架構(gòu),包括邏輯和物理架構(gòu)設(shè)計(jì)。
(2)從所構(gòu)建的臨床醫(yī)療數(shù)據(jù)平臺(tái)上抽取了甲狀腺病人的臨床數(shù)據(jù),對(duì)原始數(shù)據(jù)采用數(shù)據(jù)清理、變換、集成等 ETL 技術(shù)對(duì)其進(jìn)行了預(yù)處理,并實(shí)現(xiàn)了甲狀腺疾病數(shù)據(jù)的多維分析和可視化展示,根據(jù)用戶的反饋不斷優(yōu)化和改進(jìn)可視化模板。
(3)在甲狀腺疾病的臨床醫(yī)療診斷中,對(duì)疾病種類的準(zhǔn)確診斷是治愈的關(guān)鍵。提出的基于隨機(jī)森林算法的甲狀腺疾病分類方法的特點(diǎn)在于引入了主成分分析對(duì)甲狀腺疾病數(shù)據(jù)進(jìn)行降維,彌補(bǔ)了隨機(jī)森林算法在屬性選擇方面的不足。能夠進(jìn)行較為完整的分類,分類準(zhǔn)確度能夠滿足預(yù)期需求。
(4)由于一種類型的疾病常會(huì)同時(shí)出現(xiàn)其他病癥。在治療過程中,也會(huì)使用到多種藥物進(jìn)行聯(lián)合治療。針對(duì)這些問題,本文利用 FP-Growth 關(guān)聯(lián)算法對(duì)用藥規(guī)律進(jìn)行分析,并在 HANA 上實(shí)現(xiàn)了 Apriori 關(guān)聯(lián)規(guī)則算法對(duì)甲狀腺疾病并發(fā)癥的研究。
.........
參考文獻(xiàn)(略)
本文編號(hào):61251
本文鏈接:http://sikaile.net/wenshubaike/lwfw/61251.html