天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 論文百科 > 研究生論文 >

基于甲狀腺疾病的臨床數(shù)據(jù)挖掘與分析研究

發(fā)布時間:2016-06-25 06:46

第一章  緒論

1.1  研究背景及意義
醫(yī)療信息技術和互聯(lián)網的飛速發(fā)展形成了醫(yī)院信息系統(tǒng)、公共衛(wèi)生信息系統(tǒng)、遠程醫(yī)療、家庭護理和區(qū)域協(xié)同醫(yī)療等數(shù)百億的醫(yī)療衛(wèi)生產業(yè),并得到了學術界和工業(yè)界的廣泛重視[1,2]。 在我國,醫(yī)院大范圍建設以電子病歷為重點的臨床信息系統(tǒng)已進行了 10 多年。電子病歷、醫(yī)護工作站、實驗室信息系統(tǒng)、醫(yī)學影像傳輸和存儲系統(tǒng)、放射科信息系統(tǒng)、手術麻醉管理系統(tǒng)、病理管理系統(tǒng)、心電電生理管理系統(tǒng)等臨床信息系統(tǒng)已被引入到醫(yī)院中。據(jù)中國醫(yī)院協(xié)會信息管理專業(yè)委員會發(fā)布的2013-2014 年度中國醫(yī)院信息化狀況調查顯示,電子病歷、醫(yī)護工作站已在 80%以上醫(yī)院建設,其它上述信息系統(tǒng)也已在 50%以上醫(yī)院建設[3]。 這些臨床信息系統(tǒng)的引入已為醫(yī)療行業(yè)積累了海量的、有價值的臨床數(shù)據(jù)資源,以本課題的研究對象上海某大型三甲綜合性醫(yī)院為例,該院在為患者提供醫(yī)療服務的過程中,積累了大量的臨床數(shù)據(jù),產生的年臨床數(shù)據(jù)約在 60TB。其中既有醫(yī)院信息系統(tǒng)(HIS)數(shù)據(jù),也有醫(yī)學影像數(shù)據(jù)(PACS)和病理報告等。這些臨床數(shù)據(jù)呈現(xiàn)出數(shù)據(jù)量大、數(shù)據(jù)形式多元、數(shù)據(jù)變化快和數(shù)據(jù)價值高的“大數(shù)據(jù)”特征。 隨著醫(yī)療服務水平的不斷提高,人們對醫(yī)療診斷效率以及準確度有了更高的要求,同時醫(yī)療從業(yè)者對臨床數(shù)據(jù)也有更深層次的研究分析需求。如果能夠對上述海量的臨床數(shù)據(jù)進行有效利用,分析挖掘出其中隱含的信息,對于提高醫(yī)療診斷準確性、防治疾病和攻克頑疾等將具有重要意義,同時,還可以為患者提供個性化精準診療服務,為醫(yī)療行業(yè)的管理者提供更好的決策支持。 因此,臨床數(shù)據(jù)的研究與分析在大數(shù)據(jù)時代顯得越來越重要。如何從大量的歷史臨床數(shù)據(jù)中發(fā)現(xiàn)有價值的信息,提高疾病診斷的準確性和研究疾病的發(fā)展趨勢,已成為擺在臨床數(shù)據(jù)分析面前的難題。為了解決該問題,近年來很多學者將數(shù)據(jù)挖掘技術應用到醫(yī)學領域中。 
.........

1.2  國內外研究現(xiàn)狀
面對大量結構復雜和種類繁多的醫(yī)療數(shù)據(jù),傳統(tǒng)的統(tǒng)計方法已經無能為力;數(shù)據(jù)挖掘技術是傳統(tǒng)統(tǒng)計分析方法的延伸和補充,能夠通過數(shù)據(jù)挖掘算法對復雜的醫(yī)療數(shù)據(jù)進行分析處理,從而實現(xiàn)自動的信息模式的獲取。 國外對于醫(yī)學數(shù)據(jù)挖掘的研究起步較早,在醫(yī)學圖像分類、疾病診斷、藥物管理等方面的成果比較豐富。文獻[6]提出了利用人工神經網絡方法對計算機斷層掃描(CT)和磁共振成像(MRI)等醫(yī)學影像進行分類的方法。文獻[7]中對七種不同類型的神經網絡進行研究以實現(xiàn)對甲狀腺疾病更強大和更可靠的的診斷。使用啟發(fā)式訓練算法的前饋多層神經網絡的精度值比類似的研究要高。文獻[8]提出了通過決策支持系統(tǒng)對醫(yī)生處方中的用藥量、用藥頻率等因素進行輔助指導,引導醫(yī)生對腎功能不全的病人制定更準確的治療方案,減少醫(yī)療事故。文獻[9]提出了分別采用決策樹、貝葉斯和神經網絡等數(shù)據(jù)挖掘技術,開發(fā)了一個智能心臟病預測系統(tǒng)原型系統(tǒng)(IHDPS)。IHDPS 系統(tǒng)能夠通過年齡、性別、血壓和血糖等醫(yī)療數(shù)據(jù)來預測心臟病的可能性。文獻[10]提出了利用樸素貝葉斯建立心臟病預測決策支持系統(tǒng),使用如年齡,性別,血壓和血糖等信息可預測心臟疾病發(fā)生的可能性。文獻[11]提出了一種用于眼底圖像自動分類方法。對比了樸素貝葉斯分類器、K 近鄰和支持向量機三種方法,發(fā)現(xiàn)樸素貝葉斯分類器優(yōu)于其他兩個分類方法。 我國的醫(yī)院信息系統(tǒng)(HIS)經過多年的信息化建設,已具備相當?shù)奈镔|條件和人才儲備,并積累了大量數(shù)據(jù),為數(shù)據(jù)挖掘的應用奠定了一定的物質基礎。而且,醫(yī)院信息化發(fā)展是我國信息化建設的重要組成部分,國家對此給予了高度的重視并提供了大量政策上和經濟上的支持,為行業(yè)性數(shù)據(jù)挖掘的實施提供了良好的政策環(huán)境和經濟保障。 
...........

第二章  相關技術研究

本文的研究目標是通過數(shù)據(jù)挖掘技術,從大量的甲狀腺病人的臨床數(shù)據(jù)中獲取有效的分類規(guī)則及關聯(lián)規(guī)則。因此,本章主要介紹本文用到的相關技術,包括醫(yī)學數(shù)據(jù)挖掘技術,分類算法和關聯(lián)規(guī)則算法。同時介紹了數(shù)據(jù)展示技術的兩個重要組成部分:HANA(High-Performance Analytic Appliance)數(shù)據(jù)庫管理系統(tǒng)和 BO(Business Objects)技術。 

2.1  醫(yī)療數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是一門交叉學科,涉及到數(shù)據(jù)庫技術、模式識別、機器學習、人工智能、并行計算、統(tǒng)計學和數(shù)據(jù)可視化等領域。簡單來說,數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的潛在有用的信息和知識的過程。數(shù)據(jù)挖掘是知識發(fā)現(xiàn)中的一個關鍵步驟,是在對數(shù)據(jù)全面而深刻認識的基礎上,對數(shù)據(jù)內在和本質的高度抽象與概括,也是對數(shù)據(jù)從感性認識到理性認識的升華。自 20 世紀末提出以來,引起了許多專家學者的廣泛關注。 醫(yī)學的發(fā)展已經由經驗醫(yī)學、實驗醫(yī)學轉向目前以證據(jù)為基礎的循證醫(yī)學, 醫(yī)學數(shù)據(jù)產生量大,具在客觀性、實驗性等特點,積極探索數(shù)據(jù)挖掘在此領域中的應用具有重要的實用價值和經濟價值。 醫(yī)療數(shù)據(jù)挖掘的過程大致分為五個部分:定義問題,數(shù)據(jù)準備,數(shù)據(jù)挖掘,結果分析,知識運用。首先需要與醫(yī)療專家進行充分交流,進行需求分析,定義需求,并決定數(shù)據(jù)挖掘的目標以及衡量數(shù)據(jù)挖掘方法的成功標準。確定挖掘的數(shù)據(jù)源,主要包括數(shù)據(jù)庫中的數(shù)據(jù)源,包括數(shù)據(jù)集成(將多文件或多數(shù)據(jù)庫運行環(huán)境中的異構數(shù)據(jù)進行合并處理,數(shù)據(jù)清洗(去除原數(shù)據(jù)集中的噪聲數(shù)據(jù)和無關數(shù)據(jù),處理缺失的數(shù)據(jù)和清洗臟數(shù)據(jù)),數(shù)據(jù)變換(主要是找到數(shù)據(jù)的特征表示,用轉換方式減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式)。 
..........

2.2  分類算法
對醫(yī)學數(shù)據(jù)進行挖掘的主要目的是預測疾病,常用的方法有貝葉斯[15,16]、人工神經網絡[17]、決策樹[18,19]等基本分類算法,同時也有集成分類算法如 Bagging算法[20]、AdaBoost 算法[21]等。基于后驗概率的貝葉斯定理,是建立在對數(shù)據(jù)進行統(tǒng)計處理基礎上的方法。貝葉斯的優(yōu)點是理論簡單,易于理解,學習的速度很快,實用性強,訓練集的個數(shù)只要不是變動很大,其分類結果是不會改變的,預測效果較好,缺點是對發(fā)生頻率很低的事件預測效果不好。 樸素貝葉斯分類假設一個屬性值對指定類別的影響和其他屬性對該類別的影響是獨立的,這主要是為了簡化后面的計算步驟。屬性之間保持獨立性是該算法的必要條件。只有符合假設條件獨立時,才會保證較高的分類準確率。人工神經網絡是一種模仿生物神經網絡,以人工神經元為基本運算單元的一類并行處理網絡,利用非線性映射的思想和并行處理的方法。人工神經網絡具有很強的自組織性、魯棒性和容錯性,,通過簡化、歸納,用神經網絡結構來表達輸入和輸出。 人工神經網絡已經在如航天、智能識別、地震預測等領域得到廣泛的應用。人工神經網絡應用于醫(yī)學領域亦有近 30 多年的歷史,但是近 10 余年才有較快的發(fā)展。神經網絡具有結構復雜、訓練時間長、結果表示不容易理解等缺點,但其對噪聲數(shù)據(jù)的承受能力強,錯誤率低,具有較好的并行性,這些優(yōu)點是其他方法所不及的。各種網絡訓練算法,尤其是各種網絡剪枝算法和規(guī)則提取算法的不斷提出與完善,使得神經網絡在數(shù)據(jù)挖掘的應用中越來越受到大家的青睞。目前國內外有很多研究在探討其在臨床工作中的應用。 
........

第三章   臨床數(shù)據(jù)平臺的總體架構設計 ........ 15 
3.1  醫(yī)院信息系統(tǒng)現(xiàn)狀 ........ 15
3.2  總體架構設計 ......... 16 
3.2.1  邏輯架構設計 ..... 16 
3.2.2  物理架構設計 ..... 17 
3.3  本章小結 .......... 19 
第四章  甲狀腺疾病臨床數(shù)據(jù)預處理和多維分析 ........ 20
4.1  甲狀腺疾病臨床數(shù)據(jù)概況 .......... 20 
4.1.1 數(shù)據(jù)選取 ....... 20 
4.1.2 表結構 .... 22 
4.2  甲狀腺數(shù)據(jù)的預處理 .... 23 
4.2.1 數(shù)據(jù)抽取 ....... 24 
4.2.2 數(shù)據(jù)清洗 ....... 25 
4.2.3 數(shù)據(jù)轉換 ....... 28 
4.3  甲狀腺疾病臨床數(shù)據(jù)多維分析及可視化 ....... 28 
4.3.1  多維分析 ...... 29 
4.3.2  可視化展示 ......... 31 
4.4  本章小結 .......... 34 
第五章  甲狀腺疾病的分類方法 ........ 35 
5.1  相關研究 .......... 35 
5.2  隨機森林算法介紹 ........ 36 
5.3  基于隨機森林的甲狀腺疾病分類 ..... 37 
5.4  本章小結 .......... 45 

第五章  甲狀腺疾病的分類方法

在臨床醫(yī)療中,甲狀腺疾病類型的準確診斷是治愈的首要問題。本章針對甲狀腺疾病的臨床數(shù)據(jù),提出一種基于隨機森林的甲狀腺疾病類型的分類方法,該方法首先采用主成分分析法對數(shù)據(jù)集進行特征選擇,降低數(shù)據(jù)維度,然后利用隨機森林算法實現(xiàn)分類。實驗表明,在 UCI 標準數(shù)據(jù)集中,該方法的分類準確率可以達到 94.88%;在數(shù)據(jù)量及其維度都比 UCI 標準數(shù)據(jù)集高的真實臨床醫(yī)療數(shù)據(jù)集中,準確率可達到 96.16%。 

5.1  相關研究

甲狀腺疾病的種類較多,主要包括甲亢、甲減、甲狀腺結節(jié)以及各種種類的甲狀腺癌等。在甲狀腺疾病的實際臨床治療中,醫(yī)生首先對患者的促甲狀腺激素(TSH)、三碘甲狀腺氨酸(T3)以及甲狀腺素(T4)等多項相關指標進行檢測,然后依靠臨床經驗來分析這些檢測數(shù)據(jù),具體確診患者所患甲狀腺疾病的種類,最后根據(jù)不同疾病的種類采取相應的治療方案[26]。 在這個過程中,最重要的是醫(yī)生要能依據(jù)患者的多項檢測指標數(shù)據(jù),正確地判斷患者所患甲狀腺疾病。由于不同醫(yī)生的知識水平和臨床經驗等存在差異性,勢必會出現(xiàn)一定的誤診率,錯誤的臨床決策將會導致嚴重的后果。因此,為了輔助醫(yī)生診斷決策,提高醫(yī)生診斷的正確率,研究如何利用計算機對甲狀腺檢測指標數(shù)據(jù)進行挖掘分析,從而對患者所患甲狀腺疾病的種類進行分類成為近年來學者們關注的熱點。 國外學者們分別從神經網絡、模式識別和專家系統(tǒng)等方面用計算機來實現(xiàn)甲狀腺疾病的分類。文獻[27]首次提出利用神經網絡的方法來診斷甲狀腺疾病,比較了反向傳播(MLP  with  bp)、徑向基函數(shù)(RBF)以及自適應圓錐截面函數(shù)(CSFNN)等神經網絡算法。文獻[28]通過概率神經網絡(PNN),學習矢量量化神經網絡(LVQ)對甲狀腺疾病的診斷進行了比較研究,采用概率神經網絡算法分類準確率最高。文獻[29]從選擇不同的神經網絡激勵函數(shù)入手,文中通過對Sigmoid 函數(shù)、雙曲正切函數(shù)、神經元函數(shù)、對數(shù)函數(shù)、正弦函數(shù)和指數(shù)函數(shù)等比較,得出神經元函數(shù)最適合甲狀腺疾病分類的結論。

基于甲狀腺疾病的臨床數(shù)據(jù)挖掘與分析研究

..........

總結

本文利用上海市某大型三甲綜合醫(yī)院提供的真實甲狀腺疾病數(shù)據(jù)集作為處理對象,研究了甲狀腺疾病臨床數(shù)據(jù)的數(shù)據(jù)挖掘與分析技術,設計并實現(xiàn)了多維分析與展示系統(tǒng)。 本文主要完成以下 4 個方面工作: 
(1)通過分析醫(yī)院信息系統(tǒng)的現(xiàn)狀和存在的問題,對現(xiàn)有業(yè)務系統(tǒng)的數(shù)據(jù)進行梳理,設計了以數(shù)據(jù)倉庫為基礎的臨床數(shù)據(jù)分析平臺。設計了系統(tǒng)總體架構,包括邏輯和物理架構設計。 
(2)從所構建的臨床醫(yī)療數(shù)據(jù)平臺上抽取了甲狀腺病人的臨床數(shù)據(jù),對原始數(shù)據(jù)采用數(shù)據(jù)清理、變換、集成等 ETL 技術對其進行了預處理,并實現(xiàn)了甲狀腺疾病數(shù)據(jù)的多維分析和可視化展示,根據(jù)用戶的反饋不斷優(yōu)化和改進可視化模板。 
(3)在甲狀腺疾病的臨床醫(yī)療診斷中,對疾病種類的準確診斷是治愈的關鍵。提出的基于隨機森林算法的甲狀腺疾病分類方法的特點在于引入了主成分分析對甲狀腺疾病數(shù)據(jù)進行降維,彌補了隨機森林算法在屬性選擇方面的不足。能夠進行較為完整的分類,分類準確度能夠滿足預期需求。 
(4)由于一種類型的疾病常會同時出現(xiàn)其他病癥。在治療過程中,也會使用到多種藥物進行聯(lián)合治療。針對這些問題,本文利用 FP-Growth 關聯(lián)算法對用藥規(guī)律進行分析,并在 HANA 上實現(xiàn)了 Apriori 關聯(lián)規(guī)則算法對甲狀腺疾病并發(fā)癥的研究。  
.........
參考文獻(略)




本文編號:61251

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenshubaike/lwfw/61251.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶a2843***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com