基于PCA-集成學習的甲狀腺結節(jié)輔助診斷決策研究
發(fā)布時間:2021-08-12 00:38
甲狀腺癌是人體內分泌系統(tǒng)中患病率最高的疾病之一,近年來發(fā)病率逐年上升。超聲檢查可以識別觸診較難發(fā)現(xiàn)的甲狀腺結節(jié)可疑病灶,是實現(xiàn)早期甲狀腺癌篩查的有效手段。醫(yī)院超聲科信息系統(tǒng)中儲存了大量的甲狀腺患者就診數(shù)據(jù),蘊藏著豐富的醫(yī)療信息。通過科學的方法對超聲科甲狀腺數(shù)據(jù)進行挖掘與分析,獲取有效信息,對輔助醫(yī)生提高診斷精確性具有重要的現(xiàn)實意義。本研究面向甲狀腺結節(jié)輔助診斷決策問題,基于合作醫(yī)院信息系統(tǒng)中的甲狀腺超聲數(shù)據(jù),以輔助醫(yī)生提高對甲狀腺結節(jié)良惡性診斷的精度和效率為目標,研究內容主要包括以下幾點。首先,基于超聲科甲狀腺數(shù)據(jù),結合醫(yī)生專業(yè)知識對原始數(shù)據(jù)進行預處理得到標準有效數(shù)據(jù),并從整體描述、單個指標與病理結果、多個指標與病理結果、指標與指標四個維度對甲狀腺有效數(shù)據(jù)進行綜合分析,初步了解甲狀腺數(shù)據(jù)特點。其次,根據(jù)甲狀腺數(shù)據(jù)特點,使用PCA消除甲狀腺指標間的相關性并降低輸入項的維度,并使用個體分類器與集成學習算法對比,從二分類和多分類相結合的角度,提出基于PCA-集成學習的甲狀腺結節(jié)輔助診斷模型。最后,基于甲狀腺有效數(shù)據(jù),從分類效果和運算效率兩個角度,對邏輯回歸、支持向量機、K近鄰法、決策樹、隨機...
【文章來源】:合肥工業(yè)大學安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【圖文】:
論文主要內容框架圖
第二章研究基礎與相關理論82.2.1邏輯回歸算法Martin于1977年首次使用邏輯回歸(LogisticRegression,LR)模型對58家金融危機公司進行財務預警[52]。LR屬于最優(yōu)化算法,它預測因變量發(fā)生的概率,通過區(qū)分預測的概率達到分類的效果[53]。當因變量是二分類問題時,通常采用二元LR。采用二元LR時,通常設因變量Y只有兩個狀態(tài),分別用0和1表示,則因變量Y發(fā)生的概率p=P(Y=1)。假設有k個影響Y取值的影響因素,分別為x0,x1,…,xk,并且p的取值始終在0到1之間,由此可構造sigmoid函數(shù):11zpe(2.1)011kkzxx(2.2)其中β0,β1,…,βk是未知參數(shù),z是關于x的表達式,由此可得LR函數(shù)為:0111kkplnxxp(2.3)sigmoid函數(shù)的曲線圖如圖2.1所示,當x等于0時,函數(shù)值等于0.5;隨著x的減小,函數(shù)值減小且無限趨近于0;隨著x的增大,函數(shù)的值增加并無限趨近于1[54]。圖2.1sigmoid函數(shù)曲線圖Fig2.1Graphofsigmoidfunction根據(jù)式2.3可知,LR函數(shù)中含有未知參數(shù)β0,β1,…,βk,可以使用極大似然值法求解未知參數(shù)。設y是0-1類型的二分類變量,x0,x1,…,xk是與y相關的變量,n組觀測的數(shù)據(jù)為(xi1,xi2,…,xik;yi)(i=1,2,…n),則yi與xi1,xi2,…,xik的關系可以表達為:
第二章研究基礎與相關理論10哪個類別的元素最多,由此將xq分入所屬類別最多的類。根據(jù)以上操作過程可知,執(zhí)行KNN算法時關鍵的三點分別為:K值的選擇、距離的計算以及分類規(guī)則的制定。在實際工作中,K值選擇可使用交叉驗證來進行優(yōu)化,計算距離可使用歐氏距離、曼哈頓距離等,分類規(guī)則的設置時可采用平均加權法或其他權重調配方法。KNN算法操作簡單、分類效果較好,而且最突出的特點是不需要預計參數(shù),也不需要訓練,因此運算效率較高。2.2.4決策樹算法決策樹是一種以樹的結構將展現(xiàn)分類過程的個體學習器算法,在分類和回歸問題中有廣泛的應用,其目標是建立一個可以預測目標變量的類或值的訓練模型,與其他分類算法相比。決策樹通過樹的形式來解決問題,樹內的每個節(jié)點表示一個屬性,每個葉節(jié)點表示一類標簽。采用自上而下的遞歸方式,在決策樹的內部節(jié)點比較屬性值,并根據(jù)不同屬性判斷從該節(jié)點下的分支方向,最后在葉節(jié)點得到結論。圖2.2為決策樹的運算示意圖。圖2.2決策樹結構示意圖Fig2.2Structurediagramofdecisiontree決策樹的預測方面功能強大,常作為集成學習的弱學習器,目前比較常用的有ID3、C4.5、CART、SLIQ、SPRINT等。決策樹通過樹的形式展現(xiàn)運算過程,因此具有一定的可解釋性。2.3集成學習以上是個體分類器算法,在實際應用中常用集成學習(EnsembleLearning)解決復雜問題。集成學習可分為同質集成和異質集成,同質集成通常使用一個弱分類器做集成,對應的異質集成則采用多個學習器。隨著弱學習器的增加,集成學習
【參考文獻】:
期刊論文
[1]甲狀腺結節(jié)和分化型甲狀腺癌診治指南[J]. 中華內分泌代謝雜志. 2012 (10)
[2]主成分分析原始數(shù)據(jù)的預處理問題[J]. 萬星火,檀亦麗. 中國衛(wèi)生統(tǒng)計. 2005(05)
[3]數(shù)據(jù)挖掘中的數(shù)據(jù)預處理[J]. 劉明吉,王秀峰,黃亞樓. 計算機科學. 2000(04)
博士論文
[1]基于電子病歷數(shù)據(jù)的臨床決策支持研究[D]. 王昱.浙江大學 2016
碩士論文
[1]面向臨床決策支持的貝葉斯網絡醫(yī)囑推薦方法研究[D]. 劉文洋.北京理工大學 2016
[2]基于隨機森林的指數(shù)化投資組合構建研究[D]. 韓燕龍.華南理工大學 2015
[3]術前血清促甲狀腺激素水平與分化型甲狀腺癌的發(fā)病風險[D]. 王方梅.上海交通大學 2014
[4]基于人工智能機器學習的文字識別方法研究[D]. 李雷.電子科技大學 2013
本文編號:3337219
【文章來源】:合肥工業(yè)大學安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【圖文】:
論文主要內容框架圖
第二章研究基礎與相關理論82.2.1邏輯回歸算法Martin于1977年首次使用邏輯回歸(LogisticRegression,LR)模型對58家金融危機公司進行財務預警[52]。LR屬于最優(yōu)化算法,它預測因變量發(fā)生的概率,通過區(qū)分預測的概率達到分類的效果[53]。當因變量是二分類問題時,通常采用二元LR。采用二元LR時,通常設因變量Y只有兩個狀態(tài),分別用0和1表示,則因變量Y發(fā)生的概率p=P(Y=1)。假設有k個影響Y取值的影響因素,分別為x0,x1,…,xk,并且p的取值始終在0到1之間,由此可構造sigmoid函數(shù):11zpe(2.1)011kkzxx(2.2)其中β0,β1,…,βk是未知參數(shù),z是關于x的表達式,由此可得LR函數(shù)為:0111kkplnxxp(2.3)sigmoid函數(shù)的曲線圖如圖2.1所示,當x等于0時,函數(shù)值等于0.5;隨著x的減小,函數(shù)值減小且無限趨近于0;隨著x的增大,函數(shù)的值增加并無限趨近于1[54]。圖2.1sigmoid函數(shù)曲線圖Fig2.1Graphofsigmoidfunction根據(jù)式2.3可知,LR函數(shù)中含有未知參數(shù)β0,β1,…,βk,可以使用極大似然值法求解未知參數(shù)。設y是0-1類型的二分類變量,x0,x1,…,xk是與y相關的變量,n組觀測的數(shù)據(jù)為(xi1,xi2,…,xik;yi)(i=1,2,…n),則yi與xi1,xi2,…,xik的關系可以表達為:
第二章研究基礎與相關理論10哪個類別的元素最多,由此將xq分入所屬類別最多的類。根據(jù)以上操作過程可知,執(zhí)行KNN算法時關鍵的三點分別為:K值的選擇、距離的計算以及分類規(guī)則的制定。在實際工作中,K值選擇可使用交叉驗證來進行優(yōu)化,計算距離可使用歐氏距離、曼哈頓距離等,分類規(guī)則的設置時可采用平均加權法或其他權重調配方法。KNN算法操作簡單、分類效果較好,而且最突出的特點是不需要預計參數(shù),也不需要訓練,因此運算效率較高。2.2.4決策樹算法決策樹是一種以樹的結構將展現(xiàn)分類過程的個體學習器算法,在分類和回歸問題中有廣泛的應用,其目標是建立一個可以預測目標變量的類或值的訓練模型,與其他分類算法相比。決策樹通過樹的形式來解決問題,樹內的每個節(jié)點表示一個屬性,每個葉節(jié)點表示一類標簽。采用自上而下的遞歸方式,在決策樹的內部節(jié)點比較屬性值,并根據(jù)不同屬性判斷從該節(jié)點下的分支方向,最后在葉節(jié)點得到結論。圖2.2為決策樹的運算示意圖。圖2.2決策樹結構示意圖Fig2.2Structurediagramofdecisiontree決策樹的預測方面功能強大,常作為集成學習的弱學習器,目前比較常用的有ID3、C4.5、CART、SLIQ、SPRINT等。決策樹通過樹的形式展現(xiàn)運算過程,因此具有一定的可解釋性。2.3集成學習以上是個體分類器算法,在實際應用中常用集成學習(EnsembleLearning)解決復雜問題。集成學習可分為同質集成和異質集成,同質集成通常使用一個弱分類器做集成,對應的異質集成則采用多個學習器。隨著弱學習器的增加,集成學習
【參考文獻】:
期刊論文
[1]甲狀腺結節(jié)和分化型甲狀腺癌診治指南[J]. 中華內分泌代謝雜志. 2012 (10)
[2]主成分分析原始數(shù)據(jù)的預處理問題[J]. 萬星火,檀亦麗. 中國衛(wèi)生統(tǒng)計. 2005(05)
[3]數(shù)據(jù)挖掘中的數(shù)據(jù)預處理[J]. 劉明吉,王秀峰,黃亞樓. 計算機科學. 2000(04)
博士論文
[1]基于電子病歷數(shù)據(jù)的臨床決策支持研究[D]. 王昱.浙江大學 2016
碩士論文
[1]面向臨床決策支持的貝葉斯網絡醫(yī)囑推薦方法研究[D]. 劉文洋.北京理工大學 2016
[2]基于隨機森林的指數(shù)化投資組合構建研究[D]. 韓燕龍.華南理工大學 2015
[3]術前血清促甲狀腺激素水平與分化型甲狀腺癌的發(fā)病風險[D]. 王方梅.上海交通大學 2014
[4]基于人工智能機器學習的文字識別方法研究[D]. 李雷.電子科技大學 2013
本文編號:3337219
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3337219.html