基于不平衡數(shù)據(jù)的血栓風(fēng)險(xiǎn)預(yù)測(cè)算法研究
發(fā)布時(shí)間:2023-08-05 20:20
骨科術(shù)后靜脈血栓栓塞癥是患者手術(shù)期死亡的主要原因之一,病人發(fā)病期一般無(wú)臨床表現(xiàn),血栓通過(guò)阻塞臟器動(dòng)脈造成死亡。在美國(guó)近25%的VTE患者入院,10%的住院患者死亡與肺栓塞有關(guān)。我國(guó)自2007至2016,VTE的發(fā)生率也從3.2/10萬(wàn)人上升至17.5/10萬(wàn)人,對(duì)骨科術(shù)后血栓風(fēng)險(xiǎn)預(yù)測(cè)分析在臨床研究中起著重要的作用。但臨床中患病人數(shù)比例極低,存在嚴(yán)重的數(shù)據(jù)不平衡現(xiàn)象。在機(jī)器學(xué)習(xí)的實(shí)際應(yīng)用中,還有許多數(shù)據(jù)集是不平衡的,并且很多時(shí)候少數(shù)類數(shù)據(jù)更重要,將其錯(cuò)分要付出更大的代價(jià),如金融欺詐檢測(cè)、故障檢測(cè)、垃圾郵件判別等。因此,以全部數(shù)據(jù)預(yù)測(cè)準(zhǔn)確率為學(xué)習(xí)目標(biāo)的傳統(tǒng)分類算法并不適用于不平衡數(shù)據(jù)的分類,對(duì)提高不平衡數(shù)據(jù)的分類效果有著重要的研究意義。當(dāng)前對(duì)于不平衡數(shù)據(jù)分類問(wèn)題主要從兩個(gè)方面解決,一個(gè)是數(shù)據(jù)重采樣,另一方面是對(duì)分類算法的改進(jìn)。基于以上背景,本文通過(guò)對(duì)真實(shí)數(shù)據(jù)集的預(yù)處理、改進(jìn)重采樣算法、將代價(jià)敏感函數(shù)與集成學(xué)習(xí)算法結(jié)合三個(gè)方面,解決骨科術(shù)后不平衡數(shù)據(jù)的分類問(wèn)題。本文主要工作如下:(1)本論文所研究的數(shù)據(jù)來(lái)源于中國(guó)人民解放軍總醫(yī)院(301醫(yī)院)骨科,數(shù)據(jù)具有真實(shí)性,在醫(yī)院對(duì)病人數(shù)據(jù)錄入中,無(wú)法...
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景與意義
1.2 研究現(xiàn)狀
1.2.1 采樣算法研究現(xiàn)狀
1.2.2 不平衡數(shù)據(jù)分類算法的研究現(xiàn)狀
1.3 本文研究?jī)?nèi)容與工作安排
1.4 本章小結(jié)
第2章 理論基礎(chǔ)
2.1 采樣算法
2.1.1 欠采樣算法
2.1.2 過(guò)采樣算法
2.2 分類算法
2.2.1 邏輯回歸算法
2.2.2 決策樹(shù)算法
2.2.2.1 C4.5決策樹(shù)
2.2.2.2 CART決策樹(shù)
2.3 集成學(xué)習(xí)
2.3.1 集成學(xué)習(xí)概述
2.3.2 bagging
2.3.3 boosting
2.4 不平衡數(shù)據(jù)分類器性能評(píng)價(jià)指標(biāo)
2.5 本章小結(jié)
第3章 骨科術(shù)后血栓數(shù)據(jù)集
3.1 數(shù)據(jù)集描述
3.2 數(shù)據(jù)集預(yù)處理
3.3 本章小結(jié)
第4章 基于孤立森林的自適應(yīng)合成采樣算法(i F-ADASYN)
4.1 孤立森林算法
4.2 異常點(diǎn)對(duì)ADASYN采樣算法的影響
4.3 IF-ADASYN算法
4.3.1 IF-ADASYN算法離群點(diǎn)權(quán)重的確定
4.3.2 IF-ADASYN算法的具體步驟
4.4 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
4.4.1 實(shí)驗(yàn)環(huán)境
4.4.2 實(shí)驗(yàn)設(shè)置與數(shù)據(jù)集
4.4.3 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
4.5 本章小結(jié)
第5章 基于代價(jià)敏感的梯度提升樹(shù)算法(CO-GBDT)
5.1 代價(jià)敏感學(xué)習(xí)
5.1.1 代價(jià)敏感學(xué)習(xí)簡(jiǎn)介
5.1.2 代價(jià)敏感學(xué)習(xí)的分類
5.2 GBDT算法概述
5.3 基于代價(jià)敏感學(xué)習(xí)的梯度提升樹(shù)算法概述
5.3.1 Bayes最優(yōu)分類
5.3.2 基于代價(jià)敏感學(xué)習(xí)的損失函數(shù)
5.3.3 基于代價(jià)敏感學(xué)習(xí)的梯度提升樹(shù)算法(CO-GBDT)
5.4 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
5.4.1 實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)數(shù)據(jù)集
5.4.2 實(shí)驗(yàn)設(shè)置
5.4.3 實(shí)驗(yàn)結(jié)果及分析
5.5 本章小結(jié)
第6章 總結(jié)與展望
6.1 全文總結(jié)
6.2 未來(lái)展望
參考文獻(xiàn)
攻讀學(xué)位期間取得的研究成果
致謝
本文編號(hào):3839269
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景與意義
1.2 研究現(xiàn)狀
1.2.1 采樣算法研究現(xiàn)狀
1.2.2 不平衡數(shù)據(jù)分類算法的研究現(xiàn)狀
1.3 本文研究?jī)?nèi)容與工作安排
1.4 本章小結(jié)
第2章 理論基礎(chǔ)
2.1 采樣算法
2.1.1 欠采樣算法
2.1.2 過(guò)采樣算法
2.2 分類算法
2.2.1 邏輯回歸算法
2.2.2 決策樹(shù)算法
2.2.2.1 C4.5決策樹(shù)
2.2.2.2 CART決策樹(shù)
2.3 集成學(xué)習(xí)
2.3.1 集成學(xué)習(xí)概述
2.3.2 bagging
2.3.3 boosting
2.4 不平衡數(shù)據(jù)分類器性能評(píng)價(jià)指標(biāo)
2.5 本章小結(jié)
第3章 骨科術(shù)后血栓數(shù)據(jù)集
3.1 數(shù)據(jù)集描述
3.2 數(shù)據(jù)集預(yù)處理
3.3 本章小結(jié)
第4章 基于孤立森林的自適應(yīng)合成采樣算法(i F-ADASYN)
4.1 孤立森林算法
4.2 異常點(diǎn)對(duì)ADASYN采樣算法的影響
4.3 IF-ADASYN算法
4.3.1 IF-ADASYN算法離群點(diǎn)權(quán)重的確定
4.3.2 IF-ADASYN算法的具體步驟
4.4 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
4.4.1 實(shí)驗(yàn)環(huán)境
4.4.2 實(shí)驗(yàn)設(shè)置與數(shù)據(jù)集
4.4.3 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
4.5 本章小結(jié)
第5章 基于代價(jià)敏感的梯度提升樹(shù)算法(CO-GBDT)
5.1 代價(jià)敏感學(xué)習(xí)
5.1.1 代價(jià)敏感學(xué)習(xí)簡(jiǎn)介
5.1.2 代價(jià)敏感學(xué)習(xí)的分類
5.2 GBDT算法概述
5.3 基于代價(jià)敏感學(xué)習(xí)的梯度提升樹(shù)算法概述
5.3.1 Bayes最優(yōu)分類
5.3.2 基于代價(jià)敏感學(xué)習(xí)的損失函數(shù)
5.3.3 基于代價(jià)敏感學(xué)習(xí)的梯度提升樹(shù)算法(CO-GBDT)
5.4 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
5.4.1 實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)數(shù)據(jù)集
5.4.2 實(shí)驗(yàn)設(shè)置
5.4.3 實(shí)驗(yàn)結(jié)果及分析
5.5 本章小結(jié)
第6章 總結(jié)與展望
6.1 全文總結(jié)
6.2 未來(lái)展望
參考文獻(xiàn)
攻讀學(xué)位期間取得的研究成果
致謝
本文編號(hào):3839269
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3839269.html
最近更新
教材專著