基于XGBoost算法的前列腺癌風險診斷預測研究
發(fā)布時間:2023-05-25 05:56
目前臨床早期篩查前列腺腫瘤主要依靠對前列腺特異性抗原(PSA)進行檢查診斷,但是通過PSA診斷前列腺腫瘤的靈敏度和特異度不是很理想。本文采用機器學習算法和數(shù)據(jù)挖掘方法,通過對臨床醫(yī)學科學數(shù)據(jù)中心(北京301醫(yī)院)的前列腺腫瘤數(shù)據(jù)集進行分析研究,聯(lián)合PSA和血常規(guī)、生化檢查、尿常規(guī)等檢查指標,篩選前列腺腫瘤風險因素。首先通過隨機森林模型對數(shù)據(jù)進行缺失值處理,通過統(tǒng)計分析方法進行單特征分析以及聯(lián)合特征分析,利用統(tǒng)計分析的結果組合出有臨床意義的特征來提高模型的泛化能力;通過皮爾森相關系數(shù)選擇與目標相關性大的特征來構建模型,同時,通過SMOTE算法對數(shù)據(jù)集進行上采樣用以解決樣品不平衡的問題;再將預處理過的樣本集作為預測模型的訓練和測試樣本。預測模型分別采用基于隨機森林算法、AdaBoost算法、XGBoost算法構建的模型。本文通過實驗對比來優(yōu)選預測模型,通過召回率、精確率、f1-score、ROC曲線等指標進行評估;根據(jù)實驗結果和混淆矩陣進行綜合評估,構建基于XGBoost算法的前列腺腫瘤診斷預測模型,其召回率、精確率為0.98,0.91,給出PSA(游離)的比率、PSA(總)、無機磷、PS...
【文章頁數(shù)】:72 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 課題研究的背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究內(nèi)容及技術路線
1.3.1 擬解決的關鍵問題
1.3.2 研究方法和思路
1.3.3 研究內(nèi)容
第二章 數(shù)據(jù)挖掘相關理論及工具
2.1 相關工具及實驗平臺
2.1.1 NumPy
2.1.2 Pandas
2.1.3 Scikit-learn
2.1.4 PyCharm
2.2 數(shù)據(jù)清洗方法
2.2.1 探索性分析
2.2.2 缺失值處理
2.2.3 異常值處理
2.2.4 噪音處理
2.3 特征分析方法
2.3.1 特征選擇
2.3.2 特征構造
第三章 前列腺癌數(shù)據(jù)的預處理與挖掘分析
3.1 數(shù)據(jù)獲取
3.2 數(shù)據(jù)清洗
3.2.1 缺失值填充
3.2.2 異常點檢測
3.2.3 特征組合
3.3 數(shù)據(jù)分析
3.3.1 單特征分析
3.3.2 聯(lián)合特征分析
第四章 前列腺癌風險預測模型構建研究
4.1 模型算法
4.1.1 隨機森林
4.1.2 AdaBoost算法
4.1.3 XGBoost算法
4.1.4 SMOTE算法
4.2 評價指標
4.2.1 正確率(Accuracy)
4.2.2 混淆矩陣
4.2.3 查準率、召回率、F1-Score
4.2.4 ROC曲線與AUC
第五章 實驗結果對比分析
5.1 Adaboost模型
5.1.1 未經(jīng)平衡處理的Adaboost算法建模
5.1.2 經(jīng)SMOTE處理的Adaboost算法
5.2 隨機森林
5.2.1 未經(jīng)平衡處理的隨機森林模型
5.2.2 經(jīng)過SMOTE平衡處理的隨機森林模型
5.3 XGBoost模型
5.3.1 未經(jīng)平衡處理的XGBoost模型
5.3.2 經(jīng)過SMOTE處理的XGBoost模型
5.4 實驗結果分析總結
第六章 結論與展望
6.1 結論
6.2 局限性
6.3 展望
參考文獻
附錄 圖表目錄
作者簡介及科研成果
致謝
本文編號:3823071
【文章頁數(shù)】:72 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 課題研究的背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究內(nèi)容及技術路線
1.3.1 擬解決的關鍵問題
1.3.2 研究方法和思路
1.3.3 研究內(nèi)容
第二章 數(shù)據(jù)挖掘相關理論及工具
2.1 相關工具及實驗平臺
2.1.1 NumPy
2.1.2 Pandas
2.1.3 Scikit-learn
2.1.4 PyCharm
2.2 數(shù)據(jù)清洗方法
2.2.1 探索性分析
2.2.2 缺失值處理
2.2.3 異常值處理
2.2.4 噪音處理
2.3 特征分析方法
2.3.1 特征選擇
2.3.2 特征構造
第三章 前列腺癌數(shù)據(jù)的預處理與挖掘分析
3.1 數(shù)據(jù)獲取
3.2 數(shù)據(jù)清洗
3.2.1 缺失值填充
3.2.2 異常點檢測
3.2.3 特征組合
3.3 數(shù)據(jù)分析
3.3.1 單特征分析
3.3.2 聯(lián)合特征分析
第四章 前列腺癌風險預測模型構建研究
4.1 模型算法
4.1.1 隨機森林
4.1.2 AdaBoost算法
4.1.3 XGBoost算法
4.1.4 SMOTE算法
4.2 評價指標
4.2.1 正確率(Accuracy)
4.2.2 混淆矩陣
4.2.3 查準率、召回率、F1-Score
4.2.4 ROC曲線與AUC
第五章 實驗結果對比分析
5.1 Adaboost模型
5.1.1 未經(jīng)平衡處理的Adaboost算法建模
5.1.2 經(jīng)SMOTE處理的Adaboost算法
5.2 隨機森林
5.2.1 未經(jīng)平衡處理的隨機森林模型
5.2.2 經(jīng)過SMOTE平衡處理的隨機森林模型
5.3 XGBoost模型
5.3.1 未經(jīng)平衡處理的XGBoost模型
5.3.2 經(jīng)過SMOTE處理的XGBoost模型
5.4 實驗結果分析總結
第六章 結論與展望
6.1 結論
6.2 局限性
6.3 展望
參考文獻
附錄 圖表目錄
作者簡介及科研成果
致謝
本文編號:3823071
本文鏈接:http://sikaile.net/yixuelunwen/zlx/3823071.html
最近更新
教材專著