基于機器學(xué)習的大于胎齡兒的預(yù)測及分型
發(fā)布時間:2020-06-23 12:13
【摘要】:大于胎齡兒是指出生體重在相同胎齡平均體重的第90百分位以上(約相當于平均體重的2個標準差以上)的嬰兒。大于胎齡兒本身容易產(chǎn)生多種并發(fā)癥,且產(chǎn)婦容易產(chǎn)生各類產(chǎn)傷。因此,建立大于胎齡兒預(yù)測模型對大于胎齡兒進行早期診斷及干預(yù),具有重要意義。除此此外,大于胎齡兒分型的研究順應(yīng)精準醫(yī)療的理念,有助于提高大于胎齡兒診治的效益。在醫(yī)療領(lǐng)域中,機器學(xué)習用于疾病預(yù)測、疾病分型等已有許多成功的案例,這為大于胎齡兒預(yù)測與分型模型的建立帶來了啟發(fā)。主要采用2010年到2013年之間收集到的新生胎兒數(shù)據(jù)記錄作為樣本,運用機器學(xué)習技術(shù)對大于胎齡兒疾病進行預(yù)測及分型。對大于胎齡兒預(yù)測及分型的研究主要分為數(shù)據(jù)處理、疾病預(yù)測、疾病分型三部分。第一步數(shù)據(jù)處理主要是為了解決由于樣本信息收集的原始性與真實性帶來的問題。這些問題包括樣本特征類型復(fù)雜、標準不一致、數(shù)據(jù)缺失、信息重疊、數(shù)據(jù)不平衡、標簽不明等。具體應(yīng)用到了數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換,以及專家知識、特征獨立、低方差過濾等特征選擇方法。第二步運用數(shù)據(jù)處理后的數(shù)據(jù)集構(gòu)造大于胎齡兒分類器,采用稀疏邏輯回歸模型獲得分類結(jié)果及解釋性強的相關(guān)特征,采用梯度提升樹模型挖掘特征與分類結(jié)果的非線性關(guān)系,采用弱監(jiān)督學(xué)習利用未標記與標記混淆的數(shù)據(jù)對大于胎齡兒分類器進行補充和泛化。第三步使用正樣本、借助聚類方法,對大于胎齡兒進行分型。利用有監(jiān)督方法得到的最優(yōu)大于胎齡兒預(yù)測模型召回率為0.66,精準率為0.94,曲線下面積為0.89。使用未標記與標記混淆的數(shù)據(jù)弱監(jiān)督學(xué)習后,分類器召回率為0.82,精確率為0.965,曲線下面積為0.89。發(fā)現(xiàn)雙方體重指數(shù)、是否吸煙(被動吸煙)、有無生活工作壓力、飲酒與大于胎齡兒發(fā)生與否相關(guān),此外雙方在最佳生育年齡、血紅蛋白等指標正常時胎兒更不容易患病。分型得到兩個大于胎齡兒亞型,一類與男女雙方肌酐、女方血紅蛋白、女方體重指數(shù)、葉酸服用情況等身體指標相關(guān),另一類則與男女雙方年齡、男女雙方職業(yè)、男女雙方教育程度等社會指標相關(guān)。利用大于胎齡兒預(yù)測領(lǐng)域的相關(guān)理論知識、真實數(shù)據(jù),運用機器學(xué)習方法,得到效果良好預(yù)測分類器,發(fā)掘出與大于胎齡兒發(fā)生相關(guān)的特征,得到兩類模糊亞型。這有利于幫助醫(yī)生進行大于胎齡兒診斷,且模型具有一定的可解釋性,實現(xiàn)了輔助臨床的目標。
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:R722.1;TP181
【圖文】:
-4 基于稀疏邏輯回歸模型的大于胎齡兒分類器 ROC 曲線OC curve of classifier of LGAbased on sparse logistic regress 的 ROC 曲線,可以很容易地查出任意界限值時該大胎齡兒的識別能力。本實驗 AUC 為 0.88924657244影響因素稀疏邏輯回歸模型特性,獲得正則化后稀疏的特征生呈現(xiàn)正相關(guān)的特征及其系數(shù)(系數(shù)為正),按影響示。表 4-3 稀疏邏輯回歸模型正系數(shù)表 The table of positive coefficients of sparse logistic regression 特征含義 對應(yīng)模'女方體重指數(shù)大于 28 0.73'女方體重指數(shù)為 23.9-28 0.64el_5'男方大學(xué)學(xué)歷 0.35i_3' 男方體重指數(shù)大于 280.15
圖 4-6 基于梯度提升樹模型的大于胎齡兒分類器 ROC 曲Fig 4-6 The ROC curve of the classifier of LGAbased on GBD-6 的 ROC 曲線,可以很容易地查出任意界限值時該于胎齡兒的識別能力。本實驗 AUC 為 0.879455917果及分析對基于梯度提升樹模型的大于胎齡兒預(yù)測實驗進行對第三章數(shù)據(jù)處理后的數(shù)據(jù)集,依據(jù)問題背景與模型熵,通過熵的大小對特征進行有序重編碼,重編碼結(jié)樣重新組合成數(shù)據(jù)參與梯度提升樹模型訓(xùn)練,利用網(wǎng)模型的真正率等于召回率為 0.61294107030051704455 , 精 準 率 為 0.9997056226081837 , 440558,AUC 為 0.8794559179212692,AUC 介于 0.
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:R722.1;TP181
【圖文】:
-4 基于稀疏邏輯回歸模型的大于胎齡兒分類器 ROC 曲線OC curve of classifier of LGAbased on sparse logistic regress 的 ROC 曲線,可以很容易地查出任意界限值時該大胎齡兒的識別能力。本實驗 AUC 為 0.88924657244影響因素稀疏邏輯回歸模型特性,獲得正則化后稀疏的特征生呈現(xiàn)正相關(guān)的特征及其系數(shù)(系數(shù)為正),按影響示。表 4-3 稀疏邏輯回歸模型正系數(shù)表 The table of positive coefficients of sparse logistic regression 特征含義 對應(yīng)模'女方體重指數(shù)大于 28 0.73'女方體重指數(shù)為 23.9-28 0.64el_5'男方大學(xué)學(xué)歷 0.35i_3' 男方體重指數(shù)大于 280.15
圖 4-6 基于梯度提升樹模型的大于胎齡兒分類器 ROC 曲Fig 4-6 The ROC curve of the classifier of LGAbased on GBD-6 的 ROC 曲線,可以很容易地查出任意界限值時該于胎齡兒的識別能力。本實驗 AUC 為 0.879455917果及分析對基于梯度提升樹模型的大于胎齡兒預(yù)測實驗進行對第三章數(shù)據(jù)處理后的數(shù)據(jù)集,依據(jù)問題背景與模型熵,通過熵的大小對特征進行有序重編碼,重編碼結(jié)樣重新組合成數(shù)據(jù)參與梯度提升樹模型訓(xùn)練,利用網(wǎng)模型的真正率等于召回率為 0.61294107030051704455 , 精 準 率 為 0.9997056226081837 , 440558,AUC 為 0.8794559179212692,AUC 介于 0.
【相似文獻】
相關(guān)期刊論文 前10條
1 郭湘湘;;小于胎齡兒和大于胎齡兒的有關(guān)危險因素[J];國外醫(yī)學(xué).婦產(chǎn)科學(xué)分冊;1986年04期
2 戴藝,洪梅,梁珍花,李柳青,黃瑩;胰島素樣生長因子I與宮內(nèi)發(fā)育的關(guān)系[J];廣西醫(yī)科大學(xué)學(xué)報;2004年06期
3 Ben-Haroush A.,Glickman H. ,Yogev Y. ,高雪蓮;疑似大于胎齡兒和宮頸不成熟孕婦的引產(chǎn)[J];世界核心醫(yī)學(xué)期刊文摘(婦產(chǎn)科學(xué)分冊);2005年04期
4 張巍;;非糖尿病婦女所娩的大于胎齡兒早期生長受母親糖代謝影響[J];實用婦科與產(chǎn)科雜志;1991年02期
5 李衛(wèi)芹;冷俊宏;王蕾h
本文編號:2727316
本文鏈接:http://sikaile.net/yixuelunwen/eklw/2727316.html
最近更新
教材專著