基于機器學習算法的胰腺癌診斷模型研究
發(fā)布時間:2020-09-18 14:05
隨著計算機網(wǎng)絡科技的快速發(fā)展,從上世紀九十年代起,在醫(yī)療,健康和衛(wèi)生領域中,存放著大量關于病人的病史、診斷、檢驗和治療的臨床信息。從海量的醫(yī)療數(shù)據(jù)中,數(shù)據(jù)挖掘技術可以抽取出疾病的趨勢,并發(fā)掘出有價值的診斷規(guī)則。然后,利用機器學習的方法建立預測模型,再對這個模型進行測試訓練,得到合適的算法模型,該算法模型能夠快速準確地診斷、預測、監(jiān)控,并幫助醫(yī)生確定最佳診療方案。對于胰腺癌的診斷,我們主要經(jīng)過五個階段的檢查:第一階段:進行病史,危險因素和體格檢查;第二階段:血清腫瘤標志物的檢查;第三階段:在腫瘤標志物檢查結(jié)果的基礎上,決定是否進行影像學檢查;第四階段:進行病理學檢查;第五階段:臨床分期。而病理學檢查是唯一確診胰腺癌的“黃金標準”。本文在了解計算機技術應用于胰腺癌診斷的研究現(xiàn)狀后發(fā)現(xiàn),現(xiàn)有的通過計算機手段或者機器學習手段來輔助胰腺癌診斷的模型,大多是在第三階段影像學檢查結(jié)果的基礎上建立的,而將機器學習算法應用于以臨床癥狀、危險因素為特征的第一階段和以腫瘤標志物檢查結(jié)果為特征的第二階段的模型少之又少。現(xiàn)在,針對第二階段腫瘤標志物的研究,大多采用酶聯(lián)免疫吸附法(ELISA)或者電化學發(fā)光法等醫(yī)學手段。因此本文提出了將機器學習算法應用于胰腺癌診斷的第一和第二階段,主要利用機器學習中傳統(tǒng)的分類算法,對長春市某醫(yī)院2017年度胰腺癌患者的臨床醫(yī)療數(shù)據(jù)和普外科非胰腺癌患者數(shù)據(jù)進行醫(yī)學分析。首先對數(shù)據(jù)進行預處理和特征選擇,然后對數(shù)據(jù)進行訓練和測試,建立基于機器學習算法的胰腺癌早期輔助診斷模型,并對胰腺癌診斷模型的預診性能進行分析,最后通過多數(shù)表決策略的模型融合方法對單分類器做了模型融合。通過以上過程建立的基于機器學習算法的胰腺癌診斷模型的分類結(jié)果,相較于采用酶聯(lián)免疫吸附法和電化學發(fā)光法的檢測結(jié)果,準確率和召回率上均有顯著提升。本文還利用度量學習算法:大邊界最近鄰方法LMNN和鄰近元素分析方法NCA,訓練支持向量機的核函數(shù),在此改進算法的基礎上重新訓練了胰腺癌診斷模型,提高了數(shù)據(jù)分類精確率,尤其是通過NCA方法改進的支持向量機模型,在精確率上達到了92%,召回率上達到了90%,平均性能上達到了90.1%,與傳統(tǒng)的支持向量機建立的診斷模型相比,分別提高了10%,6%和9.9%。本文的研究是基于機器學習算法,通過胰腺癌的典型癥狀和高危因素結(jié)合血清腫瘤標志物檢查結(jié)果,建立了胰腺癌診斷的預測模型,達到了早期胰腺癌預診的目的;提高了胰腺惡性腫瘤高危人群的自我識別意識;輔助了醫(yī)生通過臨床非特異性癥狀表現(xiàn)預診胰腺癌,降低了由于相似癥狀而帶來的誤診率。
【學位單位】:吉林大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:R735.9;TP181
【部分圖文】:
圖 2.1 異常數(shù)據(jù)出現(xiàn)原因及處理方法(4)標準化:按一定規(guī)則縮放數(shù)據(jù),使數(shù)據(jù)處于一個較小的區(qū)間內(nèi)。其中最典型的就是 0-1 標準化和 Z 標準化。同時對于不同單位量綱的數(shù)據(jù),我們要將它轉(zhuǎn)化為無量綱的純數(shù)值型數(shù)據(jù)。數(shù)據(jù)標準化方法見圖 2.2。本文中,我們使用了 min-max 歸一化方法,將特征 CA19-9、CEA、AFP的特征值縮放到 0 與 1 之間,這樣在模型訓練時,數(shù)據(jù)是具有可比性而且是更穩(wěn)定的。對性別,腹痛,惡心,糖尿病等特征,我們通過類別數(shù)據(jù)標簽化處理,當特征值為“是”時,我們將其標簽化為“1”;當特征值為“否”時,我們將其標簽化為“0”。(5)離散化:在一些分類算法中,對于某些特征,它是連續(xù)型的,這時我們就要將連續(xù)的屬性進行離散化處理,方法有:等寬法、等頻法和基于聚類分析的方法。數(shù)據(jù)離散化方法見圖 2.3。
數(shù)據(jù)標準化方法
圖 2.2 數(shù)據(jù)標準化方法準化Z-score 標準化向量歸一化法線性比例變換法Decimal scaling 小數(shù)定標標準化平均均值指數(shù)轉(zhuǎn)化法新數(shù)據(jù)=(原始數(shù)據(jù)-原始數(shù)據(jù)值)/原始數(shù)據(jù)標準差X”=x/(10*j)其中,j 是滿條件的最小整數(shù)等距離分組
【學位單位】:吉林大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:R735.9;TP181
【部分圖文】:
圖 2.1 異常數(shù)據(jù)出現(xiàn)原因及處理方法(4)標準化:按一定規(guī)則縮放數(shù)據(jù),使數(shù)據(jù)處于一個較小的區(qū)間內(nèi)。其中最典型的就是 0-1 標準化和 Z 標準化。同時對于不同單位量綱的數(shù)據(jù),我們要將它轉(zhuǎn)化為無量綱的純數(shù)值型數(shù)據(jù)。數(shù)據(jù)標準化方法見圖 2.2。本文中,我們使用了 min-max 歸一化方法,將特征 CA19-9、CEA、AFP的特征值縮放到 0 與 1 之間,這樣在模型訓練時,數(shù)據(jù)是具有可比性而且是更穩(wěn)定的。對性別,腹痛,惡心,糖尿病等特征,我們通過類別數(shù)據(jù)標簽化處理,當特征值為“是”時,我們將其標簽化為“1”;當特征值為“否”時,我們將其標簽化為“0”。(5)離散化:在一些分類算法中,對于某些特征,它是連續(xù)型的,這時我們就要將連續(xù)的屬性進行離散化處理,方法有:等寬法、等頻法和基于聚類分析的方法。數(shù)據(jù)離散化方法見圖 2.3。
數(shù)據(jù)標準化方法
圖 2.2 數(shù)據(jù)標準化方法準化Z-score 標準化向量歸一化法線性比例變換法Decimal scaling 小數(shù)定標標準化平均均值指數(shù)轉(zhuǎn)化法新數(shù)據(jù)=(原始數(shù)據(jù)-原始數(shù)據(jù)值)/原始數(shù)據(jù)標準差X”=x/(10*j)其中,j 是滿條件的最小整數(shù)等距離分組
【參考文獻】
相關期刊論文 前10條
1 侯麗娜;劉東慧;劉美曉;陳志宏;;2型糖尿病與胰腺癌的關系[J];承德醫(yī)學院學報;2014年06期
2 陰蒙蒙;馬臣;劉曙正;全培良;張萌;陳萬青;鄭榮壽;張思維;孫喜斌;;吸煙與胰腺癌發(fā)生風險的病例對照研究[J];中國腫瘤;2014年03期
3 楊柯君;;全球癌癥狀況最新數(shù)據(jù)更新[J];上海醫(yī)藥;2014年02期
4 舒忠琴;沈偉生;于波;鄧立春;奚蕾;張瑤;顧小偉;夏林云;;薏苡仁甘油三酯對三維適形放療同步吉西他濱化療治療局部晚期胰腺癌患者耐受性的影響[J];現(xiàn)代腫瘤醫(yī)學;2013年06期
5 劉建蕓;趙宇航;張兆翔;王蘊紅;袁雪梅;胡磊;董振江;;Spam Short Messages Detection via Mining Social Networks[J];Journal of Computer Science & Technology;2012年03期
6 倪泉興;虞先o
本文編號:2821749
本文鏈接:http://sikaile.net/yixuelunwen/zlx/2821749.html
最近更新
教材專著