基于分類監(jiān)督學(xué)習(xí)算法的乳腺癌預(yù)測診斷研究
發(fā)布時間:2021-06-26 19:47
乳腺癌具有較高的發(fā)病率和死亡率,嚴(yán)重威脅女性的身體健康。因其發(fā)病機理難以確定且病情隱匿,所以早期乳腺癌很難被發(fā)現(xiàn),不易引起患者的重視。大量乳腺癌患者由于錯過最佳治療時機而導(dǎo)致病情加速惡化,甚至威脅生命。人工篩查腫瘤過程存在效率低以及主觀性強的缺點,使得乳腺癌患者無法得到根治。近年來我國各個領(lǐng)域的數(shù)據(jù)量成指數(shù)規(guī)模擴大,而與日俱增的醫(yī)療數(shù)據(jù)也給醫(yī)務(wù)工作人員帶來壓力和挑戰(zhàn)。醫(yī)療數(shù)據(jù)與一般數(shù)據(jù)相比有著異構(gòu)性、冗余性、隱私性等特點。醫(yī)務(wù)人員需要投入大量的人力物力才能從類別差異極大的數(shù)據(jù)中獲取有效信息進而診斷疾病。由于傳統(tǒng)醫(yī)療診斷方法有一定的局限和不足,本文從分類監(jiān)督學(xué)習(xí)算法入手,挖掘乳腺癌患者的相關(guān)數(shù)據(jù)并利用模型進行預(yù)測。本文的主要工作如下:(1)闡述了傳統(tǒng)的乳腺癌診斷治療方法,針對僅依靠臨床經(jīng)驗和影像學(xué)診斷的缺陷,選擇開放的UCI數(shù)據(jù)庫作為數(shù)據(jù)來源,將決策樹算法應(yīng)用到乳腺癌臨床醫(yī)療預(yù)測中,利用患者乳房硬塊的細(xì)針抽吸數(shù)字影像數(shù)據(jù)進行腫瘤良惡性的預(yù)測。結(jié)合因子分析法從較多屬性中選出影響較大的因子作為當(dāng)前節(jié)點的測試屬性,并自上而下遞歸建立模型,在此基礎(chǔ)上對決策樹進行最佳深度的探索,構(gòu)建最佳決策樹模型...
【文章來源】:海南大學(xué)海南省 211工程院校
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
數(shù)據(jù)挖掘的過程
海南大學(xué)碩士學(xué)位論文9(2)聚類分析將同構(gòu)性較高的數(shù)據(jù)區(qū)隔為不同的聚類,聚類間差異度越大越好,而聚類內(nèi)數(shù)據(jù)相似度則越高越好,聚類的本質(zhì)思想就是“物以類聚”[35]。在一大群的研究對象中一定會存在異質(zhì)化現(xiàn)象,這有可能是同質(zhì)化的群組所導(dǎo)致的結(jié)果,聚類就是要將不同的同質(zhì)化的差異找出來。(3)偏差檢測在數(shù)據(jù)庫中往往都有一些不合常理的數(shù)據(jù),這些極端特例會影響模型的整體效果,檢測出偏差有利于改進模型[36]。例如,在1萬例病例中,有5例屬于其他病癥引起的假陽性,偏差檢測可以發(fā)現(xiàn)這些異常與變化,提前采取措施,更好地指導(dǎo)人們的行為。(4)關(guān)聯(lián)規(guī)則分析關(guān)聯(lián)規(guī)則挖掘算法主要是用來發(fā)現(xiàn)數(shù)據(jù)中特征屬性間具有高度關(guān)聯(lián)性的一種模式,用規(guī)則來表示。它指的是變量與變量之間在取值上表現(xiàn)出某種規(guī)律性,即某個事件的發(fā)生可以觸發(fā)與之關(guān)聯(lián)的其他事件發(fā)生。數(shù)據(jù)挖掘主要是尋找最小支持度閾值的頻繁項和頻繁項中的高置信度。(5)時間序列以時間為度量衡進行數(shù)據(jù)挖掘,將挖掘出的數(shù)據(jù)以圖形形式進行展現(xiàn),分析樣本隨時間變化的趨勢。時間序列分析多用來進行預(yù)測,研究數(shù)據(jù)中因變量與自變量的關(guān)系,并對未來的發(fā)展趨勢進行預(yù)測[37]。2.2機器學(xué)習(xí)算法2.2.1機器學(xué)習(xí)的分類與應(yīng)用步驟機器學(xué)習(xí)理論的本質(zhì)就是讓計算機獲得自主學(xué)習(xí)和研究能力的算法。從海量的數(shù)據(jù)中通過一定的模型和規(guī)則自動的分析出規(guī)律,并利用這些規(guī)律對未來的數(shù)據(jù)進行預(yù)測[38]。人類在發(fā)展歷程中也總結(jié)出許多經(jīng)驗,并對這些經(jīng)驗進行歸納獲得規(guī)律。機器學(xué)習(xí)中的訓(xùn)練與預(yù)測就是模擬人類歸納和推測的過程。學(xué)習(xí)過程如圖2所示:圖2機器學(xué)習(xí)與人類思考的對比Fig.2Machinelearningversushumanthinking
基于分類監(jiān)督學(xué)習(xí)算法的乳腺癌預(yù)測診斷研究10人工智能實現(xiàn)的重要途經(jīng)之一就是通過機器學(xué)習(xí)。在目前的實踐過程中,大部分人工智能問題都是由機器學(xué)習(xí)的方法實現(xiàn)的。通過設(shè)計好的程序和算法自動進行學(xué)習(xí)并對模型進行改進。機器學(xué)習(xí)已經(jīng)廣泛應(yīng)用于機器人、DNA序列檢測、搜索引擎、醫(yī)學(xué)診斷、金融等領(lǐng)域[39],如圖3所示:圖3機器學(xué)習(xí)應(yīng)用領(lǐng)域Fig.3Machinelearningapplications機器學(xué)習(xí)包含四個方面:問題領(lǐng)域覆蓋更廣泛,能夠給出更加準(zhǔn)確精準(zhǔn)的解答,使知識的表達(dá)更加精煉,可讀性更好,以更小的代價獲得答案。機器學(xué)習(xí)算法與數(shù)據(jù)挖掘技術(shù)的任務(wù)類型基本相同,可歸納為以下幾點:(1)關(guān)聯(lián)(association)。本質(zhì)是在探索實體或?qū)傩灾g的關(guān)聯(lián)和潛在的規(guī)律。(2)偵察(detection)。偵察可以看作是異常檢測,在一組對象中篩選,標(biāo)記出非典型或是不正常的個體,并嘗試解釋這些異常。例如信用卡欺詐的檢測,通過檢測異常的購物消費鑒別,信用卡公司可以及時檢測并進行凍結(jié),保護客戶。(3)分類(classification)。在這類任務(wù)中,計算機程序需要為新輸入的數(shù)據(jù)指定類別,還有其他的分類問題例如不同類別的概率分布、對象識別和輸入缺失分類。(4)預(yù)測(prediction)。通過對已有數(shù)據(jù)的分析和篩選,去掉噪聲數(shù)據(jù),確定影響最大的屬性,并對未來的數(shù)據(jù)進行預(yù)測[40]。另外,機器學(xué)習(xí)還可以解決去噪、缺失值的填補、合成、轉(zhuǎn)錄、采樣和機器翻譯等任務(wù)。解決機器學(xué)習(xí)問題最困難的部分就是為當(dāng)前的任務(wù)選取合適的模型算法,不同的模型更適合于不同類型的數(shù)據(jù)和不同的問題,如圖4所示,為用戶解決不同問題提供了宏觀執(zhí)導(dǎo)和推薦。
【參考文獻】:
期刊論文
[1]基于大數(shù)據(jù)的精準(zhǔn)醫(yī)療服務(wù)體系研究[J]. 范美玉,陳敏. 中國醫(yī)院管理. 2016(01)
[2]超聲檢查和鉬靶X線攝片對乳腺疾病的診斷價值[J]. 谷云芝,左莉莉,王文娟,甄萍,孫霞,尹長恒,宋德余,姜玉榮. 中國醫(yī)藥導(dǎo)報. 2015(19)
[3]基于大數(shù)據(jù)技術(shù)的臨床數(shù)據(jù)中心與智能分析應(yīng)用平臺構(gòu)建[J]. 李維,陳祁,張晨,沈韜. 醫(yī)學(xué)信息學(xué)雜志. 2014(06)
[4]細(xì)針穿刺細(xì)胞學(xué)檢查對乳腺腫塊診斷價值的系統(tǒng)評價[J]. 于瀅華,鐘鑒宏. 中國癌癥防治雜志. 2013(03)
[5]大數(shù)據(jù)在醫(yī)療個性化服務(wù)中的應(yīng)用[J]. 許德泉,楊慧清. 中國衛(wèi)生信息管理雜志. 2013(04)
[6]基于云計算的醫(yī)療大數(shù)據(jù)挖掘平臺[J]. 高漢松,肖凌,許德瑋,桑梓勤. 醫(yī)學(xué)信息學(xué)雜志. 2013(05)
[7]人工智能輔助診療技術(shù)(手術(shù)機器人)臨床應(yīng)用調(diào)研報告[J]. 劉曉征,田曉曉. 中國醫(yī)學(xué)裝備. 2011(08)
[8]青年乳腺癌282例臨床分析[J]. 劉勝春,吳凱南. 重慶醫(yī)學(xué). 2005(12)
[9]數(shù)據(jù)挖掘任務(wù)之二:預(yù)測[J]. 張阿蘭,戴穩(wěn)勝,謝邦昌. 中國統(tǒng)計. 2004(11)
[10]醫(yī)學(xué)數(shù)據(jù)挖掘的技術(shù)、方法及應(yīng)用[J]. 朱凌云,吳寶明. 生物醫(yī)學(xué)工程學(xué)雜志. 2003(03)
本文編號:3251968
【文章來源】:海南大學(xué)海南省 211工程院校
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
數(shù)據(jù)挖掘的過程
海南大學(xué)碩士學(xué)位論文9(2)聚類分析將同構(gòu)性較高的數(shù)據(jù)區(qū)隔為不同的聚類,聚類間差異度越大越好,而聚類內(nèi)數(shù)據(jù)相似度則越高越好,聚類的本質(zhì)思想就是“物以類聚”[35]。在一大群的研究對象中一定會存在異質(zhì)化現(xiàn)象,這有可能是同質(zhì)化的群組所導(dǎo)致的結(jié)果,聚類就是要將不同的同質(zhì)化的差異找出來。(3)偏差檢測在數(shù)據(jù)庫中往往都有一些不合常理的數(shù)據(jù),這些極端特例會影響模型的整體效果,檢測出偏差有利于改進模型[36]。例如,在1萬例病例中,有5例屬于其他病癥引起的假陽性,偏差檢測可以發(fā)現(xiàn)這些異常與變化,提前采取措施,更好地指導(dǎo)人們的行為。(4)關(guān)聯(lián)規(guī)則分析關(guān)聯(lián)規(guī)則挖掘算法主要是用來發(fā)現(xiàn)數(shù)據(jù)中特征屬性間具有高度關(guān)聯(lián)性的一種模式,用規(guī)則來表示。它指的是變量與變量之間在取值上表現(xiàn)出某種規(guī)律性,即某個事件的發(fā)生可以觸發(fā)與之關(guān)聯(lián)的其他事件發(fā)生。數(shù)據(jù)挖掘主要是尋找最小支持度閾值的頻繁項和頻繁項中的高置信度。(5)時間序列以時間為度量衡進行數(shù)據(jù)挖掘,將挖掘出的數(shù)據(jù)以圖形形式進行展現(xiàn),分析樣本隨時間變化的趨勢。時間序列分析多用來進行預(yù)測,研究數(shù)據(jù)中因變量與自變量的關(guān)系,并對未來的發(fā)展趨勢進行預(yù)測[37]。2.2機器學(xué)習(xí)算法2.2.1機器學(xué)習(xí)的分類與應(yīng)用步驟機器學(xué)習(xí)理論的本質(zhì)就是讓計算機獲得自主學(xué)習(xí)和研究能力的算法。從海量的數(shù)據(jù)中通過一定的模型和規(guī)則自動的分析出規(guī)律,并利用這些規(guī)律對未來的數(shù)據(jù)進行預(yù)測[38]。人類在發(fā)展歷程中也總結(jié)出許多經(jīng)驗,并對這些經(jīng)驗進行歸納獲得規(guī)律。機器學(xué)習(xí)中的訓(xùn)練與預(yù)測就是模擬人類歸納和推測的過程。學(xué)習(xí)過程如圖2所示:圖2機器學(xué)習(xí)與人類思考的對比Fig.2Machinelearningversushumanthinking
基于分類監(jiān)督學(xué)習(xí)算法的乳腺癌預(yù)測診斷研究10人工智能實現(xiàn)的重要途經(jīng)之一就是通過機器學(xué)習(xí)。在目前的實踐過程中,大部分人工智能問題都是由機器學(xué)習(xí)的方法實現(xiàn)的。通過設(shè)計好的程序和算法自動進行學(xué)習(xí)并對模型進行改進。機器學(xué)習(xí)已經(jīng)廣泛應(yīng)用于機器人、DNA序列檢測、搜索引擎、醫(yī)學(xué)診斷、金融等領(lǐng)域[39],如圖3所示:圖3機器學(xué)習(xí)應(yīng)用領(lǐng)域Fig.3Machinelearningapplications機器學(xué)習(xí)包含四個方面:問題領(lǐng)域覆蓋更廣泛,能夠給出更加準(zhǔn)確精準(zhǔn)的解答,使知識的表達(dá)更加精煉,可讀性更好,以更小的代價獲得答案。機器學(xué)習(xí)算法與數(shù)據(jù)挖掘技術(shù)的任務(wù)類型基本相同,可歸納為以下幾點:(1)關(guān)聯(lián)(association)。本質(zhì)是在探索實體或?qū)傩灾g的關(guān)聯(lián)和潛在的規(guī)律。(2)偵察(detection)。偵察可以看作是異常檢測,在一組對象中篩選,標(biāo)記出非典型或是不正常的個體,并嘗試解釋這些異常。例如信用卡欺詐的檢測,通過檢測異常的購物消費鑒別,信用卡公司可以及時檢測并進行凍結(jié),保護客戶。(3)分類(classification)。在這類任務(wù)中,計算機程序需要為新輸入的數(shù)據(jù)指定類別,還有其他的分類問題例如不同類別的概率分布、對象識別和輸入缺失分類。(4)預(yù)測(prediction)。通過對已有數(shù)據(jù)的分析和篩選,去掉噪聲數(shù)據(jù),確定影響最大的屬性,并對未來的數(shù)據(jù)進行預(yù)測[40]。另外,機器學(xué)習(xí)還可以解決去噪、缺失值的填補、合成、轉(zhuǎn)錄、采樣和機器翻譯等任務(wù)。解決機器學(xué)習(xí)問題最困難的部分就是為當(dāng)前的任務(wù)選取合適的模型算法,不同的模型更適合于不同類型的數(shù)據(jù)和不同的問題,如圖4所示,為用戶解決不同問題提供了宏觀執(zhí)導(dǎo)和推薦。
【參考文獻】:
期刊論文
[1]基于大數(shù)據(jù)的精準(zhǔn)醫(yī)療服務(wù)體系研究[J]. 范美玉,陳敏. 中國醫(yī)院管理. 2016(01)
[2]超聲檢查和鉬靶X線攝片對乳腺疾病的診斷價值[J]. 谷云芝,左莉莉,王文娟,甄萍,孫霞,尹長恒,宋德余,姜玉榮. 中國醫(yī)藥導(dǎo)報. 2015(19)
[3]基于大數(shù)據(jù)技術(shù)的臨床數(shù)據(jù)中心與智能分析應(yīng)用平臺構(gòu)建[J]. 李維,陳祁,張晨,沈韜. 醫(yī)學(xué)信息學(xué)雜志. 2014(06)
[4]細(xì)針穿刺細(xì)胞學(xué)檢查對乳腺腫塊診斷價值的系統(tǒng)評價[J]. 于瀅華,鐘鑒宏. 中國癌癥防治雜志. 2013(03)
[5]大數(shù)據(jù)在醫(yī)療個性化服務(wù)中的應(yīng)用[J]. 許德泉,楊慧清. 中國衛(wèi)生信息管理雜志. 2013(04)
[6]基于云計算的醫(yī)療大數(shù)據(jù)挖掘平臺[J]. 高漢松,肖凌,許德瑋,桑梓勤. 醫(yī)學(xué)信息學(xué)雜志. 2013(05)
[7]人工智能輔助診療技術(shù)(手術(shù)機器人)臨床應(yīng)用調(diào)研報告[J]. 劉曉征,田曉曉. 中國醫(yī)學(xué)裝備. 2011(08)
[8]青年乳腺癌282例臨床分析[J]. 劉勝春,吳凱南. 重慶醫(yī)學(xué). 2005(12)
[9]數(shù)據(jù)挖掘任務(wù)之二:預(yù)測[J]. 張阿蘭,戴穩(wěn)勝,謝邦昌. 中國統(tǒng)計. 2004(11)
[10]醫(yī)學(xué)數(shù)據(jù)挖掘的技術(shù)、方法及應(yīng)用[J]. 朱凌云,吳寶明. 生物醫(yī)學(xué)工程學(xué)雜志. 2003(03)
本文編號:3251968
本文鏈接:http://sikaile.net/yixuelunwen/zlx/3251968.html
最近更新
教材專著