基于代價(jià)敏感學(xué)習(xí)的乳腺癌預(yù)測(cè)模型研究及應(yīng)用
發(fā)布時(shí)間:2021-02-28 06:37
乳腺癌是全球女性發(fā)病率居首位的惡性腫瘤,對(duì)女性健康、國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展都造成了極大的影響,已成為當(dāng)前社會(huì)的重大公共衛(wèi)生問題。乳腺癌發(fā)病隱匿,確切病因尚未完全明確,一般認(rèn)為與遺傳、生育、行為生活習(xí)慣等多種內(nèi)在和外界的因素共同作用有關(guān)。早期乳腺癌通過規(guī)范化治療,治愈率較高;中晚期乳腺癌雖可延長(zhǎng)患者生存期,卻難以徹底治愈。由于人們?cè)绨l(fā)現(xiàn)、早診斷、早治療的健康意識(shí)淡薄,加之我國(guó)人口眾多、醫(yī)療衛(wèi)生資源有限等因素,很難實(shí)現(xiàn)全國(guó)范圍內(nèi)的乳腺癌篩查工作。因此開展乳腺癌預(yù)測(cè)模型的研究,及時(shí)篩選出乳腺癌高危人群,從而有的放矢顯得尤為重要。課題引入代價(jià)敏感學(xué)習(xí)算法,對(duì)乳腺癌預(yù)測(cè)模型進(jìn)行研究,進(jìn)而實(shí)現(xiàn)對(duì)高危人群的篩選,達(dá)到乳腺癌輔助檢測(cè)的目的。本文的主要工作內(nèi)容如下:(1)數(shù)據(jù)分析。課題收集并整理1031位就診者的臨床診療數(shù)據(jù)。分別對(duì)訓(xùn)練數(shù)據(jù)(數(shù)據(jù)集1)中定量因素之間的獨(dú)立性,以及各因素在病例組和對(duì)照組之間的差異性進(jìn)行分析。將具有統(tǒng)計(jì)學(xué)意義的影響因素變量納入乳腺癌危險(xiǎn)因素中,并組建新的實(shí)驗(yàn)數(shù)據(jù)集(數(shù)據(jù)集2)。(2)提出了一種基于閾值優(yōu)化Logistic回歸的乳腺癌預(yù)測(cè)模型。針對(duì)實(shí)驗(yàn)數(shù)據(jù)存在的不平衡問題,實(shí)驗(yàn)采...
【文章來源】:濟(jì)南大學(xué)山東省
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
全球女性的癌癥發(fā)病率和死亡率分布
基于代價(jià)敏感學(xué)習(xí)的乳腺癌預(yù)測(cè)模型研究及應(yīng)用第二章 相關(guān)知識(shí)與技術(shù)介紹 2.1 節(jié)介紹了乳腺癌病因以及篩查方法,2.2 節(jié)是對(duì)數(shù)據(jù)挖掘工具 R 數(shù)據(jù)層面和算法層面闡述代價(jià)敏感學(xué)習(xí)算法,2.4 節(jié)對(duì)數(shù)據(jù)分析使用的介紹。腺癌病因及篩查方法乳腺由皮膚、纖維組織、乳腺腺體和脂肪組成,乳腺癌是發(fā)生在乳腺腫瘤。在通常情況下,乳腺腺上皮細(xì)胞以有序方式分裂和生長(zhǎng)。但有因,一些細(xì)胞發(fā)生基因突變,細(xì)胞增生失控,表現(xiàn)為無序、無限制的逐漸形成乳腺癌。
基于代價(jià)敏感學(xué)習(xí)的乳腺癌預(yù)測(cè)模型研究及應(yīng)用中存在的臟數(shù)據(jù)進(jìn)行處理。常見數(shù)據(jù)挖掘工作中,臟數(shù)據(jù)主要是指缺失值以及異常值。數(shù)據(jù)中存在缺失值、異常值都將嚴(yán)重影響數(shù)據(jù)挖掘建模的執(zhí)行效率,并導(dǎo)致挖掘結(jié)果的偏差,所以對(duì)數(shù)據(jù)進(jìn)行預(yù)處理就顯得尤為重要。3.2.1 缺失值處理在進(jìn)行缺失值處理之前,首先對(duì)數(shù)據(jù)進(jìn)行過濾,即去除唯一屬性,唯一屬性通常指id 屬性,這些屬性不能描述樣本自身的分別規(guī)律,故剔除 id 屬性即可。存在缺失數(shù)據(jù)時(shí),首先需要對(duì)數(shù)據(jù)的缺失模式進(jìn)行判斷,然后確定處理的方法。數(shù)據(jù)缺失情況如圖 3.1 所示,第一行左側(cè),‘650’代表有 650 條記錄是完全沒有缺失值的;第二行左側(cè),‘381’代表有 381 條記錄僅 alcohol.cat 變量存在缺失值。
【參考文獻(xiàn)】:
期刊論文
[1]結(jié)合代價(jià)敏感半監(jiān)督集成學(xué)習(xí)的糖尿病視網(wǎng)膜病變分級(jí)[J]. 任福龍,曹鵬,萬超,趙大哲. 計(jì)算機(jī)應(yīng)用. 2018(07)
[2]2014年中國(guó)女性乳腺癌發(fā)病與死亡分析[J]. 李賀,鄭榮壽,張思維,曾紅梅,孫可欣,夏昌發(fā),楊之洵,陳萬青,赫捷. 中華腫瘤雜志. 2018 (03)
[3]基于Boosting的代價(jià)敏感軟件缺陷預(yù)測(cè)方法[J]. 楊杰,燕雪峰,張德平. 計(jì)算機(jī)科學(xué). 2017(08)
[4]上海市女性乳腺癌危險(xiǎn)因素分析與風(fēng)險(xiǎn)預(yù)測(cè)模型研究[J]. 吳菲,何丹丹,趙根明,方紅,徐望紅. 中華腫瘤防治雜志. 2017(12)
[5]基于機(jī)器學(xué)習(xí)的三陰乳腺癌預(yù)測(cè)模型[J]. 董華,馬嵐. 云南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(S1)
[6]乳腺癌篩查技術(shù)的進(jìn)展[J]. 蔡卓君. 中國(guó)現(xiàn)代藥物應(yīng)用. 2016(06)
[7]西部二級(jí)城市女性乳腺癌發(fā)病風(fēng)險(xiǎn)相關(guān)因素分析及風(fēng)險(xiǎn)預(yù)測(cè)模型的建立[J]. 徐衛(wèi)云,趙潔玉,張靖,趙麗娟,林華,陳湘,李科,楊小林. 中國(guó)普外基礎(chǔ)與臨床雜志. 2013(10)
[8]乳腺癌檢查與治療的新趨勢(shì)[J]. 楊立果. 求醫(yī)問藥. 2012(10)
[9]SMOTE算法在不平衡數(shù)據(jù)中的應(yīng)用[J]. 孫濤,吳海豐,梁志剛,賀文,張鐳,呂平欣,郭秀花. 北京生物醫(yī)學(xué)工程. 2012 (05)
[10]濰坊地區(qū)乳腺癌發(fā)生的危險(xiǎn)因素調(diào)查分析[J]. 侯爭(zhēng)光,李國(guó)樓,馬曉東. 臨床合理用藥雜志. 2012(04)
博士論文
[1]CUL4A促進(jìn)乳腺癌細(xì)胞上皮間質(zhì)轉(zhuǎn)化及侵襲轉(zhuǎn)移的作用機(jī)制研究[D]. 王允山.山東大學(xué) 2014
碩士論文
[1]西藏地區(qū)藏族女性乳腺癌發(fā)病影響因素研究及風(fēng)險(xiǎn)評(píng)分模型的初步構(gòu)建[D]. 段文鑫.西藏大學(xué) 2018
[2]基于集成代價(jià)敏感分類方法的客戶流失預(yù)測(cè)研究[D]. 石瀚凌.重慶大學(xué) 2011
本文編號(hào):3055471
【文章來源】:濟(jì)南大學(xué)山東省
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
全球女性的癌癥發(fā)病率和死亡率分布
基于代價(jià)敏感學(xué)習(xí)的乳腺癌預(yù)測(cè)模型研究及應(yīng)用第二章 相關(guān)知識(shí)與技術(shù)介紹 2.1 節(jié)介紹了乳腺癌病因以及篩查方法,2.2 節(jié)是對(duì)數(shù)據(jù)挖掘工具 R 數(shù)據(jù)層面和算法層面闡述代價(jià)敏感學(xué)習(xí)算法,2.4 節(jié)對(duì)數(shù)據(jù)分析使用的介紹。腺癌病因及篩查方法乳腺由皮膚、纖維組織、乳腺腺體和脂肪組成,乳腺癌是發(fā)生在乳腺腫瘤。在通常情況下,乳腺腺上皮細(xì)胞以有序方式分裂和生長(zhǎng)。但有因,一些細(xì)胞發(fā)生基因突變,細(xì)胞增生失控,表現(xiàn)為無序、無限制的逐漸形成乳腺癌。
基于代價(jià)敏感學(xué)習(xí)的乳腺癌預(yù)測(cè)模型研究及應(yīng)用中存在的臟數(shù)據(jù)進(jìn)行處理。常見數(shù)據(jù)挖掘工作中,臟數(shù)據(jù)主要是指缺失值以及異常值。數(shù)據(jù)中存在缺失值、異常值都將嚴(yán)重影響數(shù)據(jù)挖掘建模的執(zhí)行效率,并導(dǎo)致挖掘結(jié)果的偏差,所以對(duì)數(shù)據(jù)進(jìn)行預(yù)處理就顯得尤為重要。3.2.1 缺失值處理在進(jìn)行缺失值處理之前,首先對(duì)數(shù)據(jù)進(jìn)行過濾,即去除唯一屬性,唯一屬性通常指id 屬性,這些屬性不能描述樣本自身的分別規(guī)律,故剔除 id 屬性即可。存在缺失數(shù)據(jù)時(shí),首先需要對(duì)數(shù)據(jù)的缺失模式進(jìn)行判斷,然后確定處理的方法。數(shù)據(jù)缺失情況如圖 3.1 所示,第一行左側(cè),‘650’代表有 650 條記錄是完全沒有缺失值的;第二行左側(cè),‘381’代表有 381 條記錄僅 alcohol.cat 變量存在缺失值。
【參考文獻(xiàn)】:
期刊論文
[1]結(jié)合代價(jià)敏感半監(jiān)督集成學(xué)習(xí)的糖尿病視網(wǎng)膜病變分級(jí)[J]. 任福龍,曹鵬,萬超,趙大哲. 計(jì)算機(jī)應(yīng)用. 2018(07)
[2]2014年中國(guó)女性乳腺癌發(fā)病與死亡分析[J]. 李賀,鄭榮壽,張思維,曾紅梅,孫可欣,夏昌發(fā),楊之洵,陳萬青,赫捷. 中華腫瘤雜志. 2018 (03)
[3]基于Boosting的代價(jià)敏感軟件缺陷預(yù)測(cè)方法[J]. 楊杰,燕雪峰,張德平. 計(jì)算機(jī)科學(xué). 2017(08)
[4]上海市女性乳腺癌危險(xiǎn)因素分析與風(fēng)險(xiǎn)預(yù)測(cè)模型研究[J]. 吳菲,何丹丹,趙根明,方紅,徐望紅. 中華腫瘤防治雜志. 2017(12)
[5]基于機(jī)器學(xué)習(xí)的三陰乳腺癌預(yù)測(cè)模型[J]. 董華,馬嵐. 云南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(S1)
[6]乳腺癌篩查技術(shù)的進(jìn)展[J]. 蔡卓君. 中國(guó)現(xiàn)代藥物應(yīng)用. 2016(06)
[7]西部二級(jí)城市女性乳腺癌發(fā)病風(fēng)險(xiǎn)相關(guān)因素分析及風(fēng)險(xiǎn)預(yù)測(cè)模型的建立[J]. 徐衛(wèi)云,趙潔玉,張靖,趙麗娟,林華,陳湘,李科,楊小林. 中國(guó)普外基礎(chǔ)與臨床雜志. 2013(10)
[8]乳腺癌檢查與治療的新趨勢(shì)[J]. 楊立果. 求醫(yī)問藥. 2012(10)
[9]SMOTE算法在不平衡數(shù)據(jù)中的應(yīng)用[J]. 孫濤,吳海豐,梁志剛,賀文,張鐳,呂平欣,郭秀花. 北京生物醫(yī)學(xué)工程. 2012 (05)
[10]濰坊地區(qū)乳腺癌發(fā)生的危險(xiǎn)因素調(diào)查分析[J]. 侯爭(zhēng)光,李國(guó)樓,馬曉東. 臨床合理用藥雜志. 2012(04)
博士論文
[1]CUL4A促進(jìn)乳腺癌細(xì)胞上皮間質(zhì)轉(zhuǎn)化及侵襲轉(zhuǎn)移的作用機(jī)制研究[D]. 王允山.山東大學(xué) 2014
碩士論文
[1]西藏地區(qū)藏族女性乳腺癌發(fā)病影響因素研究及風(fēng)險(xiǎn)評(píng)分模型的初步構(gòu)建[D]. 段文鑫.西藏大學(xué) 2018
[2]基于集成代價(jià)敏感分類方法的客戶流失預(yù)測(cè)研究[D]. 石瀚凌.重慶大學(xué) 2011
本文編號(hào):3055471
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3055471.html
最近更新
教材專著