天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 醫(yī)學(xué)論文 > 腫瘤論文 >

針對(duì)腫瘤分期診斷問(wèn)題的整合特征選擇算法研究

發(fā)布時(shí)間:2021-06-22 21:20
  當(dāng)今社會(huì),腫瘤是死亡率最高的疾病之一。目前尚未有能夠完全根治的辦法,在臨床醫(yī)學(xué)上也只能從預(yù)后檢查治愈的程度,而且不能夠保證不再?gòu)?fù)發(fā)。隨著生物信息技術(shù)的發(fā)展以及醫(yī)療水平的提高,依托于計(jì)算機(jī)存儲(chǔ)技術(shù)和芯片技術(shù)的發(fā)展,越來(lái)越多的生物醫(yī)療數(shù)據(jù)得以保存。通過(guò)計(jì)算機(jī)技術(shù)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等挖掘有用的醫(yī)療數(shù)據(jù)信息,對(duì)于精準(zhǔn)的預(yù)測(cè)腫瘤的惡化程度,進(jìn)一步的治療腫瘤是目前研究的熱點(diǎn)。人類的生命機(jī)制有著復(fù)雜的調(diào)控機(jī)制,每一個(gè)生命活動(dòng)都有著成千上萬(wàn)的基因,每個(gè)不同的生命過(guò)程都產(chǎn)生著不同的中間產(chǎn)物。常見(jiàn)的針對(duì)這些過(guò)程的數(shù)據(jù)包括甲基化組學(xué)數(shù)據(jù)、轉(zhuǎn)錄組學(xué)數(shù)據(jù)、蛋白質(zhì)組學(xué)數(shù)據(jù)等。本文使用前兩種組學(xué)的數(shù)據(jù)。在生物體內(nèi),甲基化在經(jīng)歷過(guò)酶的催化之后進(jìn)行重金屬的修飾、基因表達(dá)過(guò)程的控制、蛋白質(zhì)功能的控制以及核糖核酸的加工等一系列的功能。轉(zhuǎn)錄組則是DNA轉(zhuǎn)錄的產(chǎn)物,用于研究特定的細(xì)胞以及器官的各類核糖核酸的產(chǎn)量以及類型,F(xiàn)有研究表明,甲基化組學(xué)數(shù)據(jù)以及轉(zhuǎn)錄組學(xué)數(shù)據(jù)和腫瘤的產(chǎn)生、發(fā)育有著密切的關(guān)系。對(duì)于腫瘤的分期來(lái)說(shuō),研究這些數(shù)據(jù)有著十分重要的作用。然而,腫瘤的組學(xué)數(shù)據(jù)通常具有樣本數(shù)少基因數(shù)目多的特點(diǎn)——“大p小n”的分布特點(diǎn)... 

【文章來(lái)源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:64 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

針對(duì)腫瘤分期診斷問(wèn)題的整合特征選擇算法研究


特征選擇算法的基本框架

數(shù)據(jù)分布,近鄰,填充法,樣本


吉林大學(xué)碩士學(xué)位論文4第2章相關(guān)的背景知識(shí)2.1數(shù)據(jù)預(yù)處理在數(shù)據(jù)科學(xué)中,數(shù)據(jù)預(yù)處理是一個(gè)關(guān)鍵步驟。許多算法的前提假設(shè)就是數(shù)據(jù)特征都是零均值或者是在同一階數(shù)的方差。如果某個(gè)特征的方差比其他數(shù)據(jù)集大了幾個(gè)數(shù)量級(jí)別,那么這個(gè)特征就會(huì)在機(jī)器學(xué)習(xí)當(dāng)中占據(jù)主導(dǎo)地位,這就會(huì)導(dǎo)致學(xué)習(xí)到的模型差強(qiáng)人意。2.1.1缺失值處理缺失值的產(chǎn)生通常是由于粗糙數(shù)據(jù)中由于缺失信息導(dǎo)致數(shù)據(jù)的一些屬性不完全,導(dǎo)致部分屬性值為空。缺失值的處理通常有兩種方法:刪除法和填充法。如果一個(gè)樣本或者變量的屬性包含的缺失值超過(guò)了一定的比例,比如超過(guò)樣本的一半或者某個(gè)百分比,我們就可以認(rèn)為這個(gè)屬性包含的信息量是有限的。強(qiáng)行的填充過(guò)量的人工添加信息會(huì)使得建模效果受到較大的影響。這種情況下,我們通常刪除缺失值。填充法包含隨機(jī)填充、均值填充、最相似填充、回歸填充[10]、K近鄰填充[11]等方法。隨機(jī)填充通常是選擇一個(gè)隨機(jī)數(shù)來(lái)進(jìn)行填充,這種方法沒(méi)有考慮到數(shù)據(jù)的特性,會(huì)產(chǎn)生異常值等,一般不建議使用。均值填充默認(rèn)數(shù)據(jù)分布是相同的。缺失值應(yīng)滿足整體的數(shù)據(jù)分布,可以采用平均數(shù)、中位數(shù)等添補(bǔ)。。最相似填充是在數(shù)據(jù)集中找到一個(gè)與它最相似的樣本,然后用這個(gè)樣本的值對(duì)缺失的值進(jìn)行填充;貧w填充是把缺失值作為目標(biāo)變量,其它值作為訓(xùn)練,預(yù)測(cè)生成的值作為缺失值。K近鄰填充則是利用K近鄰算法,選擇缺失值最近的K個(gè)近鄰點(diǎn),然后根據(jù)離缺失值最近的K個(gè)近鄰點(diǎn)進(jìn)行加權(quán)來(lái)估計(jì)缺失值。2.1.2數(shù)據(jù)的標(biāo)準(zhǔn)化通常來(lái)說(shuō),標(biāo)準(zhǔn)化是讓不同數(shù)據(jù)指標(biāo)處于同一的數(shù)量級(jí)別,有一定的可比性,從而提高機(jī)器學(xué)習(xí)模型的準(zhǔn)確性。對(duì)于線性模型來(lái)說(shuō),數(shù)據(jù)標(biāo)準(zhǔn)化后,尋找最優(yōu)解的過(guò)程會(huì)變得較為平緩,更容易找到最優(yōu)解。圖2.1歸一化

數(shù)據(jù),數(shù)據(jù)特征,方法,公式


第2章相關(guān)的背景知識(shí)5圖2.2未歸一化如圖2.1是做了歸一化,而圖2.2未做歸一化。圖中紅色的線為等高線,藍(lán)色的線是梯度下降來(lái)進(jìn)行求最優(yōu)解的過(guò)程,中心的圓或橢圓為最優(yōu)解。圖2.2未歸一化處理的求解過(guò)程呈現(xiàn)Z字形,而圖2.1為歸一化處理后求解的過(guò)程呈現(xiàn)出的1字形,對(duì)比可以明顯的看出,歸一化后等高線更圓,求解的梯度更快的到達(dá)圓心,收斂速度更快,更容易到達(dá)圓心。因此,歸一化能夠使得尋找最優(yōu)解的過(guò)程更加平緩,速度更快。下面介紹兩種使用最普遍的歸一化方法:Z分?jǐn)?shù)歸一化和最小最大歸一化。Z-Score歸一化也叫做0-1標(biāo)準(zhǔn)化,這是因?yàn)樗褂闷骄鶖?shù)和標(biāo)準(zhǔn)差來(lái)縮放數(shù)據(jù),縮放之后的數(shù)據(jù)滿足正態(tài)分布。也就是說(shuō)縮放之后的數(shù)據(jù)滿足均值為0,標(biāo)準(zhǔn)差為1?s放之后的數(shù)據(jù)處于同一數(shù)量級(jí)的范圍內(nèi),使得各個(gè)數(shù)據(jù)之間具有可以比較的特性。它的計(jì)算公式如公式2.1所示:=…………..…………………(2.1)在上述的公式當(dāng)中,x為數(shù)據(jù)特征的觀測(cè)值,為數(shù)據(jù)特征的均值,為標(biāo)準(zhǔn)差,為縮放后的數(shù)據(jù)。這個(gè)方法通常要求原始的數(shù)據(jù)分布可以近似為高斯分布。如果不是這樣的話,采用縮放調(diào)整之后的數(shù)據(jù)訓(xùn)練的模型的性能會(huì)很差。通常在分類和聚類的一些算法當(dāng)中,需要使用特征之間的距離來(lái)衡量相似程度的時(shí)候,或者說(shuō)是需要使用PCA算法對(duì)數(shù)據(jù)降維的時(shí)候,該方法呈現(xiàn)的效果相對(duì)較好。Min-Max歸一化(Min-MaxNormalization)通常也稱作最大最小值標(biāo)準(zhǔn)化,也可以稱作離差標(biāo)準(zhǔn)化,這種方法的縮放效果是使得數(shù)據(jù)的值映射到[0,1]之間,它計(jì)算方法如公式2.2所示:=min()max()min()……..…………………(2.2)對(duì)于去除量綱和數(shù)據(jù)的取值范圍影響,該方法是最簡(jiǎn)單的且保留了數(shù)據(jù)的原始存在關(guān)系的方法。但是這種處理模式下,在數(shù)據(jù)比較集中且存在離群點(diǎn)的?

【參考文獻(xiàn)】:
期刊論文
[1]磁共振成像對(duì)直腸癌分期和側(cè)切緣受累的預(yù)測(cè)價(jià)值[J]. 姜金波,戴勇,張曉明,李傳福,靳祖濤,畢冬松,孫靖中.  中華醫(yī)學(xué)雜志. 2006(14)

博士論文
[1]異構(gòu)健康大數(shù)據(jù)診療模型的特征優(yōu)化算法研究與開發(fā)[D]. 馮欣.吉林大學(xué) 2019



本文編號(hào):3243550

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/yixuelunwen/zlx/3243550.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0b6bf***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com