基于縱向數(shù)據(jù)的維數(shù)折疊降維方法研究及其實(shí)例應(yīng)用
發(fā)布時(shí)間:2021-09-23 00:42
近年,隨著大數(shù)據(jù)的應(yīng)用逐漸融入人們的生活,對于能保留數(shù)據(jù)內(nèi)部結(jié)構(gòu)的降維方法逐漸引起重視,特別是在縱向數(shù)據(jù)上有著廣泛的需求。本文主要討論縱向數(shù)據(jù)的降維,以及其在實(shí)際醫(yī)學(xué)疾病領(lǐng)域的應(yīng)用。針對縱向數(shù)據(jù),本文提出維數(shù)折疊主成分分析方法進(jìn)行降維。該方法在實(shí)現(xiàn)指標(biāo)變量和時(shí)間兩維度降維的同時(shí),能保留原始數(shù)據(jù)固有的結(jié)構(gòu),不破壞數(shù)據(jù)的相關(guān)性。具體而言,將原始縱向數(shù)據(jù)視為矩陣值數(shù)據(jù),在橫縱兩個(gè)方向上通過極大似然估計(jì)方法估計(jì)出中心維數(shù)折疊子空間,從而在兩維度上實(shí)現(xiàn)降維同時(shí)也保留了數(shù)據(jù)的原始結(jié)構(gòu)。進(jìn)一步地,通過仿真實(shí)驗(yàn),考慮兩種數(shù)據(jù)相關(guān)情況下的縱向數(shù)據(jù)降維:(1)組內(nèi)觀測值相互獨(dú)立的情況;(2)組內(nèi)觀測值相關(guān)的情況。將所提方法與傳統(tǒng)的主成分分析方法進(jìn)行比較,模擬結(jié)果表明所提方法無論是在組內(nèi)觀測值相互獨(dú)立還是相關(guān)的情況下,都擁有較小的降維估計(jì)誤差,從而在數(shù)值上證實(shí)了所提方法的有效性。進(jìn)一步,本文將所提的維數(shù)折疊主成分分析方法用于原發(fā)性膽汁肝硬化疾病數(shù)據(jù),對病人的生存期進(jìn)行預(yù)測分析;诮稻S后的降維方向?qū)?shù)據(jù)進(jìn)行低維投影,并建立非參數(shù)模型來預(yù)測生存期,與傳統(tǒng)的線性混合效應(yīng)模型的預(yù)測效果進(jìn)行比較,結(jié)果表明基于所提方...
【文章來源】:上海師范大學(xué)上海市
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
中國近幾年大數(shù)據(jù)產(chǎn)業(yè)規(guī)模及
上海師范大學(xué)碩士學(xué)位論文第4章原發(fā)性膽汁肝硬化疾病數(shù)據(jù)的應(yīng)用23圖4.1(a):所觀察到的血清膽紅素(bili)的改變趨勢,標(biāo)記出的黑線為選定的兩個(gè)病人(id2和id20)的血清膽紅素的改變趨勢;(b):觀察到血小板計(jì)數(shù)(platelet)的改變趨勢,標(biāo)記出的黑線為選定的兩個(gè)病人(id2和id40)的血小板計(jì)數(shù)的改變趨勢因此,接下來,我們從維數(shù)折疊的角度對PBC數(shù)據(jù)進(jìn)行預(yù)處理,將每一個(gè)病人的數(shù)據(jù)信息以縱向的數(shù)據(jù)形式進(jìn)行分析。我們關(guān)注在測定6個(gè)月、1年、2年和3年四個(gè)時(shí)間點(diǎn)的血清膽紅素、白蛋白水平和凝血酶原時(shí)間這三個(gè)指標(biāo),為了便于程序編寫計(jì)算,我們設(shè)定橫向?yàn)橹笜?biāo)變量信息,縱向?yàn)闀r(shí)間變量信息,因此,對于每個(gè)個(gè)體而言,數(shù)據(jù)表現(xiàn)形式為的矩陣形式,響應(yīng)變量是登記到移植或死亡兩者較早出現(xiàn)的年份。在處理過程中,我們將登記后第90天至第270天的隨訪視為6個(gè)月時(shí)間點(diǎn)的分組,入組后270天至550天、550天至910天、910天至1275天視為訪問頻率分別為1年、2年和3年,同時(shí),存在一部分病例無移植或存活時(shí)間接近但小于3年的情況需要進(jìn)行剔除。綜上,有187個(gè)病人在這四個(gè)時(shí)間點(diǎn)有完整的記錄,這些病人構(gòu)成的187個(gè)的矩陣數(shù)據(jù)為我們目標(biāo)分析的縱向數(shù)據(jù)。
第5章基于PBC分組數(shù)據(jù)的統(tǒng)計(jì)推斷上海師范大學(xué)碩士學(xué)位論文26第5章基于PBC分組數(shù)據(jù)的統(tǒng)計(jì)推斷5.1基于分組后DF-PCA降維的非參數(shù)模型擬合我們將響應(yīng)變量進(jìn)行對數(shù)化處理,對降維后的主成分關(guān)于對數(shù)化后的響應(yīng)變量進(jìn)行非參數(shù)模型擬合,模型如下:,(5.1)其中,表示對數(shù)化后的響應(yīng)變量,為進(jìn)行DF-PCA降維后的主成分部分,滿足獨(dú)立正態(tài)假定,為光滑的未知函數(shù)。針對模型,我們做出降維后數(shù)據(jù)的散點(diǎn)圖并在圖上畫出擬合曲線,同時(shí)做出殘差圖以觀察擬合情況,如圖5.1(a)和(b)所示:圖5.1(a)DF-PCA方法降維后的數(shù)據(jù)關(guān)于響應(yīng)變量的擬合圖;(b)DF-PCA方法降維后數(shù)據(jù)的殘差圖()T1121=+iiiYfXiYT1121iXi()T1121ifX(b)殘差圖(a)降維后的變量關(guān)于對數(shù)化后的響應(yīng)變量的散點(diǎn)圖
本文編號(hào):3404682
【文章來源】:上海師范大學(xué)上海市
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
中國近幾年大數(shù)據(jù)產(chǎn)業(yè)規(guī)模及
上海師范大學(xué)碩士學(xué)位論文第4章原發(fā)性膽汁肝硬化疾病數(shù)據(jù)的應(yīng)用23圖4.1(a):所觀察到的血清膽紅素(bili)的改變趨勢,標(biāo)記出的黑線為選定的兩個(gè)病人(id2和id20)的血清膽紅素的改變趨勢;(b):觀察到血小板計(jì)數(shù)(platelet)的改變趨勢,標(biāo)記出的黑線為選定的兩個(gè)病人(id2和id40)的血小板計(jì)數(shù)的改變趨勢因此,接下來,我們從維數(shù)折疊的角度對PBC數(shù)據(jù)進(jìn)行預(yù)處理,將每一個(gè)病人的數(shù)據(jù)信息以縱向的數(shù)據(jù)形式進(jìn)行分析。我們關(guān)注在測定6個(gè)月、1年、2年和3年四個(gè)時(shí)間點(diǎn)的血清膽紅素、白蛋白水平和凝血酶原時(shí)間這三個(gè)指標(biāo),為了便于程序編寫計(jì)算,我們設(shè)定橫向?yàn)橹笜?biāo)變量信息,縱向?yàn)闀r(shí)間變量信息,因此,對于每個(gè)個(gè)體而言,數(shù)據(jù)表現(xiàn)形式為的矩陣形式,響應(yīng)變量是登記到移植或死亡兩者較早出現(xiàn)的年份。在處理過程中,我們將登記后第90天至第270天的隨訪視為6個(gè)月時(shí)間點(diǎn)的分組,入組后270天至550天、550天至910天、910天至1275天視為訪問頻率分別為1年、2年和3年,同時(shí),存在一部分病例無移植或存活時(shí)間接近但小于3年的情況需要進(jìn)行剔除。綜上,有187個(gè)病人在這四個(gè)時(shí)間點(diǎn)有完整的記錄,這些病人構(gòu)成的187個(gè)的矩陣數(shù)據(jù)為我們目標(biāo)分析的縱向數(shù)據(jù)。
第5章基于PBC分組數(shù)據(jù)的統(tǒng)計(jì)推斷上海師范大學(xué)碩士學(xué)位論文26第5章基于PBC分組數(shù)據(jù)的統(tǒng)計(jì)推斷5.1基于分組后DF-PCA降維的非參數(shù)模型擬合我們將響應(yīng)變量進(jìn)行對數(shù)化處理,對降維后的主成分關(guān)于對數(shù)化后的響應(yīng)變量進(jìn)行非參數(shù)模型擬合,模型如下:,(5.1)其中,表示對數(shù)化后的響應(yīng)變量,為進(jìn)行DF-PCA降維后的主成分部分,滿足獨(dú)立正態(tài)假定,為光滑的未知函數(shù)。針對模型,我們做出降維后數(shù)據(jù)的散點(diǎn)圖并在圖上畫出擬合曲線,同時(shí)做出殘差圖以觀察擬合情況,如圖5.1(a)和(b)所示:圖5.1(a)DF-PCA方法降維后的數(shù)據(jù)關(guān)于響應(yīng)變量的擬合圖;(b)DF-PCA方法降維后數(shù)據(jù)的殘差圖()T1121=+iiiYfXiYT1121iXi()T1121ifX(b)殘差圖(a)降維后的變量關(guān)于對數(shù)化后的響應(yīng)變量的散點(diǎn)圖
本文編號(hào):3404682
本文鏈接:http://sikaile.net/kejilunwen/yysx/3404682.html
最近更新
教材專著