天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多數(shù)據(jù)集的胰腺癌分類特征基因研究

發(fā)布時間:2021-07-27 15:15
  二十一世紀以來,隨著經(jīng)濟的發(fā)展,癌癥患者以及其他疾病患者數(shù)量急劇增長,不斷對我國的醫(yī)療水平提出了挑戰(zhàn)。如同面對2019新型冠狀病毒的襲擊一般,我們需要不斷地探索、不斷地突破,才能使病例被診斷、被治療。類似于這種無法通過觀測表觀癥狀診斷,或者病情還在初期的癌癥或者疾病,可通過檢測基因測序或基因表達數(shù)據(jù)提供診斷和治療的依據(jù)。如今,基因芯片技術(shù)發(fā)展迅猛,公開的基因表達數(shù)據(jù)越來越多,如何通過這些基因表達數(shù)據(jù)探索出癌癥或疾病診斷方向顯得越來越重要。然而,目前癌癥基因表達數(shù)據(jù)研究致力于在少量的樣本數(shù)據(jù)的基礎(chǔ)上來提出更佳的相關(guān)研究方法,忽略了樣本的普遍性與獨特性,研究結(jié)果說服力度不夠。因此本文將研究四個胰腺癌基因表達數(shù)據(jù)集,并使用一個新的外部樣本集檢驗實驗結(jié)果。同時考慮到基因之間的相似性,采用了區(qū)別于目前許多硬聚類研究的軟聚類方法---模糊聚類進行基因分類,尋找更加全面的胰腺癌分類特征基因。本文從GEO公開數(shù)據(jù)庫下載了四個胰腺癌基因表達數(shù)據(jù)集。采用R語言的Limma包的經(jīng)驗貝葉斯方法分別對四個數(shù)據(jù)集進行差異表達分析,然后對四個差異分析結(jié)果取交集,將其作為后續(xù)研究的基礎(chǔ);采用中位數(shù)整合法,整合四個基因... 

【文章來源】:西南大學重慶市 211工程院校 教育部直屬院校

【文章頁數(shù)】:51 頁

【學位級別】:碩士

【部分圖文】:

基于多數(shù)據(jù)集的胰腺癌分類特征基因研究


中位數(shù)整合法過程展示

函數(shù)曲線,函數(shù)曲線,交叉驗證,測試集


西南大學應(yīng)用統(tǒng)計碩士學位論文24圖3-2sigmoid函數(shù)曲線當z趨于時,g(z)趨于1;當z趨于-時,g(z)趨于0。將線性模型預(yù)測函數(shù)結(jié)果代入Sigmoid函數(shù)得到邏輯回歸預(yù)測函數(shù),如下:xTTehXgX11)()((3.5)由此,根據(jù)設(shè)定閾值來確定分類結(jié)果。例如,閾值設(shè)定為0.5,則Xh5.0)(時,分為一類;Xh5.0)(時,分為另一類。(2)分類模型評估建立好模型之后,通過劃分訓練集與測試集進行模型驗證評估。本文將采用留一交叉驗證法進行驗證。留一法是常見的k折交叉驗證法的特例。k折交叉驗證,首先將全部樣本集X分成k個不相交的子集,假設(shè)樣本集X中樣本個數(shù)為m,那么每一個子集有km/個樣本,相應(yīng)的子集為}x,,x,{xk21;然后每次從劃分好的子集中,抽出1個作為測試集,剩下k1個作為訓練集;再運用分類算法訓練訓練集得到分類模型,將測試集放入分類模型,得到測試集分類預(yù)測結(jié)果;最后計算k次分類預(yù)測結(jié)果的平均值,即為該模型的真實分類預(yù)測性能。當k值取m時,即為留一交叉驗證。顧名思義就是每次只抽出1個樣本作測試集,其它剩余樣本作訓練集,如果有n個樣本,則需要訓練n次,測試n次。留一交叉驗證計算較為繁瑣,適用小樣本,但該方法樣本利用率較高。同時本文采用混淆矩陣的衍生指標準確率、特異度以及ROC曲線、AUC值進行評估分類模型識別效果。

線圖,線圖,數(shù)據(jù)集,探針


西南大學應(yīng)用統(tǒng)計碩士學位論文253.3實驗結(jié)果3.3.1數(shù)據(jù)預(yù)處理下載的基因表達譜數(shù)據(jù)均是探針表達值,需要將探針翻譯為對應(yīng)的基因。針對不同探針對應(yīng)相同基因的情況,取多個探針平均表達值作為該基因的表達值。首先將五個基因表達數(shù)據(jù)集均按此方法進行探針翻譯�?紤]到GSE16515數(shù)據(jù)集用作后期分類模型驗證,因此接下來就只針對GSE28735數(shù)據(jù)集、GSE41368數(shù)據(jù)集、GSE15471數(shù)據(jù)集、GSE71989數(shù)據(jù)集四個數(shù)據(jù)集進行處理與研究。由于GSE41368數(shù)據(jù)集的觀測值數(shù)值較大,先將其進行l(wèi)og2對數(shù)轉(zhuǎn)換,再對四個數(shù)據(jù)集進行標準差標準化,并繪制箱線圖。GSE28735數(shù)據(jù)集、GSE41368數(shù)據(jù)集、GSE15471數(shù)據(jù)集、GSE71989數(shù)據(jù)集標準化的箱線圖分別如圖3-3A、圖3-3B、圖3-3C、圖3-3D所示。此時四個數(shù)據(jù)集樣本表達量集中在-1到1之間,中位數(shù)集中在0附近。圖3-3四個數(shù)據(jù)集標準化后箱線圖

【參考文獻】:
期刊論文
[1]胰腺癌診斷和預(yù)后關(guān)鍵生物標志物的篩選鑒定和綜合分析[J]. 柳興源,李菁媛,楊靜.  腫瘤防治研究. 2020(01)
[2]胰腺癌診治的研究進展[J]. 丁玨寧君,計鳳鳴,王斌,白松.  醫(yī)學理論與實踐. 2019(23)
[3]胰腺癌早期診斷的最新關(guān)注點[J]. 孔祥耀,潘耀振.  世界最新醫(yī)學信息文摘. 2019(98)
[4]胰腺癌綜合治療的進展與突破[J]. 毛鐵波,崔玖潔,王理偉.  循證醫(yī)學. 2019(05)
[5]一種加權(quán)K-均值基因聚類算法[J]. 姚登舉,詹曉娟,張曉晶.  哈爾濱理工大學學報. 2017(02)
[6]決策樹算法的研究綜述[J]. 田欣.  現(xiàn)代營銷(下旬刊). 2017(01)
[7]基因表達譜的腫瘤特征基因提取研究分析[J]. 尹蕾,王博.  西安文理學院學報(自然科學版). 2014(02)
[8]模糊聚類分析及其應(yīng)用研究[J]. 李新社,姚俊平.  網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2014(01)
[9]結(jié)合主成分與獨立成分分析識別胃癌相關(guān)差異表達基因的方法研究[J]. 陳戰(zhàn)雷,李博宇,李益,饒妮妮.  生物醫(yī)學工程學雜志. 2013(05)
[10]基于BB-SIR方法的結(jié)腸癌特征基因提取[J]. 李杰,鄧麗君,唐勝男.  世界科技研究與發(fā)展. 2011 (04)

博士論文
[1]胰腺導管腺癌中核蛋白AHNAK功能分析驗證及胰腺星形細胞甲基化水平的檢測[D]. 張志文.北京協(xié)和醫(yī)學院 2019
[2]基于流行病學、臨床癥狀、腫瘤標志和影像學特征的肺癌診斷模型的建立[D]. 倪然.鄭州大學 2016
[3]癌相關(guān)高通量組學數(shù)據(jù)的標準化[D]. 王棟.電子科技大學 2011
[4]基因芯片數(shù)據(jù)統(tǒng)合分析方法的若干拓展[D]. 徐兆華.浙江大學 2010

碩士論文
[1]基于基因表達數(shù)據(jù)的癌癥特征基因選擇方法研究[D]. 李曉丹.北京工業(yè)大學 2016
[2]基因表達譜數(shù)據(jù)聚類分析的研究[D]. 周洋.西北農(nóng)林科技大學 2014
[3]miRNA-200c在乳腺癌中的表達及其調(diào)控基因網(wǎng)絡(luò)的篩選[D]. 王晟.南昌大學醫(yī)學院 2013
[4]多平臺基因芯片數(shù)據(jù)整合方法改進[D]. 張園.湖南大學 2013
[5]胃癌中miRNA-429的表達及其生物信息學的初步研究[D]. 張月馨.河北醫(yī)科大學 2013
[6]基于統(tǒng)計分析法的腫瘤特征基因提取和分類研究[D]. 趙亞寧.西安建筑科技大學 2012
[7]基因表達數(shù)據(jù)的分析與處理[D]. 吳敏.西安理工大學 2009



本文編號:3306032

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3306032.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶01f84***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com