基于邏輯回歸的多數(shù)據(jù)融合鑒別致病基因
發(fā)布時間:2021-08-08 18:00
癌癥亦稱為惡性腫瘤,癌癥的發(fā)生對人類健康產(chǎn)生了巨大的威脅。隨著人類基因組計劃的完成,尋找與癌癥相關的致病基因成為理解癌癥病發(fā)機理、癌癥預防和診治手段的基礎,具有重大的社會和科學意義。因此,在生物醫(yī)學領域中,人類致病基因的預測已成為研究熱點。已有研究顯示,生物網(wǎng)絡中趨于鄰近的基因易導致同種或相似疾病的發(fā)生。有效地利用多種生物網(wǎng)絡間所隱含的生物信息,能夠提高人類致病基因預測的準確性。與此同時,在鑒別與某種癌癥相關致病基因問題中,由于已知基因較未知基因數(shù)目相差懸殊,使得致病基因的鑒別問題成為一個典型的不平衡分類問題,傳統(tǒng)機器學習方法對于致病基因的鑒別效果并不理想。在此背景下,本論文以多種生物網(wǎng)絡數(shù)據(jù)為基礎,針對人類致病基因的鑒別問題進行了研究,取得了如下創(chuàng)新性成果:1.為了將多種生物網(wǎng)絡信息進行有效地融合,本研究提出了一種基于邏輯回歸的多源數(shù)據(jù)融合方法。給每個基因分配先驗標簽的過程中使用了蛋白質(zhì)復合物數(shù)據(jù)信息,并通過對二值邏輯回歸算法中特征向量的重新構(gòu)造實現(xiàn)了多種數(shù)據(jù)源的有效融合,同時充分融入了基因與基因之間的連接信息。該方法提高了致病基因鑒別問題的預測精度,相關實驗結(jié)果分析對比也進一步表明...
【文章來源】:西安電子科技大學陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
S型生長曲線
?諏饜脅⊙У攘煊蛑幸丫?晌?鈑行У姆治鍪侄。?2.2 邏輯回歸過程圖2.2 不平衡分類問題模式分類問題中,訓練樣本的數(shù)量在類之間分布不平衡的問題,被稱為不平衡分類問題。簡而言之,就是某些類的樣本數(shù)量遠遠多于其它類,即類與類之間樣本數(shù)量嚴重失衡。在許多實際模式分類問題中,數(shù)據(jù)量少的那類即稀有的類常常更為研究者所關注,但是傳統(tǒng)的分類方法很難將其正確地進行分類。對于這種不平衡分類問題的解決,傳統(tǒng)的機器學習方法所展現(xiàn)的分類性能大幅度降低,通過對樣本的學習得到的分類器有很大的偏向性,數(shù)據(jù)量少的類中的樣本易被錯分到數(shù)據(jù)量大的類別中。不平衡分類問題有如下幾個特點:(1) 噪聲在對分類器的性能進行評價時,由于噪聲數(shù)據(jù)的存在,分類結(jié)果在一定程度上會受到它的影響[28]。在不平衡分類問題中,數(shù)據(jù)量少的類對噪聲數(shù)據(jù)敏感,噪聲數(shù)據(jù)的存在會對其產(chǎn)生更大的影響。如果在數(shù)據(jù)量少的類的決策閾中存在少量噪聲數(shù)據(jù),那么會嚴重影響決策面的學習。這也說明了數(shù)據(jù)量少的類的抗噪能力弱,而且傳統(tǒng)的分類器很難將噪聲數(shù)據(jù)和數(shù)據(jù)量少的類的樣本進行區(qū)分[29]。如果為了除去噪聲的影響而采取一些防止過學習的相關技術,那么在去除噪聲的同時也會將一些數(shù)據(jù)量少的類中的樣本一并去除。但是,如果不除去噪聲,分類的性能難以提高。(2) 數(shù)據(jù)稀缺數(shù)據(jù)稀缺在很大一部分是由于樣本分布的不平衡性所導致的。其中,稀缺主要分為相對稀缺以及絕對稀缺。相對稀缺指的是“數(shù)據(jù)量少的類”中樣本相對于“數(shù)據(jù)量多的類”中樣本所占比例過小,而“數(shù)據(jù)量少的類”中樣本的數(shù)量并不?
第二章 相關理論rea Under ROC Curve)是一個值,該值為 ROC 曲線下方對模型的性能進行評價。假如一個模型的分類性能優(yōu)于另 ROC 曲線下放的面積則更大,其對應的 AUC 值更大。它有更好的分類性能,模型越可靠且完美。當隨機預測ROC 和 AUC 具有一個優(yōu)點,即它們適合類分布改變不不足之處是只適合用于二值分類問題中。應用中,通常性能進行評估。
【參考文獻】:
期刊論文
[1]Gambogic Acid Induces Cell Apoptosis and Inhibits MAPK Pathway in PTEN-/-/p53-/- Prostate Cancer Cells In Vitro and Ex Vivo[J]. PAN Hong,LU Li-yuan,WANG Xue-qian,LI Bin-xue,Kathleen Kelly,LIN Hong-sheng. Chinese Journal of Integrative Medicine. 2018(02)
[2]Wnt/β-catenin的表達與腫瘤關系研究進展[J]. 李國棟,姚碧輝,金文海,梁魯. 世界最新醫(yī)學信息文摘. 2018(07)
[3]Assimilating Doppler radar observations with an ensemble Kalman filter for convection-permitting prediction of convective development in a heavy rainfall event during the pre-summer rainy season of South China[J]. BAO XingHua,LUO YaLi,SUN JiaXiang,MENG ZhiYong,YUE Jian. Science China(Earth Sciences). 2017(10)
[4]Landslide susceptibility mapping using an integrated model of information value method and logistic regression in the Bailongjiang watershed, Gansu Province, China[J]. DU Guo-liang,ZHANG Yong-shuang,IQBAL Javed,YANG Zhi-hua,YAO Xin. Journal of Mountain Science. 2017(02)
[5]前列腺癌發(fā)生發(fā)展相關信號轉(zhuǎn)導通路的研究進展[J]. 申利賢,周斌,李海艷,閔可,蔣敏媚,郭玉. 腫瘤藥學. 2016(02)
[6]Study on Diagnosis Criteria of Fire-Heat Syndrome Based on Receiver Operating Characteristic Curve and Principal Component Analysis[J]. 劉四軍,黃兆勝,吳慶光,黃張杰,吳麗蓉,閆文麗,王奇,王宗偉,張倫博,楊政. Chinese Journal of Integrative Medicine. 2016(04)
[7]Toll樣受體在肺癌中的研究進展[J]. 康寶麗,陸英,徐增光. 同濟大學學報(醫(yī)學版). 2015(03)
[8]乳腺原發(fā)癌和相應淋巴結(jié)轉(zhuǎn)移癌干細胞Wnt、Notch信號通路相關分子的比較[J]. 曾令瑞,韓玉貞,馬英路,李文星. 臨床與實驗病理學雜志. 2014(09)
[9]Notch信號通路在乳腺癌干細胞中的研究進展[J]. 郭瑢,張瑾. 中國腫瘤臨床. 2014(14)
[10]Notch信號通路與乳腺癌的研究進展[J]. 李芳華,張新民. 海南醫(yī)學院學報. 2011(02)
碩士論文
[1]基于AUC的分類器性能評估問題研究[D]. 蔣帥.吉林大學 2016
[2]基于AP聚類的蒸餾算法篩選乳腺癌致病基因[D]. 劉志敏.西安電子科技大學 2014
本文編號:3330419
【文章來源】:西安電子科技大學陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
S型生長曲線
?諏饜脅⊙У攘煊蛑幸丫?晌?鈑行У姆治鍪侄。?2.2 邏輯回歸過程圖2.2 不平衡分類問題模式分類問題中,訓練樣本的數(shù)量在類之間分布不平衡的問題,被稱為不平衡分類問題。簡而言之,就是某些類的樣本數(shù)量遠遠多于其它類,即類與類之間樣本數(shù)量嚴重失衡。在許多實際模式分類問題中,數(shù)據(jù)量少的那類即稀有的類常常更為研究者所關注,但是傳統(tǒng)的分類方法很難將其正確地進行分類。對于這種不平衡分類問題的解決,傳統(tǒng)的機器學習方法所展現(xiàn)的分類性能大幅度降低,通過對樣本的學習得到的分類器有很大的偏向性,數(shù)據(jù)量少的類中的樣本易被錯分到數(shù)據(jù)量大的類別中。不平衡分類問題有如下幾個特點:(1) 噪聲在對分類器的性能進行評價時,由于噪聲數(shù)據(jù)的存在,分類結(jié)果在一定程度上會受到它的影響[28]。在不平衡分類問題中,數(shù)據(jù)量少的類對噪聲數(shù)據(jù)敏感,噪聲數(shù)據(jù)的存在會對其產(chǎn)生更大的影響。如果在數(shù)據(jù)量少的類的決策閾中存在少量噪聲數(shù)據(jù),那么會嚴重影響決策面的學習。這也說明了數(shù)據(jù)量少的類的抗噪能力弱,而且傳統(tǒng)的分類器很難將噪聲數(shù)據(jù)和數(shù)據(jù)量少的類的樣本進行區(qū)分[29]。如果為了除去噪聲的影響而采取一些防止過學習的相關技術,那么在去除噪聲的同時也會將一些數(shù)據(jù)量少的類中的樣本一并去除。但是,如果不除去噪聲,分類的性能難以提高。(2) 數(shù)據(jù)稀缺數(shù)據(jù)稀缺在很大一部分是由于樣本分布的不平衡性所導致的。其中,稀缺主要分為相對稀缺以及絕對稀缺。相對稀缺指的是“數(shù)據(jù)量少的類”中樣本相對于“數(shù)據(jù)量多的類”中樣本所占比例過小,而“數(shù)據(jù)量少的類”中樣本的數(shù)量并不?
第二章 相關理論rea Under ROC Curve)是一個值,該值為 ROC 曲線下方對模型的性能進行評價。假如一個模型的分類性能優(yōu)于另 ROC 曲線下放的面積則更大,其對應的 AUC 值更大。它有更好的分類性能,模型越可靠且完美。當隨機預測ROC 和 AUC 具有一個優(yōu)點,即它們適合類分布改變不不足之處是只適合用于二值分類問題中。應用中,通常性能進行評估。
【參考文獻】:
期刊論文
[1]Gambogic Acid Induces Cell Apoptosis and Inhibits MAPK Pathway in PTEN-/-/p53-/- Prostate Cancer Cells In Vitro and Ex Vivo[J]. PAN Hong,LU Li-yuan,WANG Xue-qian,LI Bin-xue,Kathleen Kelly,LIN Hong-sheng. Chinese Journal of Integrative Medicine. 2018(02)
[2]Wnt/β-catenin的表達與腫瘤關系研究進展[J]. 李國棟,姚碧輝,金文海,梁魯. 世界最新醫(yī)學信息文摘. 2018(07)
[3]Assimilating Doppler radar observations with an ensemble Kalman filter for convection-permitting prediction of convective development in a heavy rainfall event during the pre-summer rainy season of South China[J]. BAO XingHua,LUO YaLi,SUN JiaXiang,MENG ZhiYong,YUE Jian. Science China(Earth Sciences). 2017(10)
[4]Landslide susceptibility mapping using an integrated model of information value method and logistic regression in the Bailongjiang watershed, Gansu Province, China[J]. DU Guo-liang,ZHANG Yong-shuang,IQBAL Javed,YANG Zhi-hua,YAO Xin. Journal of Mountain Science. 2017(02)
[5]前列腺癌發(fā)生發(fā)展相關信號轉(zhuǎn)導通路的研究進展[J]. 申利賢,周斌,李海艷,閔可,蔣敏媚,郭玉. 腫瘤藥學. 2016(02)
[6]Study on Diagnosis Criteria of Fire-Heat Syndrome Based on Receiver Operating Characteristic Curve and Principal Component Analysis[J]. 劉四軍,黃兆勝,吳慶光,黃張杰,吳麗蓉,閆文麗,王奇,王宗偉,張倫博,楊政. Chinese Journal of Integrative Medicine. 2016(04)
[7]Toll樣受體在肺癌中的研究進展[J]. 康寶麗,陸英,徐增光. 同濟大學學報(醫(yī)學版). 2015(03)
[8]乳腺原發(fā)癌和相應淋巴結(jié)轉(zhuǎn)移癌干細胞Wnt、Notch信號通路相關分子的比較[J]. 曾令瑞,韓玉貞,馬英路,李文星. 臨床與實驗病理學雜志. 2014(09)
[9]Notch信號通路在乳腺癌干細胞中的研究進展[J]. 郭瑢,張瑾. 中國腫瘤臨床. 2014(14)
[10]Notch信號通路與乳腺癌的研究進展[J]. 李芳華,張新民. 海南醫(yī)學院學報. 2011(02)
碩士論文
[1]基于AUC的分類器性能評估問題研究[D]. 蔣帥.吉林大學 2016
[2]基于AP聚類的蒸餾算法篩選乳腺癌致病基因[D]. 劉志敏.西安電子科技大學 2014
本文編號:3330419
本文鏈接:http://sikaile.net/shekelunwen/ljx/3330419.html
最近更新
教材專著