基于局部樣本的特征選擇算法在轉(zhuǎn)錄組數(shù)據(jù)中的應用研究
本文關鍵詞:基于局部樣本的特征選擇算法在轉(zhuǎn)錄組數(shù)據(jù)中的應用研究 出處:《吉林大學》2017年碩士論文 論文類型:學位論文
更多相關文章: 局部樣本 特征選擇 癌癥分類 轉(zhuǎn)錄組數(shù)據(jù)
【摘要】:隨著基因芯片和二代測序技術的發(fā)展,研究人員通過實驗獲得了大量的基因轉(zhuǎn)錄組數(shù)據(jù),但是小樣本、高維度的數(shù)據(jù)特點嚴重影響了提取有效特征的效率。因此,開發(fā)一個高效、魯棒的特征選擇方法,從高維基因轉(zhuǎn)錄組數(shù)據(jù)中提取有效的特征,對于研究者來說是非常重要的。近些年來,研究者開始使用特征選擇算法對這種高維小樣本的數(shù)據(jù)進行分析。隨著研究的深入,研究者發(fā)現(xiàn)使用全部樣本訓練的特征選擇模型不能獲得最優(yōu)的結果,噪聲樣本、樣本異常值、樣本不平衡分布等因素可能會導致分類準確率的下降。所以,對局部樣本的研究也就尤為重要。癌癥是一種異質(zhì)性疾病,在癌癥發(fā)展和進化的過程中,具有相同遺傳特征的病人可能含有相同的分子機制。所以,通過使用具有相同遺傳特征的局部樣本獲得更加準確的分類模型就變得愈發(fā)重要,而準確率越高的模型越能夠更加準確的預測一個人是否患有癌癥。因此,本文選擇癌癥的轉(zhuǎn)錄組數(shù)據(jù)的特征選擇作為研究對象。在本文中,我們提出一種新穎、有效的基于局部樣本的特征選擇方法,這種方法能夠獲得更加準確的特征,從而獲得更優(yōu)的性能。局部樣本可通過以下三個步驟獲取,首先,計算任意兩個樣本之間的歐式距離;其次,為每個中心樣本選擇與其最近的若干鄰居樣本構建共表達網(wǎng)絡,同時使用重啟動隨機游走方法形成最終的穩(wěn)態(tài)概率網(wǎng)絡,其中穩(wěn)態(tài)概率可看成樣本間的相似性,最終形成樣本相似性網(wǎng)絡;最后,為了選擇更好的局部樣本,通過設置一個確定的范圍,對樣本相似性網(wǎng)絡進行劃分,并且在比較了五種樣本選擇策略之后,獲得了具有最優(yōu)分類性能的局部樣本集合。我們把乳腺癌、胃癌、胰腺癌、肺癌、甲狀腺癌、前列腺癌等6種癌癥的轉(zhuǎn)錄組數(shù)據(jù)作為算法測試的數(shù)據(jù)集,分別將其應用在基于局部樣本的特征選擇方法上,使用留一交叉驗證方法評價分類性能,并且與T檢驗、秩和檢驗、最大相關最小冗余等方法進行對比。實驗結果顯示,本文提出的方法在六種數(shù)據(jù)集上的最大分類準確率分別是98.51%、97.27%、98.55%、100%、100%和100%,在大多數(shù)數(shù)據(jù)集上均獲得非常好的效果。由此可見,我們的方法能夠從不同癌癥數(shù)據(jù)中提取有用的特征,進而對癌癥進行分類,有很好的適用性和可應用性,同時也為醫(yī)學研究者提供了參考建議。
[Abstract]:With the development of gene chip and the two generation sequencing technology, the researchers obtained gene transcriptome data by numerous experiments, but the small sample data, the characteristics of high dimension has seriously affected the efficiency of extracting effective features. Therefore, the development of an efficient and robust feature selection method, extracting effective features from high dimensional gene transcription set of data, is very important for researchers. In recent years, researchers have begun to use data feature selection algorithm based on the high dimension and small sample were analyzed. With the in-depth study, the researchers found that the use of all the features of the training sample selection model can obtain optimal results, noise samples, sample outliers sample unbalanced distribution and other factors may result in decreased classification accuracy. Therefore, the study on the local sample is particularly important. Cancer is a heterogeneous disease in cancer development The process and evolution, has the same genetic characteristics of the patient may contain the same molecular mechanisms. So, through the use of local samples with the same genetic characteristics to obtain more accurate classification model has become more and more important, and the higher the accuracy of the model is able to more accurately predict whether a person suffering from cancer. Therefore, the characteristics of this paper choose cancer transcriptome data selection as the research object. In this paper, we propose a novel and effective feature selection method based on local samples, this method can obtain more accurate characteristics, so as to obtain better performance. The local sample can be obtained, through the following three steps: first, calculate European the distance between any two samples; secondly, for each center and the nearest neighbor number of sample selection sample to construct the co expression network, at the same time using random restart if you The formation of the final steady-state probability network method, which can be regarded as the steady-state probability similarity between samples, the final formation of the sample similarity network; finally, in order to better local sample selection, by setting a certain range of sample similarity network to be divided, and the comparison of five kinds of sample selection strategy, the local sample classification performance is optimal set. We have breast cancer, gastric cancer, pancreatic cancer, lung cancer, thyroid cancer, prostate cancer transcriptome data of 6 kinds of cancer as the algorithm test data sets, respectively, which is applied in the sample selection method based on local characteristics, the performance of classification is evaluated using leave one out cross validation method and T test, rank sum test, comparison of minimum redundancy and maximum correlation method. The experimental results show that the proposed method in the six largest classification data sets are accurate 98.51%, 97.27%, 98.55%, 100%, 100% and 100%, in most of the data sets were obtained very good effect. Thus, our method can extract useful features from different cancer data, and the classification of cancer, has good applicability and applicability, but also provides suggestions for medical researchers.
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:Q811.4;TP181
【相似文獻】
相關期刊論文 前10條
1 何勁松,施澤生;特征選擇方法中的信號分析方法研究[J];中國科學技術大學學報;2001年01期
2 孫霞;鄭慶華;;一種面向非平衡數(shù)據(jù)的鄰居詞特征選擇方法[J];小型微型計算機系統(tǒng);2008年12期
3 蔣盛益;鄭琪;張倩生;;基于聚類的特征選擇方法[J];電子學報;2008年S1期
4 王加龍;朱顥東;;結合類別相關性和辨識集的特征選擇方法[J];微型機與應用;2009年23期
5 朱顥東;周姝;鐘勇;;結合差別對象對集的綜合性特征選擇方法[J];計算機工程與設計;2010年03期
6 姜慧研;柴天佑;;基于可信間隔的特征選擇方法研究[J];控制與決策;2011年08期
7 姚旭;王曉丹;張玉璽;權文;;特征選擇方法綜述[J];控制與決策;2012年02期
8 王志昊;王中卿;李壽山;李培峰;;不平衡情感分類中的特征選擇方法研究[J];中文信息學報;2013年04期
9 張玉紅;周全;胡學鋼;;面向跨領域情感分類的特征選擇方法[J];模式識別與人工智能;2013年11期
10 李敏;卡米力·木依丁;;特征選擇方法與算法的研究[J];計算機技術與發(fā)展;2013年12期
相關會議論文 前6條
1 徐燕;王斌;李錦濤;孫春明;;知識增益:文本分類中一種新的特征選擇方法[A];第三屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2007年
2 肖婷;唐雁;;文本分類中特征選擇方法及應用[A];2008年計算機應用技術交流會論文集[C];2008年
3 徐燕;孫春明;王斌;李錦濤;;基于詞條頻率的特征選擇算法研究[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年
4 陳慶軒;鄭德權;鄭博文;趙鐵軍;李生;;中文文本分類中基于文檔頻度分布的特征選擇方法[A];黑龍江省計算機學會2009年學術交流年會論文集[C];2010年
5 顧成杰;張順頤;劉凱;黃河;;基于粗糙集和禁忌搜索的特征選擇方法[A];江蘇省電子學會2010年學術年會論文集[C];2010年
6 王秀娟;郭軍;鄭康鋒;;基于互信息可信度的特征選擇方法[A];2006通信理論與技術新進展——第十一屆全國青年通信學術會議論文集[C];2006年
相關博士學位論文 前5條
1 張逸石;基于冗余—互補散度及特征包絡前沿的數(shù)據(jù)驅(qū)動特征選擇方法研究[D];華中科技大學;2016年
2 毛勇;基于支持向量機的特征選擇方法的研究與應用[D];浙江大學;2006年
3 尹留志;關于非平衡數(shù)據(jù)特征問題的研究[D];中國科學技術大學;2014年
4 裴志利;數(shù)據(jù)挖掘技術在文本分類和生物信息學中的應用[D];吉林大學;2008年
5 劉明霞;屬性學習若干重要問題的研究及應用[D];南京航空航天大學;2015年
相關碩士學位論文 前10條
1 曹晉;基于SVDD的特征選擇方法研究及其應用[D];蘇州大學;2015年
2 張強;靜態(tài)圖像上的行人檢測方法研究[D];中國科學技術大學;2015年
3 張曉梅;基于融合特征的微博主客觀分類方法研究[D];山西大學;2014年
4 王君;基于SVM-RFE的特征選擇方法研究[D];大連理工大學;2015年
5 于海珠;面向文本聚類的特征選擇方法及應用研究[D];大連理工大學;2015年
6 趙世琛;文本分類中特征選擇方法研究[D];山西大學;2014年
7 王丹;特征選擇算法研究及其在異常檢測中的應用[D];電子科技大學;2014年
8 林艷峰;中文文本分類特征選擇方法的研究與實現(xiàn)[D];西安電子科技大學;2014年
9 盧志浩;基于GEP的kNN算法改進研究[D];廣西師范學院;2015年
10 王立鵬;面向圖數(shù)據(jù)的特征選擇方法及其應用研究[D];南京航空航天大學;2015年
,本文編號:1381030
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1381030.html