基于鄰域粗糙集的腫瘤基因表達譜數(shù)據(jù)分析
發(fā)布時間:2017-07-15 14:21
本文關(guān)鍵詞:基于鄰域粗糙集的腫瘤基因表達譜數(shù)據(jù)分析
更多相關(guān)文章: 鄰域粗糙集 屬性分類效率 基因表達譜數(shù)據(jù) 信息基因 分類準確率
【摘要】:基于腫瘤不同的亞型的精確識別對于良性腫瘤的預防和癌癥的治療都非常關(guān)鍵,腫瘤不同的亞型分類研究獲取了重大的關(guān)注度,而腫瘤基因表達譜數(shù)據(jù)為研究提供了重要的資源。針對基因表達譜數(shù)據(jù)中包含的特征,目前出現(xiàn)了多種信息基因選取的方法。鄰域粗糙集理論在各個應(yīng)用領(lǐng)域的日益成熟,為分析這類數(shù)據(jù)提供了另一種有用的研究工具。在鄰域互信息信息基因選擇算法及擴展的鄰域條件互信息信息基因選擇算法中,計算基因?qū)傩耘c決策屬性之間的互信息值是復雜的。根據(jù)每個基因?qū)傩杂嬎愠龅幕バ畔⒅祵蜻M行排序,選取前K個基因,設(shè)定一個合適的判別函數(shù)進行降維處理。整個過程的計算量大時間長,而且選取合適的K值需要多次實驗測試。針對這些考慮,本文提出了鄰域粗糙集屬性分類效率算法(NRSACE)。一般可知對于腫瘤分類來說有效的基因數(shù)目并不多,分類效率太低的基因我們可以設(shè)置最低分類效率控制值對其進行直接刪除,基于這些想法,NRSACE算法直接計算基因?qū)傩缘姆诸愋?對基因邊排序邊選擇,獲取所需的相對約簡信息基因集。最后采用支持向量機分類器和K最近鄰分類器對選取的信息基因集的分類能力進行驗證,說明本文提出的鄰域粗糙集屬性分類效率信息基因選擇算法的有效性。本文選了4組通用的腫瘤基因表達譜數(shù)據(jù)對提出的NRSACE算法進行了實驗分析,4組數(shù)據(jù)分別是DLBCL、Leukemia1、Leukemia2和SRBCT腫瘤基因表達譜數(shù)據(jù)。數(shù)據(jù)實驗分析結(jié)果顯示,根據(jù)調(diào)節(jié)模型鄰域參數(shù)δ的取值,4類腫瘤亞型的分類精度的平均值都可達到百分之九十八以上,而且實驗分類精度的波動范圍很小。SRBCT數(shù)據(jù)集的分析結(jié)果顯示其平均分類準確率提高接近14%。本文對模型的穩(wěn)健性進行了測試,隨機刪除原始數(shù)據(jù)集中5%的樣本數(shù),對剩余樣本利用NRSACE算法進行分析,選取的信息基因集的元素個數(shù)協(xié)同選擇的基因集具體元素相差不大,同時平均分類準確率相對穩(wěn)定。所有分析表明,我們的研究具有一定的意義。
【關(guān)鍵詞】:鄰域粗糙集 屬性分類效率 基因表達譜數(shù)據(jù) 信息基因 分類準確率
【學位授予單位】:湘潭大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:R73-3
【目錄】:
- 摘要5-6
- Abstract6-9
- 第一章 緒論9-12
- 1.1 研究背景及意義9-10
- 1.2 研究現(xiàn)狀10-11
- 1.3 文章主體結(jié)構(gòu)11-12
- 第二章 基因表達譜數(shù)據(jù)和鄰域粗糙集相關(guān)理論12-23
- 2.1 基因表達譜數(shù)據(jù)12-14
- 2.1.1 基因表達譜數(shù)據(jù)的概述12
- 2.1.2 基因表達譜數(shù)據(jù)的特點12-14
- 2.2 鄰域粗糙集相關(guān)理論14-20
- 2.2.1 鄰域粗糙集15-16
- 2.2.2 鄰域互信息和鄰域條件互信息16-17
- 2.2.3 鄰域粗糙集屬性分類效率17-20
- 2.3 支持向量機和KNN分類器20-22
- 2.4 本章小結(jié)22-23
- 第三章 基于鄰域粗糙集的信息基因選擇算法23-34
- 3.1 算法設(shè)計23-26
- 3.2 實驗數(shù)據(jù)描述26
- 3.3 實驗結(jié)果與分析26-32
- 3.4 模型的穩(wěn)健性分析32-33
- 3.5 本章小結(jié)33-34
- 第四章 結(jié)論與展望34-35
- 參考文獻35-39
- 致謝39
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 孫德利,舒琦瑾;基因表達譜在中醫(yī)藥研究中的意義[J];中國中醫(yī)藥信息雜志;2002年01期
2 劉s,
本文編號:544326
本文鏈接:http://sikaile.net/yixuelunwen/zlx/544326.html
最近更新
教材專著