腫瘤基因表達譜分類特征基因選取問題及分析方法研究
本文關(guān)鍵詞:腫瘤基因表達譜分類特征基因選取問題及分析方法研究,由筆耕文化傳播整理發(fā)布。
第29卷 第2期2006年2月
計 算 機 學(xué) 報
Vol.29No.2
Feb.2006
腫瘤基因表達譜分類特征基因選取問題及
分析方法研究
李穎新 李建更 阮曉鋼
(北京工業(yè)大學(xué)電子信息與控制工程學(xué)院 北京 100022)
摘 要 對腫瘤分類特征基因選取問題的研究是發(fā)現(xiàn)腫瘤特異表達基因、研究腫瘤基因表達模式的重要手段.文中基于多類別腫瘤基因表達譜數(shù)據(jù)集,從研究腫瘤與正常組織的分類入手,對腫瘤分類特征基因選取問題進行分
析和研究.首先對基于Relief算法的特征選取策略加以改進生成候選特征集合;然后以支持向量機作為分類器對其分類性能進行檢驗以選取分類特征基因;最后結(jié)合分類模型,利用靈敏度分析方法進行特征基因的精確搜索以濾除冗余.基于該方法文中選出了52個具有良好分類性能的特征基因作為腫瘤的基因特征,并對其表達行為進行了簡要分析.
關(guān)鍵詞 腫瘤;基因表達;特征基因;組織分類;特征選取;支持向量機中圖法分類號TP391
StudyofInformativeGeneSelectionforTissueClassificationBasedon
TumorGeneExpressionProfiles
LIYing-Xin LIJian-Geng RUANXiao-Gang
(SchoolofElectronicInformationandControlEngineering,BeijingUniversityofTechnology,Beijing 100022)
Abstract Informativegeneselectionisofgreatimportanceintheanalysisofmicroarrayexpres-siondatabecauseofitshugedimensionalityandrelativelysmallsamples,andalsoprovidesasys-temicandpromisingwaytorevealthegeneexpressionpatternsoftumorswithlargescalegeneexpressionprofiles.Inthispaper,theauthorsanalyzetheMulti-Classtumorgeneexpression
profiledataset,whichcontains218tumorsamplesspanning14commontumortypes,aswellas90normaltissuesamples,tofindasmallsubsetofgenesfordistinguishingtumorfromnormaltissues.First,aRelief-basedfeatureselectionalgorithmisappliedtocreatecandidatefeature
subsetsandtheonewiththebestclassificationperformanceisselectedastheinformativegenesubsetforclassification.Then,asensitivityanalysismethodbasedontheclassifierofsupportvectormachinewithRBFkernelisemployedtoeliminatetheredundantgenes.Asaresult,52in-formativegenesareselectedasmarkersformakingdistinctionsbetweendifferenttumortissuesandtheirnormalcounterparts,andtheirexpressionsareanalyzedtoexplorethetumorgeneexpres-sionpatterns.Attheendofthispaper,severalmethodsforinformativegeneselectionarealsoana-lyzedandcomparedtovalidatethefeasibilityandeffectivenessofthemethodemployedinthiswork.Keywords tumor;geneexpression;informativegenes;tissueclassification;featureselection;supportvectormachine
收稿日期:2004-08-12;修改稿收到日期:2005-11-04.本課題得到國家自然科學(xué)基金(60234020)重點資助.李穎新,男,1972年生,博士研究生,主要研究方向為模式識別、機器學(xué)習(xí)和生物信息學(xué).E-mail:lyxboy@sina.com.李建更,男,1965年生,博士,副教授,研究方向包括生物信息學(xué)和自動控制.阮曉鋼,男,1958年生,教授,博士生導(dǎo)師,主要研究領(lǐng)域為控制理論、人工智能、生物信息學(xué)等.E-mail:adrxg@
2期李穎新等:腫瘤基因表達譜分類特征基因選取問題及分析方法研究325
析的多類別(multi-class)腫瘤基因表達譜數(shù)據(jù)集[3]
1 引 言
近年來腫瘤基因表達譜技術(shù)的出現(xiàn),為腫瘤學(xué)
的研究提供了一種全新、系統(tǒng)的研究手段,并在腫瘤學(xué)的基礎(chǔ)研究和臨床應(yīng)用等領(lǐng)域備受關(guān)注.如何對腫瘤基因表達譜進行有效分析,挖掘和發(fā)現(xiàn)其中蘊含的信息和知識,是當前生物信息學(xué)研究的重點課題[1,2].腫瘤基因表達譜數(shù)據(jù)的一個顯著特點是樣本維數(shù)過高,每個樣本都記錄了組織細胞中所有可測基因的表達水平,但實際上只有少數(shù)基因才真正同樣本類別相關(guān),包含了樣本分類信息,這些基因被稱為分類特征基因.分類特征基因選取問題是腫瘤基因表達譜分析的核心內(nèi)容:它既是建立有效分類模型的關(guān)鍵,也是發(fā)現(xiàn)腫瘤分類與分型的基因標記物以及藥物治療潛在靶點的重要手段.目前人們對該問題已進行了一定程度上的探索
[3~9]
(下載網(wǎng)址:)共含308個樣本,其中218個樣本為腫瘤組織樣本,涵蓋了目前常見的14種不同組織類型的腫瘤;90個樣本為對應(yīng)組織的正常樣本.每個樣本都記錄了組織細胞中16063個基因或表達標簽序列(EST)的表達水平.
本文以此數(shù)據(jù)集為分析對象,分析的目標是要在所有16063個基因中找出能夠?qū)颖具M行準確分類的一組基因作為樣本的分類特征.如果在劃分數(shù)據(jù)樣本的時候,考慮訓(xùn)練集和測試集都包含所有不同類型的腫瘤組織及其對應(yīng)的正常組織樣本,那么,在訓(xùn)練集上提取出的分類特征所反映的就是整個“腫瘤組織”與“正常組織”在基因表達上的差異,即不同腫瘤組織作為一個“整體”在基因表達上區(qū)別于正常組織共同的基因特征.我們對數(shù)據(jù)集中每個基因的表達水平進行標準化(均值為0,方差為1)后將整個數(shù)據(jù)集劃分為訓(xùn)練集Strn和測試集Stst兩部分,如圖1所示.每種類型的腫瘤與其對應(yīng)的正常組織均按近似2∶1的比例分配在Strn和Stst中.
Tumor144Normal58訓(xùn)練集Strn
+
Tumor74Normal32測試集Stst
,然而,如何
在表達譜成千上萬個基因中有效選出樣本的分類特
征,一直是腫瘤基因表達譜分析中的難點所在,仍有待深入研究.
研究腫瘤基因表達譜分類特征基因選取問題的一個重要應(yīng)用是從腫瘤與正常組織樣本的基因表達譜數(shù)據(jù)出發(fā),選取樣本分類特征基因作為腫瘤的分子特征,它是從信息學(xué)角度出發(fā)尋找腫瘤相關(guān)基因、發(fā)現(xiàn)腫瘤基因表達特征的直接手段,具有重要的生物學(xué)意義.基于上述分析,本文以多類別腫瘤基因表達譜數(shù)據(jù)集作為具體的分析對象,研究了腫瘤基因表達譜分類特征基因選取問題,并給出了詳細的實驗結(jié)果.在分析方法上,本研究充分考慮了腫瘤基因表達譜數(shù)據(jù)自身的特點,改進了機器學(xué)習(xí)領(lǐng)域已有的基于Relief算法的特征選取策略,并采用支持向量機作為分類器,以特征基因集合的分類性能作為評價標準得到樣本分類特征;然后結(jié)合支持向量機分類模型采用靈敏度分析的方法進行冗余去除.利用該方法本文得到了52個具有較好分類性能的特征基因作為腫瘤的基因特征,并對其表達行為進行了簡要分析.在本文最后,我們將本文方法與已有的分類特征選取方法進行了分析比較以說明本文方法的有效性.
圖1 數(shù)據(jù)樣本集的劃分
3 基于Relief算法的分類特征基因
搜索策略
從信息學(xué)的角度講,每個基因就是樣本的一個屬性.如何衡量每個屬性包含的樣本分類信息,準確估計該屬性對樣本分類貢獻程度的大小是有效選取分類特征的關(guān)鍵.Relief算法
[10,11]
作為一種屬性重
要性排序的機器學(xué)習(xí)算法在特征選取領(lǐng)域得到了廣泛應(yīng)用.該算法的優(yōu)點是計算復(fù)雜度較小,且在一定程度上考慮了屬性間的相關(guān)性.其核心思想是以屬性區(qū)分“相近”樣本的能力作為評估屬性重要性的標準,并據(jù)此給出屬性的分類權(quán)重.Relief算法的具體描述[10~12]及在本文中的具體實現(xiàn)過程見算法1.
算法1. Relief算法(Strn,F).
//F為待分析的屬性集合,Strn為訓(xùn)練樣本集
1.SetweightsvectorWtozeros
//向量W中第i個元素對應(yīng)于F的第i個[11]
2 問題描述
腫瘤基因表達譜是指利用DNA芯片所測定的
326
2.Fori=1tocard(Strn)
計 算 機 學(xué) 報2006年
隨著噪聲屬性不斷被剔除,屬性集合F中具有較強分類能力的屬性所占比例不斷增加,其樣本分類能力也將逐步提高.如果我們每去掉一個屬性,都將剩余屬性記錄下來就可以通過檢查這一系列屬性集合的分類能力,找到具有最佳分類能力的一組屬性集合作為分類特征集合.
-nearestHitmj)2
K
+
//card(Strn)為樣本集Strn中的樣本數(shù)
2.1choosei-thinstancesiinStrn
2.2FinditsnearestKHitsandnearestKMisses
//K≥1,K>1時為Relief-A算法
2.3Forj=1tocard(F)
K
Wj=Wj-Km=1
m=1
∑(s
ij
在算法實際運行過程中,我們每次去掉當前屬
性集合F中屬性總數(shù)的10%以加快算法的運行.同時隨著F中屬性數(shù)量的不斷下降,被排除出去的屬性數(shù)目將逐漸減少,這有利于在屬性集合較小的情況下進行較為精確的搜索.為了提高Relief算法的可靠性,實際算法的實現(xiàn)我們采用了Relief-A算法
[11]
∑(s
ij
-nearMissmj)2
K
3.ReturnW//返回權(quán)值向量
Relief算法求取樣本分類特征的方法是通過利用得到的屬性分類權(quán)重,選取具有最大分類權(quán)重的一組屬性作為樣本的分類特征實現(xiàn)的.然而就腫瘤基因表達譜數(shù)據(jù)而言,上述特征選取策略必須加以改進.這是因為:Relief算法在訓(xùn)練集中搜索某一樣本si近鄰(nearestHit和nearestMiss)的過程是以兩個樣本間的距離為標準進行的.在距離計算過程中所有屬性均參與計算,而在腫瘤基因表達譜中,僅有少數(shù)基因才同樣本類別相關(guān),絕大多數(shù)基因與樣本類別并無關(guān)系,是分類無關(guān)基因,作為噪聲屬性(基因)存在.太多噪聲屬性參與到樣本距離的計算過程中來就使得噪聲信息淹沒了有用信息,從而造成計算出來的基因的分類權(quán)重偏離真實值.因此,對樣本分類特征的有效選取應(yīng)當考慮到這些分類無關(guān)基因的影響并設(shè)法予以消除.
鑒于如上分析,本文在借鑒遞歸特征排除(Re-cursiveFeatureElimination,RFE)策略的基礎(chǔ)上,提出了RFERelief算法以進行樣本分類特征基因的選取:首先對當前屬性集F中的所有屬性,利用Relief算法進行屬性分類權(quán)重的計算,然后去掉具有最小權(quán)重的那個屬性后重新采用Relief算法計算剩余屬性的分類權(quán)重,再排除這些屬性中具有最小權(quán)重的屬性,如此循環(huán)下去,就使得噪聲屬性的影響逐步減小.隨著噪聲屬性影響的不斷下降,對屬性分類能力的評價也就越接近真實.該算法可簡要描述如下.
算法2. RFERelief算法.
1.F={g1,g2,…,g16063}2.whileF≠
2.1W=Relief(F)//利用Relief算法計算當前屬性集
合F中屬性的分類權(quán)重向量W
2.2c=argminWF//找到具有最小權(quán)重屬性的位置//[9]
,并取近鄰數(shù)K=18.
4 分類特征集合的確定
利用RFERelief算法可以得到一系列屬性集合Fn(n=1,2,…),我們可以通過檢驗它們的樣本分類能力找出樣本分類特征集合FG.樣本分類特征
集合是指具有最小分類錯誤率,且所含屬性最少的那個屬性集合.為檢驗每個屬性集合Fn的樣本分類能力,本文以支持向量機作為分類器,以Fn中的屬性作為分類特征,采用訓(xùn)練集Strn中的樣本作為分類器的學(xué)習(xí)樣本,對測試集Stst中的樣本進行分類測試,分類錯誤數(shù)記為ClassificationError(Fn).
[13]
支持向量機(SupportVectorMachine,SVM)
是由Vapnik等人基于統(tǒng)計學(xué)習(xí)理論,采用結(jié)構(gòu)風(fēng)險最小化原理提出的一種機器學(xué)習(xí)算法,具有較強的泛化能力.若給定樣本集為ST={(xi,yi)|xi∈Rd,yi∈{-1,+1},i=1,2,…,N},則SVM的判別函數(shù)為
sv
g(x)=sgn
i=1
yK(x,x)+b∑α
i
i
i
(1)
其中sv為支持向量的個數(shù),K(x,xi)為核函數(shù).
SVM核函數(shù)的具體形式對其分類性能具有較大影響.然而SVM參數(shù)選擇問題,目前理論上尚未解決,只能通過反復(fù)實驗的方法進行選取.通過實驗本文選用了RBF核函數(shù),其具體形式為
K(x,y)=e
-x-y
2/2σ2
(2)
其中σ=15,并選擇SVM上界控制因子C=200.利用該SVM模型作為分類器,不同屬性集合Fn對樣
本的分類情況如圖2所示.考慮到Fn的大小與n呈指數(shù)關(guān)系,圖中橫坐標采用了對數(shù)坐標形式.
2,
2期李穎新等:腫瘤基因表達譜分類特征基因選取問題及分析方法研究327
Fn中噪聲屬性所占比例不斷減少,集合對樣本的分類能力逐步提高,分類錯誤率不斷下降.當屬性集合中的基因數(shù)量下降到98時,即card(Fn)=98,其分類錯誤達到最小:對全部106個測試樣本總的錯分
數(shù)為3.進一步排除屬性集合中的基因,分類錯誤率開始回升,這表明被排除的基因已非分類無關(guān)基因,而是包含樣本分類信息的特征基因.基于上述分析,本文以這98個基因做為樣本的分類特征基因.此時的屬性集合即為分類特征集合,記為FG
.
決策面為
sv
O(x)=∑αiyiK(x,xi)+b
i=1
(3)
T
在此,本文分析了輸入特征向量x=[x1,x2,…,x98]
中各個分量對決策函數(shù)的影響程度,并定義輸入x中第j個分量xj對決策函數(shù)O(x)的靈敏度函數(shù)為
S(xj)=∑
x∈S
trn
xj
(4)
其中S(xj)為分量xj的靈敏度函數(shù),Strn為訓(xùn)練樣本
集,輸入特征向量x的第j個分量xj對應(yīng)于FG中第j個屬性.將式(3)代入式(4),并將RBF核函數(shù)的具體形式(2)帶入式(4)有 S(xj)=∑ xjx∈S
trn
=∑
x∈S
trn
xj xj
sv
svi=1svi=1
-iyie∑α
x-x
x-x
i
yK(x,x)+b∑α
i
i
i
2
=∑
x∈S
/2σ
2
+b
trn
=∑
圖2 不同維數(shù)的屬性集合對樣本的分類能力
x∈S
trn
-iyieασi∑=1
sv
i
2/2σ2
(xij-xj)
=∑
x∈S
5 冗余基因的排除
腫瘤分類特征基因選取的目的在于從原始基因集合中選出一組最能反映樣本類別特征的基因以準確地刻畫出事物的分類模型,從而實現(xiàn)組織類型的有效分類,并揭示出腫瘤組織中異常表達的基因,最
終為基因功能的確定提供線索.從這個角度看,利用RFERelief算法得到的特征屬性集合FG中所含的98個基因都在一定程度上包含了樣本分類信息,可以作為樣本的分類特征.然而該組基因仍可能含有冗余,冗余基因盡管也包含了樣本分類信息,但其存在與否并不會影響到整個特征集合FG的樣本分類能力,反而會增加計算的復(fù)雜度.排除冗余基因還可以進一步降低特征集合的維數(shù),提高分類器的性能
[12]
trn
iyiK(x,xi)(xij-xj)2
∑ασi=1
svi=1
∑σx∈Strn
yK(x,x)(x∑α
i
i
i
ij
-xj)(5)
利用式(5),我們可以計算得到FG中每個分類特征影響決策函數(shù)的靈敏度.
分類特征的靈敏度可視為該分類特征影響決策的重要性指標,依據(jù)該指標可以通過依次去除對決策影響最小的分類特征,從而將剩余特征作為一個整體考察其對樣本的分類能力.然而,每去除一個分類特征后,都將得到一個新的決策函數(shù),這就導(dǎo)致必須依據(jù)新的決策函數(shù)重新計算剩余分類特征的靈敏度,然后依據(jù)得到的新的靈敏度的值進行下一個分類特征的排除,這使得該過程同RFEReleif算法一樣,也是一個基于RFE的屬性后向搜索過程[9].具體描述如下:
1.以集合FG中的屬性作為分類特征訓(xùn)練SVM模型,并記錄其對測試集的分類情況;
2.依據(jù)式(5),計算屬性集合FG中各屬性的靈敏度;3.令f為FG中具有最小靈敏度的屬性,并從FG中去除該屬性,即FG=FG-{f},若FG= ,則退出;否則繼續(xù)執(zhí)行步1.
,同時也可以使生物醫(yī)學(xué)研究更具針對性.為有效去除FG中的冗余基因,本文采用了基于
SVM分類模型的靈敏度分析法.基于模型的靈敏度分析
[8,9]
是指針對某一特定的分類模型而言,分析
各個分類特征影響模型輸出能力的大小,即分析模型輸出對輸入各分量的敏感程度.本文使用的分類模型為采用RBF核函數(shù)的SVM(見第4節(jié)).
,利用上述RFE過程,我們對本文第4節(jié)得到的特征屬性集FG進行冗余屬性的濾除,并記錄了隨著F,
328計 算 機 學(xué) 報2006年
的分類情況,如圖3所示
.準差為3.4),總的分類正確率為91.8%.該結(jié)果表明所得分類特征集合FG中的基因?qū)δ[瘤和正常組織確實具有良好的分類能力,可以作為樣本的特征基因.由此也可以反映出:盡管腫瘤存在著多種不同的類型及亞型,組織形態(tài)和病理表現(xiàn)各異,然而就基因表達而言確存在較大程度上的共性.
圖4表示出了FG中基因分別在腫瘤與正常組織中的平均表達水平.在FG的這52個分類特征基因中,有43個基因在正常組織中呈現(xiàn)高(上調(diào))表達,而在腫瘤組織中為低水平(下調(diào))表達;其余9個基因在正常組織中呈現(xiàn)低水平表達,而在腫瘤組織中則為高表達.
圖3 FG中屬性減少時對測試樣本集的分類情況
由圖3知,當FG中基因的數(shù)量下降到52時,對測試集Stst中樣本的分類錯誤數(shù)為3,仍能取得同F(xiàn)G含98個基因時同樣的樣本分類能力.這樣,通過靈敏度分析,我們從原始特征基因集合中去除了46個冗余基因,剩余的52個基因就是我們所能得到的數(shù)量最少且分類能力最強的樣本分類特征基因.
6 實驗結(jié)果分析與討論
6.1 特征基因分類能力的檢驗及腫瘤基因表達特
征的分析
屬性集合FG中含有的52個分類特征基因?qū)tst中106個樣本總的錯分數(shù)為3,分類正確率可達97.2%.但考慮到本文對訓(xùn)練集和測試集的劃分(如圖1)是滿足每種類型的腫瘤組織及其對應(yīng)的正常組織均按近似2∶1的比例分配在訓(xùn)練集和測試集中的一種隨機劃分,存在著多種滿足這一條件的劃分方案,本文在測試集上取得的良好分類效果有可能是一種“偶然”現(xiàn)象,因此必須對這些基因的分類能力進行顯著性檢驗,以防止“過學(xué)習(xí)”現(xiàn)象的發(fā)生.為此,我們基于樣本抽樣的思想,利用隨機測試實驗的方法對FG中基因的分類能力進行檢驗.具體做法如下:在保持訓(xùn)練集和測試集大小不變、不同類型的腫瘤與正常組織在訓(xùn)練集及測試集中均按近似2∶1分布的條件下,從總體樣本中采用無重復(fù)抽樣的方式隨機抽取樣本形成新的訓(xùn)練集ST,剩余樣本作為測試集SI;以FG中基因作為樣本的分類特征,利用ST訓(xùn)練RBF-SVM分類模型,對測試集SI進行樣本識別并記錄分類結(jié)果.上述過程稱為一次隨機測試實驗.我們做了500次這樣的隨機測試實驗,并對分
圖4 分類特征基因在腫瘤組織與正常
組織中的差異表達情況
為檢驗這些基因在腫瘤與正常組織中的表達水平是否顯著不同,我們以t統(tǒng)計量作為檢驗統(tǒng)計量,在給定顯著性水平α=0.05的條件下對該問題進行
t-μn=t檢驗.檢驗的原問題為H0:μ0,備擇假設(shè)為H1:μt-μn≠0,其中μt,μn分別為腫瘤和正常組織
中基因表達水平的均值.檢驗結(jié)果表明:所有這些分類特征基因在腫瘤和正常組織中的表達水平均有著顯著不同.分類特征基因的這種表達行為不僅為樣本分類提供了可靠信息,同時,通過與正常組織中基因表達行為的對比,還可以使人們更加直觀地了解到腫瘤組織在基因表達上的特點,如圖4所示.
在FG的52個分類特征基因中:(1)ATM(AtaxiaTelangiectasiaMutated)所編碼蛋白屬PI3/PI4激酶家族,是一種重要的細胞周期檢查點激酶,它與ATR激酶是細胞對DNA損傷進行響應(yīng)、維持基因組穩(wěn)定性所必需的細胞周期檢查點信號通路的主要調(diào)控者,該基因的突變與腫瘤的發(fā)生具有密切聯(lián)系.除ATM外,其它一些與腫瘤相關(guān)的基因,如EEF1A1、CYR61、MSMB等以及一些在腫瘤組織
博泰典藏網(wǎng)btdcw.com包含總結(jié)匯報、農(nóng)林牧漁、出國留學(xué)、IT計算機、外語學(xué)習(xí)、資格考試、自然科學(xué)、行業(yè)論文、經(jīng)管營銷、表格模板、醫(yī)藥衛(wèi)生以及腫瘤基因表達譜分類特征基因選取問題及分析方法研究_圖文等內(nèi)容。
本文共2頁12
本文關(guān)鍵詞:腫瘤基因表達譜分類特征基因選取問題及分析方法研究,,由筆耕文化傳播整理發(fā)布。
本文編號:233132
本文鏈接:http://sikaile.net/yixuelunwen/zlx/233132.html