支持向量機(jī)(SVM)及其在心電圖(ECG)分類識別中的應(yīng)用
本文關(guān)鍵詞:支持向量機(jī)(SVM)及其在心電圖(ECG)分類識別中的應(yīng)用,由筆耕文化傳播整理發(fā)布。
y 1091'700
}e∞業(yè)∞∞t∞
**目一一一
四川師范大學(xué) 碩士學(xué)位論文
支持向量機(jī)(svM)及其在心電圖(ECG)分類 識別中的應(yīng)用
唐孝
培養(yǎng)單位——塑堂與筮址拄堂一堂』L—一 指導(dǎo)教師 .職稱——塑蠱—— 墓蟹立
々業(yè)名稱一墾垂堂蘭撞劍逾—— 研究方
向——塵血國遲劇
論文完成日期—2業(yè)L生—衛(wèi)JL如——且——一
支持向量機(jī)(SVM)及其在心電圖(ECG)分類 識別中的應(yīng)用
運籌學(xué)與控制論專業(yè)
研究生唐孝
指導(dǎo)教師莫智文(教授)
本文研究了基于支持向量機(jī)算法的心電圖分類,創(chuàng)造性地提出了利用支持
向量機(jī)l-v-1 SVMs(One-Versus—One)算法對心電圖進(jìn)行分類的方法。并通
過MIT—BIH心電數(shù)據(jù)庫進(jìn)行實例分析,獲得了較高的識別率,且在算法模型的
構(gòu)造和分類速度上優(yōu)于常規(guī)方法。
在引言中介紹了論文的研究目的與意義,ECG識別的現(xiàn)狀及支持向量機(jī)的
研究進(jìn)展。 在第一章中,介紹了心電圖的常識與測量方法。
在第二章中,概要總結(jié)了統(tǒng)計學(xué)習(xí)理論與支持向量機(jī)方法的基本理論。
在第三章中,結(jié)合支持向量機(jī)對EgG多分類問題進(jìn)行了研究并提出了一系
列的分類方法和特點以及采用支持向量機(jī)進(jìn)行分類的優(yōu)勢。 在第四章中,分析了各種方法的優(yōu)劣,最終選取利用支持向量機(jī)卜v—l
SVMs(One—Versus—One)算法對心電圖進(jìn)行分類.先確定了算法的模型,然后
選取合適的核函數(shù)和參數(shù),并通過MIT-BIH心電數(shù)據(jù)庫進(jìn)行了實例分類試驗。
最后對全文進(jìn)行了總結(jié),并指出了下一步研究的問題與方向。 關(guān)鍵詞: 多類分類支持向量機(jī)心電圖分類 特征提取
Support Vector Machine and its application in Electrocardiogram Classification
Specialty Operation Research and Cybernetics
MSC Candidate:Tang
Xiao
Supervisor:Mo
Zhiwen
This
dissertation
investigates
electrocardiogram classification based
on
Support Vector
Machine algorithm.And
this paper puts forward 1-v?1 algorithm of classification in
a
Support Vector Machine for
electrocardiogram
creative way.In
order to verify the system’S stability and creditability,We used database to test
otlr
American MIT-BIH
algorithms and won higher accuracy.it is better than normal
way in constructing algorithm model and classification speed. The purpose,meaning,current situation of ECG classification progress of SVM are concerned in foreword.
and
research
In Chapter One,the general knowledge and measure of electrocardiogram are
concelmed.
Chapter Two is to summarize the basic theory of Statistical Learning Theory
and algorithm
ofSupportVector Machine.
In Chapter Three.the problem ofmulti-classes classification ofECG link with
Support Vector advantages that
Machme is studicd.A scries of classification methods features
tls堍Support
Vector Machine to
and
elassi黟are
put forward.
Chapter Four is the
cor0
of this paper,in
which,the
advantage
at
and
disadvantage ofthe
series ofclassification methods are
analyzed.We
last choose
1.vs-l algorithm of Support Vector
Machine
for electrocardiogram classification.
First,model of the algorithm is ascertained.Then the reasonable kernel function and parameter
are
chosen.We
used American MIT-BIH database to test
our
algorithms and won
for the next study is
hi曲er accurac y.After summarizing this paper,a
presented.
new guideline
Key words:Multi?Classes Classification,Support Vector Machine,
ECG Classification,Feature Extraction
四川師范大學(xué)學(xué)位論文獨創(chuàng)性
及使用授權(quán)聲明
研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不含任何其他
個人或集體已經(jīng)發(fā)表或撰寫過的作品或成果。對本文的研究做出重要貢獻(xiàn)的個
本人聲明:所呈交學(xué)位論文,是本人在導(dǎo)師瓣指導(dǎo)下,獨立進(jìn)行
本人承諾:已提交的學(xué)位論文電子版與論文紙本的內(nèi)容一致。如因不符而
人和集體,均已在文中以明確方式標(biāo)明。
引起的學(xué)術(shù)聲譽上的損失由本人自負(fù)。
本人同意所撰寫學(xué)位論文的使用授權(quán)遵照學(xué)校的管理規(guī)定: 學(xué)校作為申請學(xué)位的條件之一,學(xué)位論文著作權(quán)擁有者須授權(quán)所在大學(xué)擁
有學(xué)位論文的部分使用權(quán),即:1)已獲學(xué)位的研究生必須按學(xué)校規(guī)定提交印
刷版和電子版學(xué)位論文,可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn) 行檢索;2)為教學(xué)和科研目的,學(xué)?梢詫⒐_的學(xué)位論文或解密后的學(xué)位 論文作為資料在圖書館、資料室等場所或在校園網(wǎng)上供校內(nèi)師生閱讀、瀏覽。
論文作者簽名:贏玄
2007年≯月夕抄日
引言
從1903年Einthoven采用弦線式電流機(jī)設(shè)計開創(chuàng)了心電圖的臨床應(yīng)用開
始,心電圖就成為醫(yī)生心臟疾病診斷中的一個高效的技術(shù)。通過計算機(jī)設(shè)備對
采集到的心電信號進(jìn)行分析,已經(jīng)廣泛地應(yīng)用于心臟的功能檢查、心血管疾病 的診斷與預(yù)防以及心電監(jiān)護(hù)等多方面。 QRS波群檢測是心臟病診斷和心電監(jiān)護(hù)的重要方法。在心電信號的分析中。 最為首要和關(guān)鍵的問題是QRS波群的檢測,不僅是診斷心律失常的重要依據(jù), 而且只有在確定QRS波群后,才有可能計算心律、心律變異性,檢測sT段的參
數(shù),并進(jìn)一步地檢測和分析心電的其他細(xì)節(jié)信息,才能對其進(jìn)行分類等操作。 對QRS波群檢測方法的研究已有不少學(xué)者做了大量工作,但他們至今在某 方面還不完善,特別是在干擾嚴(yán)重或非典型R波等情況下檢測錯誤率較大。由 于采集信號時位置、大小的不同和心臟的解剖性質(zhì),讓心電圖即使對同一個正 常人也具有高度的可變性:同時,心電信號向體表傳導(dǎo)的不同方式也起著重要
的影響作用。由于ECG表現(xiàn)出來的這些巨大的變化,使得運用這個工具進(jìn)行診 斷具有很強(qiáng)的直覺性和主觀性,因此對ECG模式的解釋變得非常困難。 早期的心電監(jiān)護(hù)系統(tǒng)由于其自身的限制,需要護(hù)理人員人工進(jìn)行長時間地
觀察,往往會使護(hù)理人員因為視力疲勞和注意力分散造成漏檢。五十年代末以 來,隨著計算機(jī)的發(fā)展,人們開始了對心電自動分析技術(shù)的研究。1959年
Piberger等人完成了一個可以區(qū)分正常和異常心電圖的程序,并于1961年首
先研究出導(dǎo)聯(lián)心電圖分析程序。六十年代初,Caseres驗證了用計算機(jī)進(jìn)行常 規(guī)12導(dǎo)聯(lián)ECG分析的可能性,開發(fā)了利用測得的平均ECG參數(shù)進(jìn)行波形模式識 別的程序。經(jīng)過許多人的努力,到了七十年代后期,微處理器技術(shù)的高度發(fā)展更 加促進(jìn)了心電自動分析技術(shù)的研究。裝配了微處理器的心電自動分析裝置大大 提高了心電數(shù)據(jù)處理的速度和一致性,并增加了心律監(jiān)護(hù)的種類,提高了準(zhǔn)確
率。
目前常用的QRS波群的檢測方法主要集中在幾個方面:濾波器法、模板匹 配法、小波分析法、濾波器組法、神經(jīng)網(wǎng)絡(luò)法等,還有幅度法、低斜率法和面 積法。QRS波的檢測算法檢測率比較高,但由于噪聲污染和一些病理波形,檢測
率仍不盡人意,尚有很多工作可做。肌電干擾,基線漂移,工頻干擾是心電信號
中噪聲的主要原因,很難徹底去除,混雜這些干擾的心電圖在實際中很普遍,若 能去除這些干擾,就能在很大程度上提高QRS波的檢測率。 心電圖分析是檢測出心電周期中的各波形,然后進(jìn)行模式分類的過程.對 檢測出的特征進(jìn)行直接的應(yīng)用,就是對這些特征進(jìn)行分類,判斷出心電圖中所 包含的病理特征,從而幫助進(jìn)行疾病監(jiān)控與功能檢測。 目前常用的分類方法有:多元統(tǒng)計、模糊邏輯、神經(jīng)網(wǎng)絡(luò)、決策樹、Bayes
分類、K近鄰分類、專家系統(tǒng)等方法。從80年代后期開始,由于神經(jīng)網(wǎng)絡(luò)技術(shù) 的發(fā)展,神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)的功能、抗干擾及解決復(fù)雜問題的能力,引起醫(yī)學(xué)技
術(shù)領(lǐng)域的注意。Tsai等用ECG波形的功率譜密度函數(shù)PSD訓(xùn)練三層網(wǎng)絡(luò)來識
別5種不同的ECG類型.訓(xùn)練好的網(wǎng)絡(luò)識別正確率達(dá)到92.5%。Dokur、Olmez 等設(shè)計了一種混合神經(jīng)網(wǎng)絡(luò)。并采用遺傳算法對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整。近年來, 國內(nèi)許多專家學(xué)者也對神經(jīng)網(wǎng)絡(luò)用于心電分類進(jìn)行了研究,特別是王繼成、呂 維雪等設(shè)計了一系列神經(jīng)網(wǎng)絡(luò)方法進(jìn)行了分類研究,包括模糊神經(jīng)網(wǎng)絡(luò)、回歸
神經(jīng)網(wǎng)絡(luò)、符號神經(jīng)網(wǎng)絡(luò)等,取得了較好的結(jié)果,分類正確率大致控制在60%到 98%之間。 V.Vapnik等人早在20世紀(jì)60年代就開始研究小樣本情況下的機(jī)器學(xué)習(xí)
問題。。3。當(dāng)時這方面的研究尚不十分完善,且數(shù)學(xué)上比較艱澀,大多數(shù)人難
以理解和接受,直到90年代以前還沒有能夠提出將其理論付諸實現(xiàn)的方法。 加之當(dāng)時正處在其他學(xué)習(xí)方法飛速發(fā)展的時期,因此這方面的研究一直沒有得 到足夠的重視。直到90年代中期,小樣本下的機(jī)器學(xué)習(xí)理論研究逐漸成熟起
來,形成了較完善的理論體系——統(tǒng)計學(xué)習(xí)理論(Statistical
Learning
Theory)。而同時,神經(jīng)網(wǎng)絡(luò)等新興的機(jī)器學(xué)習(xí)方法的研究則遇到了前所未有 的困難陽】。在這種情況下,試圖從更本質(zhì)上研究機(jī)器學(xué)習(xí)問題的統(tǒng)計學(xué)習(xí)理
論逐步得到重視。
統(tǒng)計學(xué)習(xí)理論是建立在堅實的理論基礎(chǔ)之上的,為解決小樣本學(xué)習(xí)問題提
供了統(tǒng)一的框架。統(tǒng)計學(xué)習(xí)理論的核心是vc維與結(jié)構(gòu)風(fēng)險最小化理論,它用 VC維來描述學(xué)習(xí)機(jī)器的復(fù)雜度,并以此為出發(fā)點導(dǎo)出了學(xué)習(xí)機(jī)器推廣能力的 界的理論。該理論致力于尋找在小樣本情況下學(xué)習(xí)問題的最優(yōu)解,而不需要樣 本數(shù)趨于無窮大的漸進(jìn)性條件。這使得統(tǒng)計學(xué)習(xí)理論在小樣本情況下同樣能得
到具有推廣價值的知識。
1992年至1995年,在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出了一種新型的學(xué)習(xí)機(jī) 器——支持向量機(jī)(Support
Vector
Machine簡稱sⅧ)。支持向量機(jī)是建立
在統(tǒng)計學(xué)習(xí)理論的vC維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的,根據(jù)有限的樣本 信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以期獲得最好的推廣能 力。支持向量杌被看作是對傳統(tǒng)分類器的一個好的發(fā)展,在解決小樣本、非線 性和高維的機(jī)器學(xué)習(xí)問題中表現(xiàn)出了許多特有的優(yōu)勢。 SVM方法是由Vapnik及其合作者Boser、Guyon、Cortes及Scholkopf在
AT&T
Bell實驗室共同創(chuàng)造與發(fā)展起來的一種新方法‘州。近年來,許多關(guān)于
SVM方法的研究,包括算法本身的改進(jìn)和算法的實際應(yīng)用,都陸續(xù)提了出來。 其中在理論上主要以Vapnik及其研究小組做了大量開創(chuàng)性及奠基性的工作
(g-lO]
o
目前,S%f方法在模式識別、回歸估計、概率密度函數(shù)估計等方面得到了
廣泛的應(yīng)用!簦簦保常荨@,在模式識別方面,手寫字體識別,語音識別,面部 檢測,文本識別等應(yīng)用“’”1,SⅧ方法在精度上已經(jīng)超過傳統(tǒng)的學(xué)習(xí)算法。如 Pontil等人將SVM應(yīng)用與三維物體的識別“”,Fukuda及ZhaoQun等人利用SvM 進(jìn)行SAR自動目標(biāo)的識別“”,Kim等對紋理圖像進(jìn)行了有監(jiān)督分割啪1。SVM在 醫(yī)學(xué)圖像分割中的應(yīng)用,如Issan等人利用SVM分類器從超聲圖像中識別病變
組織““,Mangasarian等利用鈴SVM進(jìn)行了乳腺癌的識別與診斷!薄
隨著SVM理論的逐步完善,應(yīng)用越來越廣泛,這幾年SVM在國內(nèi)越來越受 到重視。國內(nèi)主要以張鈸,張學(xué)工等一批在SVM理論上做了一些研究,當(dāng)然大 部分學(xué)者還是以應(yīng)用為主,或針對SVl4中的不足之處進(jìn)行改進(jìn),或?qū)ⅲ樱郑团c其 它方法進(jìn)行綜合應(yīng)用。
第一章心電圖常識與測量
心臟機(jī)械收縮之前。心肌先產(chǎn)生電激動。這種電流能通過組織和體液傳導(dǎo) 至體表。在身體不同部位的表面形成電位差,將這種變動的電位差用心電圖機(jī)
紀(jì)錄下來即為心電圖(E1ectrocardiograph,簡稱ECG)淵。
1.1常規(guī)心電圖
常規(guī)心電圖是從體表觀察心臟生物電活動的無創(chuàng)性檢查技術(shù)。每次心臟搏 動,包括心房和心室的順序機(jī)械性收縮和舒張,稱為一個心動周期。與機(jī)械運
動相對應(yīng)的心電活動,包括心房和心室的電收縮期(除極和復(fù)極)和舒張期(靜
息期),構(gòu)成一個心電周期。心臟的電活動發(fā)生在機(jī)械運動之前,先有電的興 奮激動,后有機(jī)械收縮運動,它們之間有一部分時間重疊,是“電(興奮)一機(jī) 械(收縮)耦聯(lián)”關(guān)系。心臟的電激動過程影響著全身各個部位,使體表的不同 部位發(fā)生了電位差,產(chǎn)生了電動力。在心電周期的整個過程中,此電位差也在 不間斷地變動。通過心電圖機(jī)把這變動的電位差記錄成曲線,就是心電圖。
1.2常規(guī)導(dǎo)聯(lián)系統(tǒng)
常規(guī)心電圖的獲得離不開導(dǎo)聯(lián)系統(tǒng)。導(dǎo)聯(lián)就是在人體表而任何兩點放置兩 個電極,將導(dǎo)線與心電圖儀的正輸入端與負(fù)輸入端相連,從而描記出這兩點聞 的心電電位差變化,電極放置的部位不同,可組成各種導(dǎo)聯(lián)。目前,在臨床實 踐中通常采用“12導(dǎo)聯(lián)系統(tǒng)”進(jìn)行心電檢測。下面首先對12導(dǎo)聯(lián)系統(tǒng)進(jìn)行說
明。
1、雙極標(biāo)準(zhǔn)肢體導(dǎo)聯(lián)
共三個電極,組成三個導(dǎo)聯(lián)(I、II、III)(如圖L l所示),反映的是兩個 肢體問的電位差。例如:在導(dǎo)聯(lián)I,當(dāng)左上肢(接正極)電位高于右上肢(接負(fù)極) 時,記錄得正電壓,即向上的波;反之則記錄得負(fù)電壓,即向下的波。以下各
導(dǎo)聯(lián)依此類推。 導(dǎo)聯(lián)I:左上肢接正極,右上肢接負(fù)極。
4
導(dǎo)聯(lián)II:左下肢接正極,右上肢接負(fù)極。
導(dǎo)聯(lián)III:左下肢接正極,左上肢接負(fù)極。
健?。瓙
輔l 硎l
圖1.1雙極肢導(dǎo)聯(lián)的連接法
2、加壓單極肢體導(dǎo)聯(lián)(如圖1.2)
可以比較“單純”地反映不同肢體電極所在部位心臟電激動的情況。
aVR導(dǎo)聯(lián):右上肢連接正極,左上肢和左下肢共同連接負(fù)極。
“L導(dǎo)聯(lián):左上肢連接正極,右下肢和左下肢共同連接負(fù)極。
aVF導(dǎo)聯(lián):左下肢連接正極,左上肢和右上肢共同連接負(fù)極。
呤伊誕
●VR -VL-Vr
圖1.2加壓單極肢導(dǎo)聯(lián)的連接法
3、單極胸導(dǎo)聯(lián)
將中心電端(接近零電位)連接負(fù)極,把連接正極的探查電極安放在心前區(qū) 不同的位置。胸導(dǎo)聯(lián)的電極距離心臟較近,受到面對的那部分心肌的局部電位 影響較為明顯,所以胸導(dǎo)聯(lián)除了一般地反映心臟電激動的綜合心電向量以外, 電極面對的那部分心肌所給予的局部電位影響也不容忽視(如圖1.3、1.4).
圖1.3單極胸導(dǎo)聯(lián)的連接法
圖1.4胸導(dǎo)聯(lián)探察電極位置
K:胸骨右緣第4肋間。 巧:在圪與圪連線之中點。
圪:胸骨左緣第4肋間。 ■:左第5肋間鎖骨中線處?
以:左腋前線上與K同一水平。圪:左腋中線上與■,K同一水平。
常規(guī)心電圖是由一系列“波組”構(gòu)成的曲線圖,如圖1.5所示。
圖1.5典型心電圖
P波:代表左右心房的除極過程。其起點表示從竇房結(jié)發(fā)出的電激動己到 心房,使心房開始除極:其終點表示兩心房全部除極完畢。P波波頂圓鈍、光
心房,使心房開始除極;其終點表示兩心房全部除極完畢。P波波頂圓鈍、光
滑、有時可能有小切跡,但應(yīng)(O.04秒。P波的整個時間應(yīng)(0.11秒,其肢導(dǎo) 聯(lián)振幅<0.25毫伏,胸導(dǎo)聯(lián)直立振幅應(yīng)<O.15毫伏。 P-R間期:自心房開始除極至心室開始除極的間隔時間。代表從竇房結(jié)發(fā) 出的電激動經(jīng)結(jié)間束激動心房后由房室交界區(qū)、房室束、束支及蒲肯野纖維到 達(dá)心室,使心室開始除極。PR問期正常值范圍一般為0.12—0,20秒。
P-R段:相當(dāng)于激動通過房室結(jié)及房室束的總時間(亦即P波終點到R波或
Q波起點這一節(jié)段)。其起點表示心房除極完畢,其終點表示心室除極開始。 心電圖上描出的為一等位線,在這段中可埋藏著心房復(fù)極波—Ta波,多被ORS
波所覆蓋。
QRS波群:反映左、右心室除極的全過程。典型的ORS波群,包括3個緊 密相連的波:第1個向下的波稱為Q(或q)波;第1個向上的波稱為R(或r波);
以后向下的波稱為S(或s波)。s波以后向上的波稱為R’(或,’)波;R’波后向
下的波稱為S’(或J’)波,依此類推。如果僅有向下的波稱為Qs波。ORS波群 中振幅較大的波用Q,R,S分別代表,振幅較小的波用q’r,s分別代表。QRS
時限代表心室除極所需時間,正常為0.06—0.10秒。 sT段:代表心室除極終了到心室復(fù)極開始在體表產(chǎn)生電位差以前的一短 暫瞬間。正常人在等位線上,但亦可輕度偏移。
T波:反映心室復(fù)極過程產(chǎn)生的電位變化,又稱心室復(fù)極波。一般其間期
為0.05-0.25秒,振幅愈高,間期愈長。
鏟T間期:從ORS波起始至T波終末的時間。代表心室除極和復(fù)極的總時 間(即心室的電收縮時間),與心率快慢有關(guān)。其一般值為0.39+0.04秒。 U波:又稱后電位,一般認(rèn)為是心室舒張的機(jī)械佳結(jié)果,由心室牽張時形 成的后電位產(chǎn)生。亦有認(rèn)為與心肌傳導(dǎo)纖維或乳頭肌的復(fù)極有關(guān)。其振幅為 0.05—0.2毫伏,寬度<O.27秒. TP段:代表心室的電收縮期(除極與復(fù)極)完畢到下一個心電周期心房開 始除極的時間。此段為心室的電舒張期(靜止期),處于心電圖等位線上。 圖1.6給出了一組正常人的十二導(dǎo)聯(lián)常規(guī)心電圖。
7
.~』,乙j,’一三,^—I/.一j,‘—■^—0,、—-,j—^l九
。。j八立,.j。。土九.3。立人j^工,、。^幾.
橢.k—J.—匕一曼/o—J√L—a一,L—J■,、—~L^—^0^—^L~....L^。一
.o.....。t,,—..J.,....上.。—.^....上..——.JL—,!摺弧辏慌
。k。,p、.~,j,,4
”111葉葉111葉一
}i
l
”j..f4…i,。’ f i
九隊一毒’ 一璣Ⅺ、、◇V,.過&。趴。
。L執(zhí)少 b∑∑∑心∑jjb。
l
兒^iA.L上一且一且.厶一^l乙^i九h一
圖1.6正常人的12導(dǎo)聯(lián)常規(guī)心電圖
1.3心電圖的測量
記錄心電圖是在印有縱橫細(xì)軸方格坐標(biāo)紙上直接描記。橫向坐標(biāo)表示時 間,以秒為單位。當(dāng)記錄紙速為25毫米/秒時,豎分格l毫末=0.04秒?v向
坐標(biāo)表示電壓,以毫伏為單位。當(dāng)心電圖機(jī)定準(zhǔn)電壓為10毫米/毫伏時,橫分 格1毫米=O.1毫伏。
對心電圖進(jìn)行測量時,波幅的大小以毫伏為單位計算,時間寬度以秒為單
位計算。 電壓(振幅):測量向上的振幅時,從基線的上緣量至波峰頂進(jìn)行計算;
測量向下的波幅時,從基線的下緣至波底進(jìn)行計算。 ST段移位時,以相鄰的兩個P-Q段作為基線和S-T段相比較進(jìn)行測量。 S—T段高于P—Q段基線為S_T段上升,S-T段低于P-Q段基線為S—T段下降。
測量時,以P-Q段基線的上緣和S1段基線的上緣相比較計算,或以p-Q段基
線的下緣和S—T段基線的下緣相比較計算。
時間(寬度):選擇波形比較清晰的導(dǎo)聯(lián),從波的起始至全波的終末進(jìn)行
測量。
心率:測量p-p或R—R間隔,代表一個心臟激動周期的時間,每分鐘心房
或心室率按下列公式計算;
每分鐘心率=萬j兩壓三茜麗
P波:從P波的起始量至P波的終末,P波是QRS波群前面的一個比較顯
著的波。
QRS波群:如有Q波即從Q波的起始量至QRS波群的最后一個波的終末, 如沒有Q波就從R波的起始量至QRS波群的最后一個波的終末。ORS波即是心 電周期中最高、最陡峭、最尖銳,總之是最顯著的波。 T波:從1.波的起始量至,F波的終末。T波是ORS波群后面的一個比較顯
著的波。
P-R見期:自P波的開始量至ORS的開始。如果QRS波群最初為Q波,即
從P波的開始量至Q波的開始。如果ORS波群沒有Q波,即從P波的開始量至 R波的開始。
Q.T見期:自QRS波群的開始量至T波的終末。如果QRS波群有Q波,就 從Q波的開始測量:如果QRS波群沒有Q波,就從R波開始測量。 VAT:室壁激動時間,是心室肌至內(nèi)壁向外壁進(jìn)行除極所需要的時間,在 心電圖中是指自QRS波的開始至R波的頂峰點所經(jīng)歷的時間.測量時,從Q 波(如無Q波則從R波開始)的起點劃一條垂直線,再從R波的頂點劃一條垂
直線,兩垂直直線之間的寬度即為“室壁激動時間”。
通常,P、T波形比起QRS波群來要平滑的多,P波、QRS波群、T波的交 替出現(xiàn)就構(gòu)成了整個心電周期。如果心電圖出現(xiàn)異常,將會出現(xiàn)更復(fù)雜的心電
圖,是計算機(jī)自動分析出現(xiàn)困難。
由于生理或病例原因,可以引起波形出現(xiàn)各種各樣的變換,其中以QRS
波群改變最多。
9
當(dāng)然,心電圖只是一種協(xié)助診斷工具,同一種疾病可有不同類型的心電圖
變化,而不同的疾病有相似的心電圖表現(xiàn)。
lO
第二章統(tǒng)計學(xué)習(xí)理論與支持向量機(jī)
2.1
機(jī)器學(xué)習(xí)的基本問題
2.1.I傳統(tǒng)學(xué)習(xí)理論的困難
機(jī)器學(xué)習(xí)從本質(zhì)上來說就是建立輸入模式空間與輸出模式空間的函數(shù)映 射關(guān)系,通常把表達(dá)這種映射關(guān)系的函數(shù)統(tǒng)稱為學(xué)習(xí)機(jī)器。學(xué)習(xí)機(jī)器最主要的 性能是其學(xué)習(xí)能力和推廣能力。所謂學(xué)習(xí)能力是指學(xué)習(xí)機(jī)器調(diào)整其自身參數(shù)使
之適應(yīng)訓(xùn)練樣本集的能力。推廣能力是指學(xué)習(xí)機(jī)器從當(dāng)前訓(xùn)練樣本上學(xué)到的知
識(映射關(guān)系)的普遍性能力。
(1)小樣本問題
傳統(tǒng)統(tǒng)計學(xué)主要研究漸迸理論,即當(dāng)訓(xùn)練樣本數(shù)趨向無窮大時的解決方 案。但是在實際問題中,可用的樣本數(shù)通常是有限的,因此漸進(jìn)性的前提條件 往往得不到滿足。這是包括參數(shù)估計和神經(jīng)網(wǎng)絡(luò)等在內(nèi)的學(xué)習(xí)機(jī)器的一個根本 問題。在所有問題中,這類學(xué)習(xí)機(jī)器所遇到的問題基本上都可以歸結(jié)到漸進(jìn)性 前提。在所有問題中,最直接的就是小樣本問題。傳統(tǒng)統(tǒng)計學(xué)應(yīng)用經(jīng)驗風(fēng)險最 小化原則來優(yōu)化學(xué)習(xí)機(jī)的參數(shù)。但是理論表明,經(jīng)驗風(fēng)險與實際之間具有一定 的差異。在小樣本情況下,這種差異尤其明顯。由于訓(xùn)練樣本數(shù)的限制,基于 經(jīng)驗風(fēng)險最小化原則的學(xué)習(xí)機(jī)器在實際應(yīng)用中普遍存在推廣能力不足的問題。 工程實際中,對解決小樣本學(xué)習(xí)問題的有效方案有著迫切的需求。例如,在心 電圖分析中,對于疾病分類在實際過程中很難獲得,往往只能專家通過交互式 的方式手工得到。在這種情況下,通過基于漸進(jìn)性分析的學(xué)習(xí)機(jī)器就很難得到
有價值的、具有推廣意義的知識。 (2)高維問題
傳統(tǒng)的學(xué)習(xí)機(jī)器在高維情況下往往不能正常工作。比如神經(jīng)網(wǎng)絡(luò),當(dāng)訓(xùn)練 樣本維數(shù)很高時,神經(jīng)網(wǎng)絡(luò)的測試和訓(xùn)練結(jié)果可能會出現(xiàn)較大的隨機(jī)性,究其
原因,首先,神經(jīng)網(wǎng)絡(luò)(例如BP網(wǎng)絡(luò))的解往往收斂于局部極值,由于在高
維空間中可能存在眾多的局部極值,不同局部極值存在較大的差異,因此神經(jīng) 網(wǎng)絡(luò)的解必然呈現(xiàn)隨機(jī)性。其次,‘高維問題與小樣本問題是緊密聯(lián)系的,樣本 數(shù)的多少是相對的,比如,在低維空間中,只要很少數(shù)量的樣本就可以比較充
分的描述整個樣本空間。而在高維空問中,為了同樣程度的描述樣本空間,所 需要的樣本數(shù)以指數(shù)形式增長。另在運算方面,當(dāng)特征空間的維數(shù)增大時,神 經(jīng)網(wǎng)絡(luò)的運算量將急劇增長,從而使訓(xùn)練和測試過程非常慢。因此,傳統(tǒng)學(xué)習(xí)
機(jī)器在實際的應(yīng)用中,通常需要特征約筒,將數(shù)據(jù)壓縮到較低維的空間中,才 能有效地進(jìn)行學(xué)習(xí)。 (3)局部極值問題 傳統(tǒng)學(xué)習(xí)機(jī)器的優(yōu)化過程容易出現(xiàn)陷入局部極值的問題。如神經(jīng)網(wǎng)絡(luò)最常 見的優(yōu)化方法是梯度修正算法。梯度修正算法本身只保證找到目標(biāo)函數(shù)的局部 極值,同時局部極值逼近全局最優(yōu)解的程度并沒有理論上的保證。當(dāng)然,有些 設(shè)計者設(shè)計了可以跳出局部極值的算法,雖然在實際應(yīng)用中取得了較好的結(jié)
果,但是仍然很難得到全局最優(yōu)。
與傳統(tǒng)統(tǒng)計學(xué)相比,統(tǒng)計學(xué)習(xí)理論(Statistical
Learning
Theory或SLT)
是一種專門研究小樣本情況下機(jī)器學(xué)習(xí)規(guī)律的理論。該理論針對小樣本統(tǒng)計問 題建立了一套新的理論體系,這種體系下的統(tǒng)計推理規(guī)則不僅考慮了對漸進(jìn)性 能的要求,而且追求在現(xiàn)有有限信息的條件下得到最優(yōu)結(jié)果。V.Vapnik等人 從六、七十年代開始致力于此方面研究,到九十年代中期,隨著其理論的發(fā)展
和成熟,也由于神經(jīng)網(wǎng)絡(luò)等學(xué)習(xí)方法在理論上缺乏實質(zhì)性的進(jìn)展,統(tǒng)計學(xué)習(xí)理
論開始受到越來越廣泛地重視。同時,在這一理論基礎(chǔ)上發(fā)展了一種新的通用
學(xué)習(xí)方法——支持向量機(jī)(Support
Vector
Machine或SVM),已初步表現(xiàn)出
很多優(yōu)于各種傳統(tǒng)方法的性能。目前,統(tǒng)計學(xué)習(xí)理論和支持向量機(jī)已經(jīng)成為國 際上機(jī)器學(xué)習(xí)領(lǐng)域新的研究熱點。本章將對其基本理論進(jìn)行概要地介紹。
2.1.2機(jī)器學(xué)習(xí)問題的描述 機(jī)器學(xué)習(xí)問題可以看作是,通過某種訓(xùn)練方法,對某一系統(tǒng)的輸入與輸出
之間的依賴關(guān)系進(jìn)行估計,并且期望這一估計可以對任意給定輸入盡量準(zhǔn)確地 進(jìn)行輸出預(yù)測‘””。 假設(shè)變量y與x之間存在一定的未知依賴關(guān)系,即遵循某一未知的聯(lián)合概 率,F(x,y),(x和y之闐的確定性關(guān)系可以看作是其特例),機(jī)器學(xué)習(xí)闖題就
12
是根據(jù)r1個獨立同分布觀測樣本(‘,M),(屯,y2),...,(矗,只),在一組函數(shù)
{/U,。曛星蟪鲆粋最優(yōu)的函數(shù),(x,%)對依賴關(guān)系迸行估計,使期望風(fēng)險
R(m)=p(乃廠(石,腳))d。疲ㄅc力
(2—1)
最小?其中,{f(x,∞)l稱作預(yù)測函數(shù)集,。牛餅楹瘮(shù)的廣義參數(shù),L(y,f(x,腳))
為由于用f(x,∞)對Y進(jìn)行預(yù)測而造成的損失。不同類型的學(xué)習(xí)問題有不同形 式的損失函數(shù)。預(yù)測函數(shù)也稱做學(xué)習(xí)函數(shù)、學(xué)習(xí)模型或?qū)W習(xí)機(jī)器。 例如,對模式識別問題,系統(tǒng)給出Y是類別標(biāo)號。兩類分類情況下Y={o’1)
或{一1,1}是二值函數(shù),預(yù)測函數(shù)稱作指示函數(shù),損失函數(shù)可以定義為:
洲刪={:}臻鬈:
使式(2-1)中的期望風(fēng)險最小就是Bayes決策中使錯誤率最小。 2.1.3經(jīng)驗風(fēng)險最小化
∞,
在上面的問題表述中,學(xué)習(xí)的目標(biāo)在于使期望風(fēng)險最小化,要計算式(2一1) 中的期望風(fēng)險,必須依賴關(guān)于聯(lián)合概率的信息F(x,y)的信息,在模式識別中 就是必須已知類先驗概率和類條件概率密度。但是,由于我們可以利用的信息
只有有限的樣本,式(2-1)中的期望風(fēng)險無法宣接計算和最小化。因此傳統(tǒng)的 學(xué)習(xí)方法中采用了所謂經(jīng)驗風(fēng)險最小化準(zhǔn)則,即用有限的樣本定義經(jīng)驗風(fēng)險:
R。=吉喜地,胞,硼(2-3)
來逼近式(3—1)定義的期望風(fēng)險,用對參數(shù)腳求經(jīng)驗風(fēng)險R。,(功的最小值代替 求期望風(fēng)險月如)的最小化,就是所謂的經(jīng)驗風(fēng)險最小化原則.
事實上,用經(jīng)驗風(fēng)險最小化準(zhǔn)則代替期望風(fēng)險最小化沒有經(jīng)過充分的理論
論證,只是直觀上合理的想當(dāng)然做法,但這種方法卻在多年的機(jī)器學(xué)習(xí)方法研 究中占據(jù)了主要地位。人們多年來將大部分注意力集中到如何更好地對經(jīng)驗風(fēng) 險最小化。而實際上,即使可以假定,當(dāng)n趨向于無窮大時,式(2.3)趨進(jìn)于
式(2-1),而在很多實際問題中,樣本數(shù)目也離無窮大相去甚遠(yuǎn),那么在有限 樣本情況下,采用最小化經(jīng)驗風(fēng)險準(zhǔn)則,得到的結(jié)果能使真實風(fēng)險也最小嗎?
要得到這個答案,需要了解統(tǒng)計學(xué)習(xí)理論對采用經(jīng)驗風(fēng)險最小化準(zhǔn)則解決期望
風(fēng)險最小化問題的前提,如果這些前提不成立時,需要找到更合理的準(zhǔn)則。
3.1.4模型復(fù)雜度與推廣能力
人們將學(xué)習(xí)機(jī)器對未來輸出進(jìn)行正確預(yù)測的能力稱作推廣能力。在傳統(tǒng)學(xué)
習(xí)理論中,人們總是把注意力集中到如何使經(jīng)驗風(fēng)險最小,但是一味追求訓(xùn)練
誤差小并不能得到好的預(yù)測效果。在某些情況下。訓(xùn)練誤差過小。反而會導(dǎo)致
推廣能力的下降,即真實風(fēng)險的增加,這是神經(jīng)網(wǎng)絡(luò)中的過學(xué)習(xí)問題。之所以
出現(xiàn)過學(xué)習(xí)現(xiàn)象,一是因為學(xué)習(xí)樣本不充分,二是學(xué)習(xí)機(jī)器設(shè)計不合理。理論 表明,經(jīng)驗風(fēng)險與期望風(fēng)險之間具有一定的差異,在小樣本情況下,這種差異 尤其明顯。由于訓(xùn)練樣本數(shù)的限制,基于經(jīng)驗風(fēng)險最小化準(zhǔn)則的學(xué)習(xí)機(jī)器在實
際應(yīng)用中普遍存在推廣能力不足的問題。 究其原因,是試圖用~個十分復(fù)雜的模型去擬合有限的樣本,導(dǎo)致喪失了
推廣能力。在神經(jīng)網(wǎng)絡(luò)方法中,若對有限的樣本來說網(wǎng)絡(luò)學(xué)習(xí)能力過強(qiáng),足以 記住每個樣本,此時經(jīng)驗風(fēng)險很快就可以收斂到很小甚至零,但卻根本無法保
證它對未來樣本能給出好的預(yù)測。學(xué)習(xí)機(jī)器的復(fù)雜性與推廣性之間的這種矛盾 同樣可以在其它學(xué)習(xí)方法中看到。
由此可看出,1)經(jīng)驗風(fēng)險對學(xué)習(xí)機(jī)器的性能有一定的影響,但不起決定 作用。經(jīng)驗風(fēng)險最小并不一定意味著期望風(fēng)險最;2)復(fù)雜度高的學(xué)習(xí)機(jī)器, 往往具有較低的經(jīng)驗風(fēng)險。因此,經(jīng)驗風(fēng)險最小化準(zhǔn)則的結(jié)果,將使學(xué)習(xí)機(jī)器 變得越來越復(fù)雜。3)學(xué)習(xí)機(jī)器的復(fù)雜度對其性能有較大的影響,學(xué)習(xí)機(jī)器的 復(fù)雜性不但與所研究的系統(tǒng)有關(guān),而且與有限數(shù)目的樣本相適應(yīng)。
14
因此。如何根據(jù)實際問題。在學(xué)習(xí)機(jī)器的經(jīng)驗風(fēng)險與模型復(fù)雜度之間取得
合理的折衷,從而使機(jī)器學(xué)習(xí)具有更高的推廣能力,需要一種能夠指導(dǎo)我們在 小樣本情況下建立有效的學(xué)習(xí)和推廣方法的理論。
2.2統(tǒng)計學(xué)習(xí)理論
2.2.1學(xué)習(xí)機(jī)器的vc維
為了描述學(xué)習(xí)機(jī)器的容量。Vapnik和Chervonenko提出了vc維概念
(Vapnik—Chervonenko Dimension)。
模式識別方法中vc維的直觀定義是:對一個指示函數(shù)集,如果存在h個 樣本能夠被函數(shù)集中的函數(shù)按所有可能的26種形式分開,則稱函數(shù)集能夠把h 個樣本打散:函數(shù)集的VC維就是它能打散的最大樣本數(shù)目h。著對任意數(shù)目 的樣本都有函數(shù)能將它們打散,則函數(shù)集的vc維是無窮大。 VC維反映了函數(shù)集的學(xué)習(xí)能力,vc維越大則學(xué)習(xí)機(jī)器越復(fù)雜(容量越大)。
遺憾的是,目前尚沒有通過的關(guān)于任意函數(shù)集vc維計算的理論,只確定了一
些特殊的函數(shù)集的vc維。比如在n維實數(shù)空間中線性分類器和線性實函數(shù)的 vc維是n+l,對于一些比較復(fù)雜的學(xué)習(xí)機(jī)器(如神經(jīng)網(wǎng)絡(luò)),其vc維除了與函 數(shù)集(神經(jīng)網(wǎng)結(jié)構(gòu))有關(guān)外,還受學(xué)習(xí)算法等的影響,其確定更加困難。但是,
在實際應(yīng)用統(tǒng)計學(xué)理論時,可以通過變通的辦法巧妙地避開直接求VC維的問 題。
2.2.2推廣性的界
統(tǒng)計學(xué)習(xí)理論從vc維的概念出發(fā),推導(dǎo)出了經(jīng)驗風(fēng)險與實際風(fēng)險的關(guān)系, 即稱作推廣性的界,它是分析機(jī)器性能和發(fā)展新的學(xué)習(xí)算法的重要基礎(chǔ)。
對于指示函數(shù)集f(x,功),如果損失函數(shù)Q∽m)=上(乃廠“蝴為一般的有
界非負(fù)實函數(shù),即OsQ(x,口)≤B,冤目有如下的結(jié)論:
定理2.1對指示函數(shù)集中的所有函數(shù)(包括使經(jīng)驗風(fēng)險最小的函數(shù)),經(jīng)
驗風(fēng)險R。。(國)和實際風(fēng)險R(回之間至少以概率1一,7滿足如下關(guān)系:
酬颯扣)+≯Be.+√-+%導(dǎo))
其中
㈤
s:4二二—L—=_j
上式中,h為函數(shù)集的Vc維,n為樣本數(shù)。
對于損失函數(shù)為無界函數(shù)的情況,也有相應(yīng)的結(jié)論。
矗(1n絲+1)一lIl翌
(2.5)
這一結(jié)論從理論上說明了學(xué)>-j機(jī)器的實際風(fēng)險是由兩部分組成的:一部分 是由經(jīng)驗風(fēng)險(訓(xùn)練誤差);另一部分稱作值信范圍,它和學(xué)習(xí)機(jī)器的Vc維及
訓(xùn)練樣本數(shù)有關(guān)?梢院唵蔚乇硎緸椋
R(m)≤R。,(國)壩》
矗
,l
(2-6)
上式中置信范圍廬隨;增加,單調(diào)下降。即當(dāng)芋較小時,置信范圍妒較大,
用經(jīng)驗風(fēng)險近似實際風(fēng)險就存在較大的誤差,因此采用經(jīng)驗風(fēng)險最小化準(zhǔn)則,
取得的最優(yōu)解可能具有較差的推廣性;如果樣本數(shù)較多,;較大,則置信范圍
矗
就會很小,采用經(jīng)驗風(fēng)險最小化準(zhǔn)則,求得的最優(yōu)解就接近實際的最優(yōu)解。 在有限的訓(xùn)練樣本情況下,當(dāng)樣本數(shù)n固定時,此時學(xué)習(xí)機(jī)器的vc維越 高(學(xué)習(xí)機(jī)器的復(fù)雜性越高),則置信范圍就越大,此時,真實風(fēng)險與經(jīng)驗風(fēng) 險之間的差別就越大,這就是為什么出現(xiàn)過學(xué)習(xí)現(xiàn)象的原因。機(jī)器學(xué)習(xí)過程不
但要使經(jīng)驗風(fēng)險最小,還要使其vc維盡量小,以縮小置信范圍,才能取得較 小的實際風(fēng)險,即對未來樣本有較好的推廣性,它與學(xué)習(xí)機(jī)器的VC維及訓(xùn)練 樣本數(shù)有關(guān)。
2.2.3結(jié)構(gòu)風(fēng)險最小化
經(jīng)驗風(fēng)險最小化方法是目前絕大多數(shù)模式識別方法的基礎(chǔ),其定義為訓(xùn)練 集上的平均錯誤率,用于對整個樣本集的期望風(fēng)險進(jìn)行估計,它建立在樣本數(shù) 目足夠多的前提下,致使各種方法只有在樣本數(shù)趨向無窮大時,其性能才有理 論上的保證。而在現(xiàn)實世界的應(yīng)用中,這一前提并不總能被滿足,這時大多數(shù)
16
次類方法都難以取得理想的結(jié)果。 由2.2.2節(jié)中的推廣性的界可知;影響期望風(fēng)險上界的因子有兩個方面: 首先是訓(xùn)練集的規(guī)模n,其次是VC維的h。可見,在保證分類精度(經(jīng)驗風(fēng)險)
的同時,降低學(xué)習(xí)機(jī)器的vc維,可以使學(xué)習(xí)機(jī)器在整個樣本集上的期望風(fēng)險 得到控制,它就是結(jié)構(gòu)風(fēng)險最小化(Structure
的由來。
Risk
Minimization,簡稱SvM)
由vc維的討論可以看到,經(jīng)驗風(fēng)險和期望風(fēng)險依賴于學(xué)習(xí)機(jī)器函數(shù)族的 選擇。把函數(shù)集J=礦O,∞),∞∈Q)分解為一個函數(shù)子集列,
毛cj2c…c吼c…cs,
(2—7)
使各個子集能夠按照置信范圍≯的大小排列,也就是按照vc維的大小排列,
即
啊s如≤…≤以≤…,
(2—8)
所謂結(jié)構(gòu)風(fēng)險最小化,便是構(gòu)造一組嵌套的函數(shù)子集,使得其vc維由內(nèi) 向外依次遞增,然后在其上尋找經(jīng)驗風(fēng)險和置信范圍之和最小的子集,從而使
得實際風(fēng)險的上界最小化,如圖2.1所示
17
風(fēng)險
一圍
磷署瓢鏟‘毛
vC維:^s噍≤島
圖2.1 結(jié)構(gòu)風(fēng)險最小化示意圖
基于結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則的統(tǒng)計學(xué)理論是一種專門研究小樣本的統(tǒng)計理 論,它為研究有限樣本下的統(tǒng)計模式識別,并為更廣泛的機(jī)器學(xué)習(xí)問題建立了 一個較好的理論框架,同時也發(fā)展出了一種新的模式識別方法——支持向量 機(jī)t從而能夠較好地解決小樣本的學(xué)習(xí)問題。
2.3支持向量機(jī)原理
支持向量機(jī)方法是Vapnik等人根據(jù)統(tǒng)計學(xué)習(xí)理論提出的一種新的機(jī)器學(xué)
習(xí)方法,它以結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則為理論基礎(chǔ),通過適當(dāng)?shù)剡x擇函數(shù)子集及其
該子集中的判別函數(shù),使學(xué)習(xí)機(jī)器的實際風(fēng)險達(dá)到最小,保證了通過有限訓(xùn)練 樣本得到的小誤差分類器,對獨立測試集的測試誤差仍然較小。因而,是一個 具有最優(yōu)分類能力和推廣能力的學(xué)習(xí)機(jī)器。
2.3.1
線性可分的最優(yōu)分類面
(1)最優(yōu)分類面
支持肉量枧是從線性可分情況下的最優(yōu)分類面發(fā)展焉來的,基本思想可用
圖2.2來說明。對于一維空間中的點,二維空間中的直線,三維空間中的平面,
以及高維空間中的超平面。圖中實心點和空心點代表兩類樣本,Ⅳ為它們之
間的分類超平面,日。、鷗分別為各類中離分類面最近的樣本且平行于分類面
的超平面,它們之問的距離△叫做分類間隔(margin).
H
Hz
圖2.2最優(yōu)分類面示意圖
當(dāng)分類面發(fā)生變化時,分類閾蕊△也會隨之發(fā)生變化。反之給定△的值也 可以確定相應(yīng)的分類超平面(也可能對應(yīng)著許多超平面,統(tǒng)稱為超平面集合)。 按照文獻(xiàn)“““1,在△間隔下,超平面集合的vc維h滿足下面關(guān)系:
叫(吉)
分類間隔越大。則對應(yīng)的分類超平面集合的VC維就越小。
(2?9)
其中,廠(.1是單調(diào)增函數(shù),郎h與△2成反比關(guān)系。因此,當(dāng)訓(xùn)練樣本給定時,
最優(yōu)分類面就是要求分類面不但能將兩類樣本正確分開(訓(xùn)練錯誤率為 0),而且要使兩類的分類間隔越大.根據(jù)結(jié)構(gòu)風(fēng)險最小化原則,前者是保證經(jīng) 驗風(fēng)險最小,而后者使分類間隔最大,導(dǎo)致VC維最小,實際上就是使推廣性
的界中的置信范圍最小,從而達(dá)到使真實風(fēng)險最小.
分類面方程為wrz+6=0,如果線性可分,則樣本集“,乃),
i=l,…,月,x∈Rd,ye{+l,-1},滿足
咒[w7x+6=o]-1=0,i=1,..m(2-10)
此時分類間隔等于2州wl,使分類間隔最大等價于使0wll2最小。滿足條件
式(2-10)且使圭o wJl2最小的分類面就叫做最優(yōu)分類面,如圖2.3所示為各分類
面與最優(yōu)分類面的示意圖,其中q、z‘上的訓(xùn)練樣本點就稱作支持向量。
圖2.3分類面與最優(yōu)分類面示意圖
(2)優(yōu)化求解
在線性可分情況下,在結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則下的最優(yōu)超平面問題,可以表
示為如下的約束優(yōu)化問題。即在條件(2.10)的約束下,求函數(shù)
礦(w)=判wIl2
的最小化。為此,可以定義如下的Lagrange函數(shù):
(2.11)
mM=抑2一喜q{M[w饑㈣]-l}
其中,a!荩盀楦鳂颖緦(yīng)的Lagrange系數(shù)。
㈣2)
求解(2.t2)的最小值,可以令該泛函對W和b求偏導(dǎo),并令它們等于0, 就可以把上述求最優(yōu)分類面的問題轉(zhuǎn)化為較簡單的對偶問題,即:在約束條件
∑Mq=o
1=I
(2一13)
島≥O
i=I,...,群
(2-14)
下,求下列函數(shù)最大值時的解al:
Q(口)=∑q一去∑qq只乃(而?_)
i=1
(2?15)
-I.j=l
a;為原問題中與每個約束條件(3.1 o)對應(yīng)的Lagrange乘子。這是一個不 等式約束條件下二次函數(shù)優(yōu)化的問題,存在唯一解。容易證明,解中將只有一 部分(通常是少部分)ai不為零,對應(yīng)的樣本就是支持向量(SV)。
若仉‘為最優(yōu)解,則最優(yōu)分類面的權(quán)系數(shù)向量為:
w.=∑口『。乃而
^E5P
(2?t6)
即最優(yōu)分類面的權(quán)系數(shù)向量是訓(xùn)練樣本中支持向量的線性組合。得到支持向量 及權(quán)向量w.后,分類器中的閥值b‘,可以通過兩類中任意一對支持向量取中 值求得。
b+=妄【w‘J’(1)+w’x’(_1)】(2?17)
二
其中,r(1),x’(-1)分別表示兩類中任意一個支持向量。
(3)構(gòu)造判別函數(shù)
有前面獲得的支持向量及相關(guān)參數(shù)后,就可以求得上述問題的最優(yōu)分類判
別函數(shù)為:
,(工)=sgn{(w"?x)+6)=sgn{∑ai+乃(而?力+6’)
(2?18)
Z1
2.3.2線性不可分的最優(yōu)分類面
上面的方法是保證訓(xùn)練樣本在線性可分的情況下,全部樣本能被正確地分
類,即經(jīng)驗風(fēng)險R。。為0的前提下,通過對分類間隔最大化,使分類器獲得
最好的推廣性能。若訓(xùn)練樣本是線性不可分的,或事先不知道它是否線性可分, 可以通過引入非負(fù)松弛變量毒i=1,2,¨.,/'/來允許錯分樣本的存在。這時約束
(2—10)變?yōu)椋?br />
咒l(w7?墨)+6 I—l+缶≥0,f=1,…月
(2.19)
容許錯分的分類超平面稱作軟間隔分類超平面,如圖2.4所示,表示訓(xùn)練 集在線性不可分的情況下軟間隔分類超平面示意圖。由于允許存在錯分樣本, 此時的軟間隔分類超平面表示在剔除那些錯分樣本后最大分類間隔的超平面。 此時,最小泛函由式(2-11)變?yōu)椋?br />
加固=扣[12+Cf窆卣1
二
(2-20)
\f-I
/
其中,c>0是一個自定義的懲罰因子,它控制對錯分樣本懲罰的程度,用來 控制樣本偏差與機(jī)器推廣能力之間的折衷。c越大,懲罰就越大,對錯分樣本
的約束就越大。
q2 日
’j
\
日l
jj
\ \j-
_ 一
\
'●
、
o
o
‘>、\鞭\?-t 。!埽。V\\
’\
\
o
!?./\
j
’
爿一分類超平面,w—分類面的法矢量,△一分類間隔
日。,鷗一與曰平行且過兩類樣本中離日最近的點的超平面
圖2.4線性不可分情況下軟間隔分類超平面示意圖
用與求解最優(yōu)分類面的同樣的方法求解式(2.20)的優(yōu)化問題,同樣得到一
個求二次函數(shù)的極值問題,其結(jié)果與線性可分情況下得到的式(2.13)一式
(2一Is))L乎完全相同,只是條件式(2.14)變?yōu)?osq≤c,f=1,2,…,玎(2-21)
2.3。3支持向量機(jī) 前面介紹了在線性分類情況下,如何求解最優(yōu)超平面。而在實際分類問題 中,分類問題往往是一個非線性的問題,理想的分類面應(yīng)該是非線性的。對非 線性問題,可以通過非線性變換,將非線性問題轉(zhuǎn)化為某個高維空間中的線性 問題,在變換后的高維空間中求其最優(yōu)分類面。1.支持向量機(jī)處理非線性問題
的方法是,首先將訓(xùn)練樣本集從原始模式空間經(jīng)過特定函數(shù)的非線性變換,映
射到高維特征空間,然后,在高維特征空間中,尋找最優(yōu)分類超平面,該超平 面實際上對應(yīng)著原始模式空間中的非線性分類面,如圖2.5所示。因此,支持
向量機(jī)方法在處理非線性問題時,僅比線性情況多了一個非線性映射環(huán)節(jié)。假
定該非線性映射為
x斗伊(x)(2-22)
則式(2.15)中的優(yōu)化問題就可以轉(zhuǎn)變?yōu)?br />
Q(口)=∑aj一去∑qqM乃p(而)妒(一)
(2?23)
---?_-◆
矽
圖2.5輸入空間和特征空間所對應(yīng)的樣本和分類面不意圖
式(2-22)的非線性變換可能比較復(fù)雜,使式(2-23)的計算非常困難以致不
易實現(xiàn)。但是注意到,在上面的對偶問題中,訓(xùn)練算法僅使用高維特征空間中 的點積,即伊(‘)伊(x,),而沒有單獨的映射伊(t)出現(xiàn)。因此,如果能夠找到一 個函數(shù)K使得 K(xt,J,)=伊(而)伊(工,)(2-24)
這樣,在高維特征空間中,實際上只需進(jìn)行內(nèi)積運算,而這種內(nèi)積運算是
可以用原空間的函數(shù)來實現(xiàn)的,我們甚至沒有必要知道變換映射p(?)的形式。
根據(jù)泛函的有關(guān)理論,只要一種內(nèi)積函數(shù)足(t,■)滿足定理2.2中的Mercer
條件“‘21。它就對應(yīng)某一變換空間中的內(nèi)積.
定理2.2(Mercer條件)對于任意的對稱函數(shù)K(x,z’,它是某個特征空
間中的內(nèi)積運算的充分必要條件是,對于任意的妒(石)≠o且勛20)辦<o。,有
J弘(州弦(神妒取9dxdx’>o(2-z5)
因此在求最優(yōu)分類面時,采用適當(dāng)?shù)膬?nèi)積函數(shù)圖文,xj)就可以實現(xiàn)某一非 線性變換后的線性分類,而計算復(fù)雜度卻沒有增加,此時目標(biāo)函數(shù)(2-15)與式
(2—23)變?yōu)?br />
Q(妨=∑q一去∑色乞咒乃足(一,xj)
而相應(yīng)的最優(yōu)分類面的判別函數(shù)式(2-18)也變?yōu)?br />
(2—26)
/(石)=sgn(∑aTyiK(xi,力曲‘)
(2?27)
我們稱式(2.24)的內(nèi)積為核函數(shù)。核函數(shù)K(x。y)將高維特征空聞中內(nèi)積運 算轉(zhuǎn)化為低維模式空間上一個簡單的函數(shù)計算。較常用的核函數(shù)有線性核
K(x,z)=xrz,多項式嫻∽卻“啦高斯觚㈣=oxp(一睜],
其中d為多項式的階數(shù),盯為高斯分布的寬度。 SVM是一種有堅實理論基礎(chǔ)的新穎的小樣本學(xué)習(xí)方法。它基本上不涉及概
率測度的定義及大數(shù)定律等,因此不同于現(xiàn)有的統(tǒng)計方法.從本質(zhì)上看,它避 開了從歸納到演繹的傳統(tǒng)過程,實現(xiàn)了高效的從訓(xùn)練樣本到預(yù)測樣本的“轉(zhuǎn)導(dǎo)
推理”(transductive inference),大大簡化了分類問題。SVM的最終決策函
數(shù)只由少數(shù)的支持向量所確定,計算的復(fù)雜性取決于支持向量的數(shù)目,而不是 樣本空問的維數(shù),這在某種意義上避免了“維數(shù)災(zāi)”。如果說神經(jīng)網(wǎng)絡(luò)方法是 對樣本的所有因子加權(quán)的話,SVM方法是對只占樣本集少數(shù)的支持向量樣本 “加權(quán)”。當(dāng)預(yù)測因子與預(yù)測對象之間蘊涵的復(fù)雜關(guān)系尚不清楚對,基于關(guān)鍵 樣本的方法可能優(yōu)于基于因子的“加權(quán)”。
第三章基于支持向量機(jī)的ECG分類方法和特點
3.1
基于支持向量機(jī)的ECG分類方法
支持向量機(jī)方法從本質(zhì)上說是一種兩類學(xué)習(xí)算法,只能解決兩類分類問
題。而在心電圖的分類中,心電數(shù)據(jù)是一個高維的非線性的多分類問題,因此 有必要采取一定的策略使支持向量機(jī)可以處理這樣的多類分類問題;镜姆 法有如下四種: (1)一對一方法
假設(shè)有11_類樣本(n>1),每兩類樣本構(gòu)造一個支持向量機(jī)分類器,對于
某個輸入測試樣本,依次用每個支持向量機(jī)分類器去分類,每次都保留所屬類
號,然后再用與這一類有關(guān)的支持向量機(jī)分類器去分類,如此循環(huán),直到遍歷 完與某類相關(guān)的所有支持向量機(jī)分類器而類屬不變,或遍歷完所有支持向量機(jī)
分類器為止,最終的類號就是測試樣本的類屬。’”。這種策略需要構(gòu)造nCn一1)/2 個支持向量機(jī),測試時,最少需要測試n次,最多需要測試nCn.1)/2次。這種
策略的優(yōu)點是訓(xùn)練簡單,但測試比較復(fù)雜。
(2)一對多方法 假設(shè)有n類樣本(n>1),每一類與其余類構(gòu)造一個支持向量機(jī)分類器,
對于某個輸入測試樣本,依次用每個支持向量機(jī)分類器分類,若屬類為某類類 號,則停止;若屬于其它類,則繼續(xù),直到類屬是某個類號為止,最終的類號 就是測試樣本的類屬…1。這種策略需要構(gòu)造n個支持向量機(jī)分類器,測試時,
最少需要測試1次,最多需要測試n次,因此,這種策略的優(yōu)點是測試簡單, 但是訓(xùn)練比較復(fù)雜。 (3)基于決策樹方法
基于決策樹方法將多類分類問題分解為一序列的二值分類問題,這些二值
分類分布于決策樹的各個節(jié)點上。“zl y,如圖3.6所示,是一棵多類分類決策樹。
A
B
D
E
圖3.6多類識別決策樹
決策樹上的每一個節(jié)點將一個多類混合的子集分為兩個小一點的多類混
合子集或是一個單類(樹的葉子)。這里,多類混合的集合是所有類別{1,2,...,N)
#
中特征相對相似的類別組成的一個子集。每一個決策點都有兩個兒子。樹的葉
子表示單個類別,不需要再分。 決策節(jié)點的分類任務(wù)由其輸入邊和輸出邊所決定。如圖3.6所示,根節(jié)點 的輸入邊是{A,B,C,D,E,F),所以該節(jié)點要完成一個6類分類任務(wù)。其輸出邊
(兒子)標(biāo)記以{A,B,C}(左兒子)和{D,E,F)(右兒子)。表示這個節(jié)點上 的支持向量機(jī)要將樣本分成{A,B,C)和{D,E,F)兩大類。為此,{A,B,C,D,E,F) 中所有的樣本類別標(biāo)簽都要重新標(biāo)記。類別A,B和C的樣本標(biāo)記為l,D,
E及F的樣本標(biāo)記為.1。然后用兩類支持向量機(jī)方法進(jìn)行訓(xùn)練分類函數(shù)。以此 類推,直到所有葉節(jié)點。
基于決策樹方法的缺點在于可操作性不強(qiáng),有時需要認(rèn)為的預(yù)先定義數(shù)據(jù) 子集。離使用尚有很大的距離。
(4)全局優(yōu)化分類方法
全局優(yōu)化分類方法直接解一個含多類問題的優(yōu)化問題。通過改寫Vapnik
的二類分類中SVM的目標(biāo)函數(shù),建立一個含多類的目標(biāo)函數(shù),使其滿足多類 分類問題的需要…。
方法類型 一對多 一對一 全局優(yōu)化 決策樹
訓(xùn)練代價
一般 較小 較大 較小
預(yù)測代價 較大 一般 較小
正確率 一般 一般 較高 較高
可操作性 較好 較好 一般 較差
一般
表3.1多類分類方法比較
3.2支持向量機(jī)方法特點 在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出了一種新型的學(xué)習(xí)機(jī)器——支持向量機(jī)
方法,在解決小樣本、非線性和高維的機(jī)器學(xué)習(xí)問題中表現(xiàn)出了許多特有的優(yōu)
勢。
支持向量機(jī)方法成功地解決了小樣本、高維和局部極值問題。傳統(tǒng)統(tǒng)計學(xué) 應(yīng)用經(jīng)驗風(fēng)險最小化準(zhǔn)則來優(yōu)化學(xué)習(xí)機(jī)器的參數(shù)。由于訓(xùn)練樣本數(shù)的限制,基 于經(jīng)驗風(fēng)險最小化的學(xué)習(xí)機(jī)器在實際應(yīng)用中普遍存在推廣能力不足的問題。而 建立在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上的支持向量機(jī)方法,以結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則為優(yōu)化
參數(shù),使用了大間隔因子來控制學(xué)習(xí)機(jī)器的訓(xùn)練過程,使其只選擇具有最大分 類間隔的分類超平面,又叫最優(yōu)超平面(在不可分情況下,又引入松弛因子來
控制經(jīng)驗風(fēng)險),從而使其在小樣本的情況下,滿足分類要求的條件下,具有 較高的推廣能力。尋找最優(yōu)超平面的過程最終轉(zhuǎn)化為二次型優(yōu)化問題,從理論 上說,得到的是全局最優(yōu)解。與傳統(tǒng)的學(xué)習(xí)機(jī)器不同的是,支持向量機(jī)方法是 將原始的模式矢量映射到高維的特征空間,仍然使用大間隔因子在高維特征空 間中尋找最大間隔超平面。事實上,高維特征空間中的超平面對應(yīng)著原始模式
空間中的非線性分類面。實際上,支持向量機(jī)的優(yōu)化過程并沒有在高維空間中
進(jìn)行,而是通過一些具有特殊性質(zhì)的核函數(shù),將高維空間中的內(nèi)積運算轉(zhuǎn)化為
原始空間中核函數(shù)的運算,從而巧妙地避免了在高維空間中處理問題的困難。
支持向量機(jī)方法的幾個主要特點為: 1.支持向量機(jī)方法是基于統(tǒng)計學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則,與傳統(tǒng)的
方法類型 一對多 一對一 全局優(yōu)化 決策樹
訓(xùn)練代價 一般 較小 較大 較小
預(yù)測代價
較大
正確率 一般 一般 較高 較高
可操作性 較好 較好 一般 較差
一般
較小
一般
表3.1多類分類方法比較
3.2支持向量機(jī)方法特點
在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出了一種新型的學(xué)習(xí)機(jī)器——支持向量機(jī) 方法,在解決小樣本、非線性和高維的機(jī)器學(xué)習(xí)問題中表現(xiàn)出了許多特有的優(yōu)
勢。
支持向量機(jī)方法成功地解決了小樣本、高維和局部極值問題。傳統(tǒng)統(tǒng)計學(xué) 應(yīng)用經(jīng)驗風(fēng)險最小化準(zhǔn)則來優(yōu)化學(xué)習(xí)機(jī)器的參數(shù)。由于訓(xùn)練樣本數(shù)的限制,基 于經(jīng)驗風(fēng)險最小化的學(xué)習(xí)機(jī)器在實際應(yīng)用中普遍存在推廣能力不足的問題。而 建立在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上的支持向量機(jī)方法,以結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則為優(yōu)化 參數(shù),使用了大間隔因子來控制學(xué)習(xí)機(jī)器的訓(xùn)練過程,使其只選擇具有最大分 類間隔的分類超平面,又叫最優(yōu)超平面(在不可分情況下。又引入松弛因子來 控制經(jīng)驗風(fēng)險),從而使其在小樣本的情況下,滿足分類要求的條件下,具有 較高的推廣能力。尋找最優(yōu)超平面的過程最終轉(zhuǎn)化為二次型優(yōu)化問題,從理論
上說,得到的是全局最優(yōu)解。與傳統(tǒng)的學(xué)習(xí)機(jī)器不同的是,支持向量機(jī)方法是
將原始的模式矢量映射到高維的特征空間,仍然使用大間隔因子在高維特征空 間中尋找最大間隔超平面。事實上,高維特征空間中的超平面對應(yīng)著原始模式 空間中的非線性分類面。實際上,支持向量機(jī)的優(yōu)化過程并沒有在高維空間中 進(jìn)行,而是通過一些具有特殊性質(zhì)的核函數(shù),將高維空間中的內(nèi)積運算轉(zhuǎn)化為 原始空間中核函數(shù)的運算,從而巧妙地避免了在高維空間中處理問題的困難。 支持向量機(jī)方法的幾個主要特點為: 1.支持向量機(jī)方法是基于統(tǒng)計學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則,與傳統(tǒng)的
機(jī)器學(xué)習(xí)方法不同,它不僅使經(jīng)驗風(fēng)險最小而且通過尋找最大間隔分界面來控 制模型的復(fù)雜度,從而有效地避免了過擬合現(xiàn)象,為模型選擇的問題提供了很
好的思路。 2.它是專門針對有限樣本情況下,其目標(biāo)是得到現(xiàn)有信息下的最優(yōu)解而不 僅僅是樣本數(shù)趨于無窮大時的最優(yōu)解。
3.支持向量機(jī)方法最終轉(zhuǎn)億為在線性條件下的凸二次優(yōu)化問題,從理論上 說,找到的極值點是全局最優(yōu)點,解決了在神經(jīng)網(wǎng)絡(luò)方法中無法避免的局部極
值問題。
4.支持向量機(jī)方法將實際問題通過非線性映射變換到高維的特征空間,在 高維空間中,通過構(gòu)造線性判別函數(shù)來實現(xiàn)原空間中的非線性判別,特殊性質(zhì) 能保證機(jī)器有較好的推廣能力,同肘它巧妙地解決了維數(shù)問題,這在一定程度
上解決了特征維數(shù)過大所導(dǎo)致的維數(shù)災(zāi)難問題。
5.SvM方法具有較好的“魯棒性”,這種魯棒性表現(xiàn)在多方面。首先是同 一個樣本集,增刪非支持向量的樣本對決策集沒有影響:其次是對同一問題的 不同樣本集,所建模型有一定的穩(wěn)定性;最后是核函數(shù),很多實驗表明,SVM
方法對核的選取不敏感,同一問題應(yīng)用不同核都可以得到接近的效果,不同核
下建立的支持向量機(jī)往往包含同樣的支持向量。 統(tǒng)計學(xué)習(xí)理論具有較為堅實的理論基礎(chǔ),它為解決小樣本問題提供了一個
統(tǒng)一的框架。在這一理論基礎(chǔ)上發(fā)展起來的一種新的通用學(xué)習(xí)方法一支持向
量機(jī),已初步表現(xiàn)出很多優(yōu)于傳統(tǒng)方法的性能。該算法的理論基礎(chǔ)——結(jié)構(gòu)風(fēng)
險最小化原則,是在對小樣本情況下模式識別中的一些根本性問題進(jìn)行了系統(tǒng)
地理論研究后得出的,這使得支持向量機(jī)能夠在很大程度上較好地解決了以往 困擾機(jī)器學(xué)習(xí)方法的一些問題,如模型選擇問題i過學(xué)習(xí)問題、非線性問題和
’
維數(shù)災(zāi)難問題等。
從支持向量機(jī)算法及凸優(yōu)化的知識不難得出該算法的一些主要特點:(1) 非線性映射,是SvM理論的基礎(chǔ);(2)在高維特征空間尋找最優(yōu)超平面,是 SVM的目標(biāo);(3)求出支持向量,是SⅥ訂的結(jié)果;(4)二次規(guī)劃,是計算
支持向量的手段。
目前,支持向量機(jī)在部分領(lǐng)域已進(jìn)入了實用階段(如氣象預(yù)報)。一些學(xué)
3l
者認(rèn)為,統(tǒng)計學(xué)習(xí)理論和支持向量機(jī)正在成為繼神經(jīng)網(wǎng)絡(luò)研究之后新的研究熱 點,并將推動機(jī)器學(xué)習(xí)理論和技術(shù)的發(fā)展。本章概要總結(jié)了統(tǒng)計學(xué)習(xí)理論及支
持向量機(jī)的基本理論與基本方法,以及支持向量機(jī)對多類分類問題的解決方
法,它是下一章研究的基礎(chǔ)。
第四章
基于支持向量機(jī)的ECG分類
心臟疾病是威脅人類生命健康的主要疾病之一,進(jìn)行心電信號(ECG)的
檢測診斷一直是臨床醫(yī)學(xué)上診斷心臟病變的常規(guī)檢測手段之一。ECG信號是從
人體表面記錄心肌細(xì)胞電活動的情況,它攜帶了很多反映心臟工作狀況的信
息,是臨床診斷中不可缺少的依據(jù)。ECG中有用信號的正確提取是對心血管疾 病的正確診斷的前提。利用ECG信號可以監(jiān)測心率和識別各種心率失常,調(diào)制
心律,診斷心肌梗塞并測定梗塞的程度.研究心臟病變的機(jī)理。因此,,心電圖
的計算機(jī)自動分析一直是醫(yī)學(xué)工程領(lǐng)域的研究熱點。對QRS波的分類主要有兩
大類:基于特征的分類方法和基于波形形態(tài)的分類方法。由于QRS波的特異性 和變異性較大,其分類結(jié)果不甚理想;谔卣鞯姆诸惙椒ㄊ懿ㄈ鹤儺惣霸肼
的影響較小。但它的準(zhǔn)確性是建立在正確的特征提取基礎(chǔ)上的;基于形態(tài)上的 分類方法有相關(guān)波形法(CWA)、直接ECG特征檢測法、傅立葉變換法、功率譜 分析法、復(fù)雜度測量法、TLS(Total
Least
Squares)prony建模法、自適應(yīng)
卡爾曼濾波器法、使用LPC系數(shù)和模糊ARTflAP神經(jīng)網(wǎng)絡(luò)分類法等。目前這些 方法在實際應(yīng)用中,大多數(shù)仍需人工輔助處理。為了提高精度,許多學(xué)者正試 圖尋求更優(yōu)的方法。文獻(xiàn)。73率先將SVM方法引入到ECG分類中,并通過實際臨 床心電數(shù)據(jù)在SW不同的核函數(shù)上做了比較分析,然而文獻(xiàn)Ⅱ釘并沒有給出對
ECG分類的識別率,而僅僅是縱向比較了取兩類不同核函數(shù)得到的結(jié)果;另一
方面,文獻(xiàn)o”是以一組臨床數(shù)據(jù)來作的分析,對于臨床數(shù)據(jù)而言,其本身就具
有不確定性,故以臨床數(shù)據(jù)作為分析數(shù)據(jù)不具有足夠的說服力。本文提出基于 支持向量機(jī)卜v—I算法的ECG分類方法,并通過MIT-BIH心電數(shù)據(jù)庫進(jìn)行實例
分析,獲得了較高的識別率,且在算法模型的構(gòu)造和分類速度方面優(yōu)于常規(guī)方 法。
4.1支持向量機(jī)對心電信號的分析處理
心電專家對心電圖的解釋可以分為兩個階段:1).特征信息提取:從心電 圖中提取心電波形,各波的幅值和間期等信息;2).根據(jù)提取的心電圖特征信 息,心電專家解釋心電信號。所以,目前主要用于心電圖分析的方法有基于向
量測量和句法分析的方法;谙蛄繙y量的方法由三個階段組成:1).預(yù)處理,
其中包括數(shù)據(jù)壓縮、模擬或數(shù)字濾波、線性或非線性變換等;2).特征選擇/
提取,其中包括特征的選擇、特征的提取;3).分類,根據(jù)提取的心電圖的特
征信息,對心電圖進(jìn)行分類。同樣基于句法分析的方法也是由三個階段組成: 1).預(yù)處理;2).把心電圖模式轉(zhuǎn)換成字符串描述;3).根據(jù)預(yù)先定義的規(guī)則, 通過測試心電圖的字符串描述,完成心電圖模式分類。下面是心電圖計算機(jī)自
動分析流程:
圖4.1心電信號計算機(jī)自動分析流程
4.2支持向量機(jī)1-v-1算法模型
該方法在每兩類間構(gòu)件一個分類面,因此對于k類問題則需要構(gòu)造 k(k-1)/2個分類函數(shù)。為了區(qū)分第i類和第j類樣本,需要解如下最優(yōu)化問
題:
rain捌w”112+c∑影
_,一,! 厶t
[∥,一】+69≥l一∥,礦乃=‘(4.1)
【∥,x‘】+6”≤-1+∥’,礦M=J
∥≥o,
相應(yīng)的分類函數(shù)為:
s切([∥,x】+69)(4-2)
當(dāng)對一個未知樣本分類時,每個分類器都要對類別進(jìn)行判斷,并為相應(yīng)的 類別“投上一票”,最后得票最多的類別即為該未知樣本的類別,這種策略稱 為“投票法”。采用這種方法的支持向量機(jī),簡稱1.v-1 SVMs算法。
4.3支持向量機(jī)1-v-J算法核函數(shù)的選取
核函數(shù)是SVM模型建立的一個主要問題,目前多項式核函數(shù)、高斯徑向 基函數(shù)和Sigmoid函數(shù)是三種常用的核函數(shù),除此之外,其它還有指數(shù)型徑向 基函數(shù)、傅立葉級數(shù)、B樣條核函數(shù)、張量積核函數(shù)等。 (1).多項式核函數(shù) K(x,葺)=【(工?玉)+1r q是多項式的階數(shù)。 (2).高斯徑向基函數(shù) (4?3)
‰細(xì)卜呼]
(3).Sigrnoid函數(shù) (4).指數(shù)型徑向基函數(shù)
一q
K(x,薯)=tanh[y,(x?西)+c,】(4-5)
撕,=唧(一紫)
其中,x,x’是輸入向量,下同。 (5).傅立葉級數(shù)
1
㈤,
sin0V+毒)(x—x9
r(x,并’=————。剩獭 (4-7)
sin(寺(x—x∞
二
(6).B樣條核函數(shù) X(x,x3=墾Ⅳ。(x—x’ (7).張量積核函數(shù)
(4—8)
X(x,x9=n局似,而’
j
(4—9)
我們以徑向基函數(shù)(滿足Mercer定理條件, 又稱高斯核。簡記為RBF)
作為核函數(shù)建立推理試驗?zāi)P。徑向基函?shù)形為:
‰,:唧f-學(xué)1
在分類分析中,基于RBF核求得的最終決策函數(shù)形為:
…∞
M(x)=sgn(∑ayfK(x,xA+b)
一ss
nt支磊量…xpf-匕筍]+6)
支持剛量
…-,
l
‘,
J
其中玉為作為支持向量的樣本因子響亮;x為待預(yù)報因子向量;q,6為建 立SVM模型待確定的系數(shù),/-為核參數(shù),求和運算P,xt支持向量進(jìn)行。
4.4支持向量機(jī)--V--I算法參數(shù)的確定
SVM中可供調(diào)整的參數(shù)較少,其模型的確立主要是核函數(shù)的形式及參數(shù), 如采用多項式核函數(shù)就是要確定q,對于高斯徑向基核函數(shù)則是要確定仃。對 于分類問題,標(biāo)準(zhǔn)的SVM的另一個可調(diào)節(jié)的參數(shù)是懲罰系數(shù)C。 我們利用CMSVM建模軟件平臺,采用逐步篩選的方法確定參數(shù)。首先 設(shè)置較大的參數(shù)取值范圍,對參數(shù)進(jìn)行大間隔步長的循環(huán)取值,通過訓(xùn)練和測 試,依據(jù)評分準(zhǔn)則確定在這種狀況下建立的最優(yōu)SVM分析模型所對應(yīng)的參數(shù)
值;再以此參數(shù)值為中心,設(shè)置較小的參數(shù)范圍,以小間隔步長重復(fù)上述步驟,
直至最終確定出用于建立SVM分析模型的理想?yún)?shù)值,進(jìn)而確定分析模型。 (4.1I)中的參數(shù)盯由逐步篩選方法確定,at和b為建摸過程中依據(jù)約束條件
自動生成,不需人為選擇。
4.5結(jié)論
4.5.1
支持向量機(jī)l-v-1算法分類試驗結(jié)果
這里采用的樣本心電圖數(shù)據(jù)為MIT-BIH心電數(shù)據(jù)庫文件T101.dat中第12
秒到14秒數(shù)據(jù)段的心電采樣點數(shù)據(jù),采樣率為250Hz,見表4.1
由于心電圖的條件屬性都是連續(xù)值,因此必須先進(jìn)行離散化,按下表進(jìn)行 離散化。
Values NO.
屬性 一階 差分
0
I
2
3
4
5
6
l
<一44
[-“。一10】
[一10,0)
(0,10】Clo。30)[30,80】>80
2 3
一階 <一37.6[一37.6,0)[O,一41.2][41.2,80)≥80 差分
表4.1
心電圖一階差分和二階差分的離散化方法
U l l 2 3 4 5 6 7 8 9 10 2 2 3 3 4 4 5 4 5 3 2 2 1 2 1 0 O O O O l 3 l 2 2 2 6 6 6 4 2 2 2 2 O O O 0 O O 5 2 l l l 3 4 2 4 2 4
條件屬性
6 1 2 2 2 4 4 4 4 4 2 7 2 2 2 3 l 1 1 1 1 2 8 2 2 1 1 2 2 2 2 2 2 9 3 2 3 2 O O 0 O O l 10 2 l 2 2 4 4 4 4 4 2 1l l 1 1 1 6 6 6 6 6 5 l l l 1 2 2 2 2 2 3
類
別
6
6 4
表4.2
決策表
建模程序采用CMSVMI.0,選取徑向基函數(shù)作為支持向量機(jī)核函數(shù),最優(yōu)
37
模型中的參數(shù)c=100,核參數(shù)g=O.001,將樣本數(shù)據(jù)75%作為分類訓(xùn)練樣本,20%
作為分類實驗樣本,5%作為分類檢驗樣本,成功預(yù)報率為98.7%。 本文將支持向量機(jī)(SVM)1-vs-rest算法首次系統(tǒng)地用于心電圖分類; 目前也有人試圖將SVM用于心電圖自動分析率先將S、,M方法引入到ECG分類
中,并通過實際臨床心電數(shù)據(jù)在SvM不同的核函數(shù)上做了比較分析,然而并沒
有給出對EcG分類的識別率,而僅僅是縱向比較了取兩類不同核函數(shù)得到的結(jié) 果,并沒有給出實際的處理方式和方法僅是在理論方法上提出一種可能。本文 首先分析了該方法存在的理論依據(jù)接著選取了支持向量機(jī)算法并給出該算法 的模型和相應(yīng)的核函數(shù)及參數(shù),最后通過MIT-BIH心電數(shù)據(jù)庫進(jìn)行實例分析, 獲得了較高的識別率,并在算法模型的構(gòu)造和分類速度優(yōu)于常規(guī)方法。SVM算 法是將線性不可分的心電信號數(shù)據(jù)映射到一個高維空間中,在此高維空間中建 構(gòu)最優(yōu)超平面。利用超平面進(jìn)行線性分類。用傳統(tǒng)神經(jīng)網(wǎng)絡(luò)分類算法BP神經(jīng) 網(wǎng)絡(luò)算法,一旦輸入矢量的維數(shù)增加,其收斂性和錯誤率就會發(fā)生較大改變, 需要隨時根據(jù)輸入改變其網(wǎng)絡(luò)結(jié)構(gòu)和激活函數(shù)的類型。而根據(jù)SⅧ分類算法的 性質(zhì),如果目標(biāo)樣本數(shù)量增大的話,只需適當(dāng)?shù)卦黾佑?xùn)練樣本的個數(shù)同洋能得
保證較好的分類率。
心電數(shù)據(jù)分類在心臟疾病診斷中發(fā)揮著越來越大的作用,對心電數(shù)據(jù)分類 是診斷心臟疾病的定量信息所不可缺少的手段。心電自動分析技術(shù),即在從人 體上采集到數(shù)字化心電信號之后,利用現(xiàn)代信號處理和計算機(jī)技術(shù),進(jìn)行心電 信號上各波、段和間期的檢測,并在此基礎(chǔ)上進(jìn)行其它各方面的進(jìn)一步分析, 實現(xiàn)心電圖的診斷,整個過程大多數(shù)由計算機(jī)自動完成,減少人工的參與以盡
可能避免因人為造成的誤檢。
4.5.2下一步研究的方向 心電圖的計算機(jī)自動分析研究是一個長期而復(fù)雜的研究過程,要做的工作 還很多,支持向量機(jī)是心電圖分析中的一個新的研究領(lǐng)域,本文僅是用支持向
量機(jī)對心電圖分類作了初步的研究,對于支持向量機(jī)而言除了分類能力以外還
具有回歸分析、特征提取的能力。因此下一步的工作重點為: 1.怎樣利用支持向量機(jī)對心電信號進(jìn)行特征點提取?
2.將提取結(jié)果利用支持向量機(jī)建立起一套心電圖自動診斷分析系統(tǒng)。 該系統(tǒng)可以開發(fā)出自動分析軟件從而直接與心電圖機(jī)配合使用;在心電圖 機(jī)將病人的心電數(shù)據(jù)檢測出后直接作為該軟件的數(shù)據(jù)輸入,通過該系統(tǒng)先對數(shù) 據(jù)進(jìn)行預(yù)處理然后特征提取,隨之將提取出的特征數(shù)據(jù)進(jìn)行分類診斷分析,最 后打印診斷報告。心電圖的自動診斷可以將醫(yī)務(wù)人員從煩瑣的心電圖形分析中 解脫出來,特別指導(dǎo)鄉(xiāng)鎮(zhèn)中小醫(yī)院,邊遠(yuǎn)山區(qū)醫(yī)生正確判定患者的疾病種類, 大大提高工作效率。并可開展網(wǎng)上自動診斷各種疾病,有利于人們防治各種疾 病提高全民的身體素質(zhì)。因而本研究具有很高的經(jīng)濟(jì)和社會效益。
參考文獻(xiàn)
[1]V.Vapnik.The
-Verlag,1995. Nature of Statistical Learning Theory.New York:Springer
一
[2]V.Vapnik.Statistical [3】
Barabino
Learning Theory.New York:John Wiley&Sons,1998. A,et a1.Support Vector Machines Verleysen
vs
N,Pallavicini M,Petrolini Perceptrons in
Multi—layer
Particle
Identification.
M.
Proceedings ESANN.Brussels;Dfactron。1999,257_262.
[4]Bartlett
P L,Shawe—teylor J.Generalization Performance of Support
Vector Machines and Other Pattern Classifiers.Scholkopf B,Gwrges C J C,Smola A J,Advances in Kernel Methods—Support Cambridge;MIT Press,1999. Vector Learning.
[5]c.Cortes.V.Vapnik.Support 20(3):273—297. [6]
E.Osuna,R.Freund.and
Vector Network.Machines Learning,1995,
F.Girosi.Support
Vector
Machines:Training
and
Appliciations.Technical Report AIM一1602.MIT A.I.Lab.,1996.
[7]Scholkopf,S.Mika,C.J.C.Burges,et
a1.Input Space vs.Future Space in
on
Kernel—based Methods.IEEE Transactions 1000—1017.
Neural
Network,1999,10(5):
[8]Guyon
and D.G.Stork.Linear Discriminant and Support Vector Classifi—
era.In^.J.SMOLA,P.L Bartlett.B.Scholkopf and D.Schunrmans,editors,
Advances in Large,Margin Classifiers,Cambridge,MA,2000,MIT Press. Tutorial
on
[9]Burges C.J.C.A
Support Vector Machines for Pattern Reco—
gnition.Knowledge Discovery and Data
Mining,1998,2(2):121—167.
[10】s.o.Stitson,J.A.E.Weston.et
Technical Report,1996.
a1.Theory of Support Vector Machines.
[11]Steve
Gunn.Support Vector Machines
for Classficiation and Regression.
IAIS Technical Report.University of Southampton,1998.
[12】A J.Smola,B.Scholkopf.A
Tutorial
on
Support Vector Regression.Neuro
COLT2 Technical Report Series.NC2一TR一1998-030,1998.
柏
[13]v.Vapnik,S.Golowich,A.Smola.Support
—oximation。Regression Neural Estimation,and
Vector Method for Function Appr Signal Processing.In Advances in
Information Processing
Systerms
9,1996.Forthcoming.
[14]B.Scholkopf,S.Kah—Kay,et
a1.Comparing Support Vector Machines with
Gaussian Kenels to Radial Basis Function Classifiers,IEEE trans.Signal Processing,1997,45:2758—2765.
[15]V.Wan,w.M.Campell.Support
Vector Machines for Speaker Verification
and Identification.In Proc.IEEE Workshop Neural Networks for Processing,Sydne,Auetralia,2000,775—784.
Signal
[16]E.Osuna,R.Freund,F.Girosit.Training
Support Vector Machines:An App—
lication to Face Detection.Processing of IEEE Computer Society Confe—
rence on
Computer Vision and Pattern
Recognition,1997,130—136.
[17]T.Joachims.Tranductive
Inference for Text Classification Using the Int.conf.Machine Learning,
Support Vector Machines.Presented at Slovenia,1999.
[18]Pontil
M,Verri A.Support Vector Machines For 3D Object Recognition.
IEEE Trans.on Pattern Analysis and Machine 637-646.
Intelligence。1998,20(6):
[19]Q.Zhao,J.Principe.Support Recognition.IEEE (2):643-654. [20]K.I.Kim,K.Jung,et
Vector Machines
for SAR Automatic Target
Trans.on Aerospace and Electronic
Systerms,2001,37
a1.Support Vector Machines for Texture C1assifi。
ciation.IEEE Trans.On Pattern Analysis and Machine Intelligence,2002,
24(11):1542-1563.
’
[21]Issam
Ei-Naqa,Y-V Vang,et a1.A Support Vector Machines Approach for
Detection of Microcalcifications.IEEE Trans.On Medical Image,2002,21
(12):1552—1563. [22]G.M.Fung
and o.L.Mangasarian.Breast Tumor Susceptibility to Chemothe—
Rapy via Support Vector Machines.Data Mining Institute Technical
Report
41
03—06.2003
[23]唐孝,莫智文.基于SVM的ECG分類策略.生物醫(yī)學(xué)工程學(xué)雜志.2007第三期(已 錄用). [24]張翔,田金文,柳。С窒蛄繖C(jī)及其在醫(yī)學(xué)圖像分割中的應(yīng)用:[博士學(xué)位論 文].華中科技大學(xué),2004. C25] 邢華雄.心電圖基礎(chǔ).北京:解放軍出版社,1988;35-42,128—141 [26] 邊肇祺,張學(xué)工等編著.模式識別.北京:清華大學(xué)出版社.2000. [27]
V.Vapnik.The Nature of Statistical Learning Theory.New York:Springer
—Verlag,1995.(張學(xué)工譯,統(tǒng)計學(xué)習(xí)理論的本質(zhì),北京:清華大學(xué)出版社.2000.) [283祝海龍.統(tǒng)計學(xué)習(xí)理論的工程應(yīng)用:[博士學(xué)位論文].西安交通大學(xué),2002. [29]K.R.Mul ler,S.Mika,G.Ratsch,K.Tsuda.AIl
Learning Algorithms.IEEE Transactions 181-201. Introduction to Kernel—Based
on
Neutral
Network。2001,12(2):
[30]V.Vapnik.Statistical
Learning Theory.Wiley,New York。1998. Support Vector Machines Approach to Decision
[31]K.P.Bennett,J.A.Blue。A
Trees.R.P.L.Math Report.No.97一100。Rensselaer Polytechnic Institute, Troy,NY,1997.
[32]史忠植編著.高級人工智能.北京:科學(xué)出版社.1998. [33]J.Weston,C.Watkins.Multiclass Support
U.K,Tech.Rep.CSD—TR一98—04,1998. Vector Machines.Univ.London.
[34]忻棟.支持向量機(jī)算法的研究及在人說話識別上的應(yīng)用:[碩士學(xué)位論文].浙江 大學(xué),2002. [35]李紅蓮,王春花,袁保宗.一種改進(jìn)的支持向量機(jī)NN-SW.計算機(jī)學(xué)報。2003.
[36]王國勝,鐘義信.支持向量機(jī)的若干新進(jìn)展.電子學(xué)報.2001,29(10):1397-1400
[37]周珂,彭宏,胡勁松.支持向量機(jī)在心電圖分類診斷中的應(yīng)用.微計算機(jī)信息, 2006;22(3—3):237-239. 【38】Zhou SHI Rautaharju
parameters
P M.Calhoun n P.Selection of
a
reduced set of
for classification of ventricular conduction defects by Comp Cardiol,1993;879.
cluster
analysis[R].Proc
42
[39]Minam
I K C,Nakajima H,Toyoshma T.Real—time discrimination of
W
ventricular tachyarrythm ia
ith fourier—transform
neural network
[JJ.IEEE [40]A
Trans B
iam
ed
Eng.1999;46:179.
fonoso V X。Tompkins W J.Detecting ventricular fibrillation: for the
Selecting the appropriate time—frequency analysis tool
application[J].IEEE 【41]Zhang
Eng M ed B iolMag.1995:14:152.
XS,Zhu YS。Thakor N V,etal Detecting ventricular tachycardia and
fibrillation by complex ity 46:548.
measure[J].IEEE
T
rans
B iom ed Eng,1999;
[42】Chen
SW.Two—stage discrim ination of cardiac arrhythm
prony
ia
S
using
a
total least squares—based
ed Eng,2000;47:1317.
modeling
algorithm[J].IEEE
Trans B iom
[43]^rnold
M,M iltner w H R,w itte H.A daptive A R modeling of nonstationary
means
time series by 1998:45:533.
of Kalman fi
ltering[J].IEEE
T
rans
B iom ed
Eng,
[44]Ham
F3l。Han S.Classificiation of
carhiac arrhythm ia
S
using fuzzy
ARTMAP[J].IEEE
Trans B iom ed Eng,1996;43:425.
[45]任建峰,郭雷.李剛.多類支持向量機(jī)的自然圖象分類.西北工業(yè)大學(xué)學(xué)報, 2005:23(3):295—298. [46]Platt J.Fast
Training of Support Vector Machines Using Sequential in Kernel Methods.Cambridge,Mass:MIT
Minimal Optimization in Advances Fres。1999:185.
[47]薛明東,郭立.基于SVM算法的圖象分類.計算機(jī)工程與應(yīng)用,2004;30:230. [48】張華煜。邢麗萍.基于核函數(shù)的支持向量機(jī)分類方法.電腦開發(fā)與應(yīng)用,2005:
18(7):26
[49】黃發(fā)良,鐘智.用于分類的支持向量機(jī).廣西師范學(xué)院學(xué)報(自然科學(xué)版),
2004;21(3):75.
[50]沈翠華,劉廣利,鄧乃揚.一種改進(jìn)的支持向量分類方法及其應(yīng)用.計算機(jī)工程。
2005:31(8):153.
43
[51]龍曉林,蔣靜坪.基丁:SVM的機(jī)器人1:仲識別華中科技人學(xué)學(xué)報(自然科學(xué)版)
2005:33(2):41.
[52]路斌,楊建武,陳曉鷗.一種基于SVM的多層分類策略.計算機(jī)工稃。2005:
31(1):73.
致謝
本文是在導(dǎo)師莫智文教授的精心指導(dǎo)下完成的,三年來,導(dǎo)師在學(xué)術(shù)和生
活上給予了我極大的指導(dǎo)和幫助,使我進(jìn)入粗糙集和心電圖像信息處理領(lǐng)域, 并做了一些科研工作。感謝質(zhì)樸、溫厚的導(dǎo)師莫智文教授,先生那對科學(xué)孜孜 不倦的熱忱與衷愛、淵博的知識與智慧、嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度,都讓我時刻感動并
銘記于心,這些也都將成為我今后的人生境界。 感謝電子科技大學(xué)舒蘭教授在學(xué)術(shù)上的指導(dǎo)和生活上的關(guān)心l
感謝北京氣象學(xué)院陳永義教授提供的SVM技術(shù)指導(dǎo)! 感謝電子科技大學(xué)漆進(jìn)老師在學(xué)術(shù)上的指導(dǎo)l 感謝四川師范大學(xué)數(shù)學(xué)與軟件科學(xué)學(xué)院領(lǐng)導(dǎo)和老師們對我的學(xué)習(xí)和生活 給予了大力的支持和幫助!
感謝和我一起學(xué)習(xí)的同學(xué)們! 最后,我還要深深地感謝我的父母,在我學(xué)習(xí)期間給予我學(xué)業(yè)堅定的理解 和支持,對我生活無微不至的關(guān)心,為我付出了巨大的犧牲!
攻讀碩士學(xué)位期間的科研成果
[1].Tang
Xiao,Mo Zhiwen.A Model
of Granular of
Computing Based
OH
gquivalent
Operator
of Pansystems
Rough
Sets.Fuzzy systems
and mathemat i
cs,(2007)4,2.
[2].唐孝,唐麗,莫智文.基于支持向量機(jī)算法的ECG分類策略.生物醫(yī)學(xué)工 程學(xué)雜志(已錄用) [3].Mo
zhiwen,Tang Li,Tang xiao,Lan Shu,The Algorithm of the Quick
Fitting LADT,International Joural of Computer Science and Network
Security,(2006)6,6,52—56. [4].王燕,唐孝,唐麗.基于絕對分析的多值信息系統(tǒng)粗集模型及其約簡。四川 師范大學(xué)學(xué)報.(已錄用)
[5].唐麗,唐孝,莫智文.Vague集相似度量及其在心電圖自動識別中的應(yīng)用.
生物醫(yī)學(xué)工程學(xué)雜志(已錄用) [6]。唐孝,莫智文.汽車防抱變論域自適應(yīng)模糊控制器設(shè)計.控制理論.(修改 中) [7:.唐孝,莫智文.基于支持向量機(jī)1-vs-rest算法的心電圖分類方法.中國 生物醫(yī)學(xué)工程學(xué)報(修改中) [8:.莫智文,唐孝.ECG自動分類診斷的研究. (已完稿)
[9:.莫智文,唐孝.ECG自動診斷系統(tǒng)的開發(fā).(已完稿)
支持向量機(jī)(SVM)及其在心電圖(ECG)分類識別中的應(yīng)用
作者: 學(xué)位授予單位: 唐孝 四川師范大學(xué)
相似文獻(xiàn)(10條) 1.期刊論文 劉志剛.李德仁.秦前清.史文中 支持向量機(jī)在多類分類問題中的推廣 -計算機(jī)工程與應(yīng)用2004,40(7)
支持向量機(jī)(SVMs)最初是用以解決兩類分類問題,不能直接用于多類分類,如何有效地將其推廣到多類分類問題是一個正在研究的問題.該文總結(jié)了現(xiàn) 有主要的支持向量機(jī)多類分類算法,系統(tǒng)地比較了各算法的訓(xùn)練速度、分類速度和推廣能力,并分析它們的不足和有待解決的問題.
2.學(xué)位論文 張曉平 基于支持向量機(jī)的多類分類算法研究及在滾動軸承故障識別中的應(yīng)用 2007
上世紀(jì)九十年代,在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出了一種新的機(jī)器學(xué)習(xí)算法——支持向量機(jī)。由于其具有良好的理論基礎(chǔ)和推廣能力,并解決了機(jī) 器學(xué)習(xí)領(lǐng)域存在的一些問題,因而受到了人們普遍的重視。然而,支持向量機(jī)本身是針對兩類分類問題的算法,而實際生活中廣泛存在著的是多類別的 分類問題,因此,研究如何利用支持向量機(jī)實現(xiàn)多類分類,具有十分重要的意義,也成為當(dāng)前研究的一個熱點問題。國內(nèi)外學(xué)者在此領(lǐng)域作了大量的研 究工作,提出了多種基于支持向量機(jī)的多類分類算法,達(dá)到了利用支持向量機(jī)實現(xiàn)多類分類的目的,這些算法有著各自的優(yōu)點,但還存在一定的缺陷 ,還有很多問題需要得到進(jìn)一步的解決?傮w上看,基于支持向量機(jī)的多類分類算法的研究還處于一個不斷探索的階段,有著廣闊的發(fā)展空間。 本文全部研究工作的著眼點主要集中于以下幾個問題:現(xiàn)有的幾種支持向量機(jī)多類分類器在算法結(jié)構(gòu)和分類機(jī)理上彼此有什么共同點,能否將它們 歸結(jié)為幾種類型;如何確定多類分類器的算法結(jié)構(gòu)以提高分類器的推廣能力;核函數(shù)的變化對多類樣本經(jīng)過映射后所有兩類間的可分性對比關(guān)系究竟有 什么影響;能否直接在高維特征空間中對多類樣本所有兩類的可分性對比關(guān)系進(jìn)行估計;能否提出新的支持向量機(jī)多類分類算法,并且使其具有較好的 推廣能力。針對以上問題,本文主要做了以下幾個方面的研究工作,第一,從算法結(jié)構(gòu)和分類機(jī)理的角度對“一對一”、“一對多”、基于二叉樹結(jié)構(gòu) 的支持向量機(jī)多類分類算法及DAGSVM進(jìn)行了分析,并將其分別歸結(jié)到兩種利用支持向量機(jī)實現(xiàn)多類分類的算法設(shè)計思路之中,為從算法結(jié)構(gòu)和分類機(jī)理 的角度研究支持向量機(jī)多類分類算法提供了一種參考;第二,進(jìn)行了滾動軸承的故障實驗,分別采集了滾動軸承在五種工作狀態(tài)下的振動信號,并通過 小波包變換進(jìn)行特征提取,得到了對應(yīng)于滾動軸承五種工作狀態(tài)的五類樣本;第三,對類間可分性的幾個相關(guān)問題進(jìn)行了研究,并通過將核函數(shù)引入到 類間可分性度量算法當(dāng)中,實現(xiàn)了對高維特征空間中所有兩類樣本可分性的度量與對比;第四,對不同的核函數(shù)及同一種核函數(shù)的不同參數(shù)對多類樣本 在高維特征空間中所有兩類間的可分性及其對比關(guān)系的影響進(jìn)行了研究和總結(jié);第五,提出了基于類間可分性度量的二叉樹結(jié)構(gòu)生成算法,并利用得到 的二叉樹結(jié)構(gòu)構(gòu)造支持向量機(jī)多類分類器,通過實驗證明,利用本文提出的算法所確定的二叉樹結(jié)構(gòu)使得到的多類分類器的分類性能有所提高;第六 ,分別提出了基于兩類可分性最大原則的支持向量機(jī)多類分類算法和基于類間可分性度量的“一對二”支持向量機(jī)多類分類算法,并將它們分別應(yīng)用于 對滾動軸承五種工作狀態(tài)的識別,取得了較好的效果。 本文通過以上工作,主要對確定支持向量機(jī)多類分類算法的結(jié)構(gòu)、發(fā)展新的支持向量機(jī)多類分類算法、多類樣本所有兩類間的可分性對比關(guān)系及其 與核函數(shù)的聯(lián)系等幾個方面進(jìn)行了研究,并將所提出的一些方法應(yīng)用于對滾動軸承五種狀態(tài)的識別,取得了較好的效果?偟膩碇v,基于支持向量機(jī)的 多類分類算法的研究主要立足于如何用較好的方法構(gòu)造出性能更為優(yōu)良的多類分類器,其中許多問題的解決還有待于廣大研究者的進(jìn)一步探索。
3.期刊論文 王曉鋒.秦玉平.WANG Xiao-feng.QIN Yu-ping 基于支持向量機(jī)的網(wǎng)頁多類分類技術(shù) -大連輕工業(yè)學(xué)院 學(xué)報2007,26(4)
基于支持向量機(jī)的網(wǎng)頁分類技術(shù)是數(shù)據(jù)挖掘中一個研究熱點領(lǐng)域.支持向量機(jī)是一種高效的分類識別方法,在解決高維模式識別問題中表現(xiàn)出許多特 有的優(yōu)勢,但支持向量機(jī)本身是一個兩類問題的判別方法,不能直接應(yīng)用于多類問題.總結(jié)了當(dāng)前常用的幾種支持向量機(jī)多類分類算法,分別從訓(xùn)練速度、 測試速度、分類精度三方面對這些分類方法進(jìn)行了討論,并給出了進(jìn)一步的研究方向.
4.學(xué)位論文 張晶晶 多類分類支持向量機(jī)在信用評級領(lǐng)域的應(yīng)用及核參數(shù)選擇研究 2009
支持向量機(jī)(Support Vector Machine)是數(shù)據(jù)挖掘的新方法,也是一種小樣本統(tǒng)計工具,它在解決小樣本、非線性及高維的模式識別問題上具有其 他機(jī)器學(xué)習(xí)方法難以企及的優(yōu)勢。在支持向量機(jī)二類分類方法的基礎(chǔ)上,本文深入研究了多類分類的算法及其應(yīng)用。 巴塞爾新資本協(xié)議希望并鼓勵銀行業(yè)發(fā)展內(nèi)部信用評級系統(tǒng),如何尋找到一種客觀、可行的評級方法,如何構(gòu)建內(nèi)部評級系統(tǒng),對國內(nèi)銀行從業(yè)者 提出了新的要求和挑戰(zhàn)。信用評級從科學(xué)的角度對信用度進(jìn)行定性和定量分析,其本質(zhì)是一個非線性的分類問題,用支持向量機(jī)可以很好地解決。 本文在前人研究的基礎(chǔ)上,圍繞著支持向量機(jī)多類分類算法的改進(jìn)及其在信用評級領(lǐng)域應(yīng)用而展開。 首先,根據(jù)巴塞爾新資本協(xié)議提出的信用評級體系,建立對應(yīng)的評級模型。該模型的建立將信用評級過程標(biāo)準(zhǔn)化,層次化。本文主要針對模型層進(jìn) 行分析,通過改進(jìn)模型層的核心算法,實現(xiàn)不同的評級方法。 其次,將層次支持向量機(jī)、糾錯編碼支持向量機(jī)等幾種適合用于多類分類的算法加以改變和優(yōu)化,使之有更好的分類效果。然后結(jié)合銀行提供的評 級樣本,使用工具箱實現(xiàn)了機(jī)器學(xué)習(xí)和數(shù)據(jù)評估過程。最后從性能、分類效果和易實現(xiàn)等角度分析了這幾種多類分類算法的相對優(yōu)劣。 本文還分析了核函數(shù)的選取對支持向量機(jī)分類結(jié)果的影響,通過調(diào)節(jié)參數(shù),對不同參數(shù)條件下的分類效果進(jìn)行實驗。分析了幾種最常見核函數(shù)的性 能和特點,闡述了核函數(shù)的構(gòu)造和相關(guān)定理,選擇實驗所用的核函數(shù)--Gauss徑向基核函數(shù);同時研究了Gauss徑向基核函數(shù)兩個參數(shù)意義,根據(jù)數(shù)據(jù)源 樣本對兩個參數(shù)σ和C進(jìn)行調(diào)整,找尋參數(shù)值與支持向量機(jī)學(xué)習(xí)、推廣性能之間的關(guān)系,最后總結(jié)了參數(shù)調(diào)節(jié)的方法。
5.會議論文 孫開師.賀國平 基于聚類的支持向量機(jī)多類分類問題 2006
支持向量機(jī)源于二類分類問題,而支持向量機(jī)多類分類問題雖然取得了一定的進(jìn)展,但是目前仍是一個不斷發(fā)展的熱點問題.本文介紹了當(dāng)前支持向量 機(jī)多類分類問題的一般解法和思路,提出了一種基于聚類的支持向量機(jī)多類分類問題的解法,并與通常的解法相比較,得到了良好的結(jié)果。
6.學(xué)位論文 楊杰 基于模糊支持向量機(jī)的多類分類方法研究 2005
多類分類是機(jī)器學(xué)習(xí)的一個重要分支,而經(jīng)典的支持向量機(jī)算法是針對兩類的分類問題提出的,于是人們將其推廣來解決多類分類問題.在一些實際 問題中類與類的邊界是不清晰的,為此人們又提出了模糊支持向量機(jī)的概念,來進(jìn)一步完善支持向量機(jī)多類分類方法及滿足一些其他實際問題的需要.基 于不同的出發(fā)點,目前主要有兩種建立在模糊支持向量機(jī)基礎(chǔ)上的分類方法,但都不是很成熟,本文的工作在于對這兩種方法進(jìn)行深入分析,提出改進(jìn) 算法,并加以實例驗證: 一種思想是由日本學(xué)者Takuga與Shigeo提出的.此方法主要是針對一對多組合與一對一組合支持向量機(jī)存在決策盲區(qū)而提出的,但這種方法并不能保 證各個多類分類器結(jié)果的一致性,本文給出一個修正的模糊支持向量機(jī)的分類模型,從而提高此方法的性能. 另一種思想由臺灣學(xué)者Chun-FuLiu,Sheng-DeWang,Han-PangHuang等人提出,其出發(fā)點是為了突出數(shù)據(jù)中各個樣本點的重要程度的差異,同時也為 了減小噪音數(shù)據(jù)對分類結(jié)果的影響.本文將這種方法和一對多組合結(jié)合起來,從而使新的多類分類算法具有很好的泛化能力. 經(jīng)實例驗證,本文提出的改進(jìn)算法比原方法有更好的分類結(jié)果.
7.期刊論文 唐發(fā)明.王仲東.陳綿云.TANG Fa-ming.WANG Zhong-dong.CHEN Mian-yun 支持向量機(jī)多類分類算法研 究 -控制與決策2005,20(7)
提出一種新的基于二叉樹結(jié)構(gòu)的支持向量(SVM)多類分類算法.該算法解決了現(xiàn)有主要算法所存在的不可分區(qū)域問題.為了獲得較高的推廣能力,必須 讓樣本分布廣的類處于二叉樹的上層節(jié)點,才能獲得更大的劃分空間.所以,該算法采用最小超立方體和最小超球體類包含作為二叉樹的生成算法.實驗結(jié) 果表明,該算法具有一定的優(yōu)越性.
8.學(xué)位論文 趙暉 支持向量機(jī)分類方法及其在文本分類中的應(yīng)用研究 2005
支持向量機(jī)作為一種基于統(tǒng)計學(xué)習(xí)理論的新型機(jī)器學(xué)習(xí)方法,較好地解決了非線性、高維數(shù)、局部極小點等實際問題,是機(jī)器學(xué)習(xí)領(lǐng)域新的研究熱 點。文本分類是基于內(nèi)容的自動信息管理的核心技術(shù)。文本向量稀疏性大、維數(shù)高、特征之間具有較大的相關(guān)性,支持向量機(jī)對于特征相關(guān)性和稀疏性 不敏感,處理高維數(shù)問題具有較大的優(yōu)勢,因此,支持向量機(jī)非常適用于文本分類問題,在文本分類中具有很大的應(yīng)用潛力。但是,同時,文本分類也 給支持向量機(jī)提出了許多富有挑戰(zhàn)性的課題。例如,文本分類具有類別和樣本數(shù)目多、噪音多等特點,支持向量機(jī)用于文本分類時存在訓(xùn)練和分類速度 較慢等缺點。該文主要針對支持向量機(jī)在文本分類等實際應(yīng)用中存在的問題進(jìn)行深入研究。 主要工作如下: 1、支持向量機(jī)是針對兩類分類問題提出的,如何將其有效地推廣到多類分類仍是一個尚未完全解決的問題。分析了現(xiàn)有支持向量機(jī)多類分類方法的 特點,并給出了一種半模糊核聚類算法,在此基礎(chǔ)上,根據(jù)樹型支持向量機(jī)的特性,提出了一種基于半模糊核聚類的樹型支持向量機(jī)多類分類方法。該 方法基于半模糊核聚類算法挖掘不同類別之間的銜接和離散信息,設(shè)計樹型支持向量機(jī)的樹型結(jié)構(gòu),克服其差錯積累問題。實驗表明,與其它支持向量 機(jī)多類分類方法相比,該方法具有較高的分類精度和訓(xùn)練速度,提高了支持向量機(jī)在多類分類問題中的應(yīng)用效果。 2、針對標(biāo)準(zhǔn)支持向量機(jī)對噪音敏感,分類時傾向于樣本數(shù)目較多的類別的問題,給出一種模糊支持向量機(jī)的推廣模型,并在此基礎(chǔ)上,結(jié)合近似支 持向量機(jī)的優(yōu)勢,提出了一種支持向量機(jī)組合分類方法。該方法首先采用近似支持向量機(jī)快速地去除非支持向量、減少訓(xùn)練樣本數(shù)目、確定樣本權(quán)值和 模型參數(shù),然后在樣本數(shù)目較少的訓(xùn)練集上,依據(jù)選擇好的模型參數(shù)和樣本權(quán)值訓(xùn)練模糊支持向量機(jī)的推廣模型。實驗表明,該方法能有效確定樣本權(quán) 值,減少訓(xùn)練時間,并克服野值點和類別訓(xùn)練樣本數(shù)目不均衡對分類器的不利影響。 3、通常情況下,支持向量的數(shù)目越多,支持向量機(jī)的分類速度越慢,如何縮減支持向量集合、提高支持向量機(jī)的分類速度是支持向量機(jī)的重要研究 內(nèi)容之一。在分析了現(xiàn)有支持向量集合縮減方法的基礎(chǔ)上,提出了一種基于虛樣本與支持向量回歸的支持向量集合縮減方法。該方法是根據(jù)支持向量集 合和支持向量回歸方法的特性,對Osuna等提出的支持向量集合縮減方法的改進(jìn)。該方法通過引入虛樣本剔除支持向量集合中的冗余樣本,生成虛邊界支 持向量,解決了當(dāng)冗余支持向量數(shù)目較多、邊界支持向量數(shù)目很少時,Osuna等提出的方法不能有效縮減支持向量集合的問題。實驗表明,該方法在基本 不降低支持向量機(jī)分類精度的前提下,比Osuna等提出的方法更大程度地減少了支持向量的數(shù)目,提高了支持向量機(jī)的分類速度。 4、基于支持向量機(jī)在文本分類中的優(yōu)勢,將支持向量機(jī)方法應(yīng)用于文本分類的特征提取,提出了一種基于支持向量機(jī)的單詞聚類方法。該方法基于 支持向量機(jī)度量單詞對分類的貢獻(xiàn)大小,將對分類貢獻(xiàn)一致的單詞合并起來作為文本向量的一個特征項。實驗表明,該方法在基本不丟失分類信息的前 提下,較大程度地降低了文本向量的維數(shù)、減少了文本特征之間的相關(guān)性,并提高了文本分類的查準(zhǔn)率和查全率。
9.期刊論文 黃劍鋒.劉付顯.朱法順.HUANG JIANFENG.LIU FUIXIJAIN.ZHU FASHUN 基于多類分類支持向量機(jī)的空襲 目標(biāo)識別 -微計算機(jī)信息2008,24(10)
針對已有空襲目標(biāo)識別方法存在的不足,依據(jù)空襲目標(biāo)的分類原則,提出了基于多類分類支持向量機(jī)的空襲目標(biāo)識別方法.該方法采用支持向量機(jī)的多 類分類技術(shù),降低了經(jīng)驗風(fēng)險,有效地提高了識別率.最后給出了一個算例,結(jié)果和專家給出的建議一致,表明支持向量機(jī)方法比較精確和簡單.
10.學(xué)位論文 王曉峰 SVM多類分類及其在遙感圖像中的應(yīng)用 2005
支持向量機(jī)(SVM)是在Vapnic的統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上發(fā)展起來的一種新的模式識別方法。它以結(jié)構(gòu)風(fēng)險最小化(SRM)為原則,通過實現(xiàn)確定的非線性 映射將輸入向量映射到一個高維特征空間中,然后在此高維空間中構(gòu)建最優(yōu)分類超平面。SVM在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出許多特 有的優(yōu)勢,并能夠推廣到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問題中。目前,將SVM應(yīng)用于模式識別領(lǐng)域,是當(dāng)前SVM的一個研究熱點。 最初SVM是用以解決兩類分類問題,不能直接用于多類分類。因此如何有效地將其推廣到多類分類問題還是一個正在研究的問題。當(dāng)前已經(jīng)有許多算 法將SVMs推廣到多類分類問題,這些算法統(tǒng)稱為“多類支持向量機(jī)“(Multi-category Support Vector Machimes,M-SVMs)。本文提出了一種基于編碼 二叉樹的多類支持向量機(jī)——CB-SVMs,算法舍棄了各子分類器間大量冗余信息及其較小的糾錯補(bǔ)償,合理利用了其它子分類器的分類信息,大大減少了 子分類器的數(shù)目。復(fù)雜度分析和在標(biāo)準(zhǔn)測試數(shù)據(jù)集上的計算結(jié)果表明:CB-SVMs相對其它M-SVMs,有效提高了訓(xùn)練速度和測試速度,同時具有構(gòu)造簡單、 穩(wěn)定性好的優(yōu)點。 本文最后介紹了遙感圖像分類的基本理論和算法,通過將CB-SVMs應(yīng)用到遙感圖像分類中去,表明了CB-SVMs算法具有較高的分類精度和泛化性能。 同時說明了SVM算法在遙感圖像分類方面良好的應(yīng)用前景。
本文鏈接: 授權(quán)使用:電子科技大學(xué)(cddzkjdx),授權(quán)號:c0c68a99-28fd-4bb4-a62c-9ea300eda538 下載時間:2011年3月11日
本文關(guān)鍵詞:支持向量機(jī)(SVM)及其在心電圖(ECG)分類識別中的應(yīng)用,由筆耕文化傳播整理發(fā)布。
本文編號:224174
本文鏈接:http://sikaile.net/yixuelunwen/swyx/224174.html