支持向量機(jī)(SVM)及其在心電圖(ECG)分類(lèi)識(shí)別中的應(yīng)用
本文關(guān)鍵詞:支持向量機(jī)(SVM)及其在心電圖(ECG)分類(lèi)識(shí)別中的應(yīng)用,由筆耕文化傳播整理發(fā)布。
y 1091'700
}e∞業(yè)∞∞t∞
**目一一一
四川師范大學(xué) 碩士學(xué)位論文
支持向量機(jī)(svM)及其在心電圖(ECG)分類(lèi) 識(shí)別中的應(yīng)用
唐孝
培養(yǎng)單位——塑堂與筮址拄堂一堂』L—一 指導(dǎo)教師 .職稱(chēng)——塑蠱—— 墓蟹立
々業(yè)名稱(chēng)一墾垂堂蘭撞劍逾—— 研究方
向——塵血國(guó)遲劇
論文完成日期—2業(yè)L生—衛(wèi)JL如——且——一
支持向量機(jī)(SVM)及其在心電圖(ECG)分類(lèi) 識(shí)別中的應(yīng)用
運(yùn)籌學(xué)與控制論專(zhuān)業(yè)
研究生唐孝
指導(dǎo)教師莫智文(教授)
本文研究了基于支持向量機(jī)算法的心電圖分類(lèi),創(chuàng)造性地提出了利用支持
向量機(jī)l-v-1 SVMs(One-Versus—One)算法對(duì)心電圖進(jìn)行分類(lèi)的方法。并通
過(guò)MIT—BIH心電數(shù)據(jù)庫(kù)進(jìn)行實(shí)例分析,獲得了較高的識(shí)別率,且在算法模型的
構(gòu)造和分類(lèi)速度上優(yōu)于常規(guī)方法。
在引言中介紹了論文的研究目的與意義,ECG識(shí)別的現(xiàn)狀及支持向量機(jī)的
研究進(jìn)展。 在第一章中,介紹了心電圖的常識(shí)與測(cè)量方法。
在第二章中,概要總結(jié)了統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)方法的基本理論。
在第三章中,結(jié)合支持向量機(jī)對(duì)EgG多分類(lèi)問(wèn)題進(jìn)行了研究并提出了一系
列的分類(lèi)方法和特點(diǎn)以及采用支持向量機(jī)進(jìn)行分類(lèi)的優(yōu)勢(shì)。 在第四章中,分析了各種方法的優(yōu)劣,最終選取利用支持向量機(jī)卜v—l
SVMs(One—Versus—One)算法對(duì)心電圖進(jìn)行分類(lèi).先確定了算法的模型,然后
選取合適的核函數(shù)和參數(shù),并通過(guò)MIT-BIH心電數(shù)據(jù)庫(kù)進(jìn)行了實(shí)例分類(lèi)試驗(yàn)。
最后對(duì)全文進(jìn)行了總結(jié),并指出了下一步研究的問(wèn)題與方向。 關(guān)鍵詞: 多類(lèi)分類(lèi)支持向量機(jī)心電圖分類(lèi) 特征提取
Support Vector Machine and its application in Electrocardiogram Classification
Specialty Operation Research and Cybernetics
MSC Candidate:Tang
Xiao
Supervisor:Mo
Zhiwen
This
dissertation
investigates
electrocardiogram classification based
on
Support Vector
Machine algorithm.And
this paper puts forward 1-v?1 algorithm of classification in
a
Support Vector Machine for
electrocardiogram
creative way.In
order to verify the system’S stability and creditability,We used database to test
otlr
American MIT-BIH
algorithms and won higher accuracy.it is better than normal
way in constructing algorithm model and classification speed. The purpose,meaning,current situation of ECG classification progress of SVM are concerned in foreword.
and
research
In Chapter One,the general knowledge and measure of electrocardiogram are
concelmed.
Chapter Two is to summarize the basic theory of Statistical Learning Theory
and algorithm
ofSupportVector Machine.
In Chapter Three.the problem ofmulti-classes classification ofECG link with
Support Vector advantages that
Machme is studicd.A scries of classification methods features
tls堍Support
Vector Machine to
and
elassi黟are
put forward.
Chapter Four is the
cor0
of this paper,in
which,the
advantage
at
and
disadvantage ofthe
series ofclassification methods are
analyzed.We
last choose
1.vs-l algorithm of Support Vector
Machine
for electrocardiogram classification.
First,model of the algorithm is ascertained.Then the reasonable kernel function and parameter
are
chosen.We
used American MIT-BIH database to test
our
algorithms and won
for the next study is
hi曲er accurac y.After summarizing this paper,a
presented.
new guideline
Key words:Multi?Classes Classification,Support Vector Machine,
ECG Classification,Feature Extraction
四川師范大學(xué)學(xué)位論文獨(dú)創(chuàng)性
及使用授權(quán)聲明
研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不含任何其他
個(gè)人或集體已經(jīng)發(fā)表或撰寫(xiě)過(guò)的作品或成果。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)
本人聲明:所呈交學(xué)位論文,是本人在導(dǎo)師瓣指導(dǎo)下,獨(dú)立進(jìn)行
本人承諾:已提交的學(xué)位論文電子版與論文紙本的內(nèi)容一致。如因不符而
人和集體,均已在文中以明確方式標(biāo)明。
引起的學(xué)術(shù)聲譽(yù)上的損失由本人自負(fù)。
本人同意所撰寫(xiě)學(xué)位論文的使用授權(quán)遵照學(xué)校的管理規(guī)定: 學(xué)校作為申請(qǐng)學(xué)位的條件之一,學(xué)位論文著作權(quán)擁有者須授權(quán)所在大學(xué)擁
有學(xué)位論文的部分使用權(quán),即:1)已獲學(xué)位的研究生必須按學(xué)校規(guī)定提交印
刷版和電子版學(xué)位論文,可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn) 行檢索;2)為教學(xué)和科研目的,學(xué)校可以將公開(kāi)的學(xué)位論文或解密后的學(xué)位 論文作為資料在圖書(shū)館、資料室等場(chǎng)所或在校園網(wǎng)上供校內(nèi)師生閱讀、瀏覽。
論文作者簽名:贏玄
2007年≯月夕抄日
引言
從1903年Einthoven采用弦線式電流機(jī)設(shè)計(jì)開(kāi)創(chuàng)了心電圖的臨床應(yīng)用開(kāi)
始,心電圖就成為醫(yī)生心臟疾病診斷中的一個(gè)高效的技術(shù)。通過(guò)計(jì)算機(jī)設(shè)備對(duì)
采集到的心電信號(hào)進(jìn)行分析,已經(jīng)廣泛地應(yīng)用于心臟的功能檢查、心血管疾病 的診斷與預(yù)防以及心電監(jiān)護(hù)等多方面。 QRS波群檢測(cè)是心臟病診斷和心電監(jiān)護(hù)的重要方法。在心電信號(hào)的分析中。 最為首要和關(guān)鍵的問(wèn)題是QRS波群的檢測(cè),不僅是診斷心律失常的重要依據(jù), 而且只有在確定QRS波群后,才有可能計(jì)算心律、心律變異性,檢測(cè)sT段的參
數(shù),并進(jìn)一步地檢測(cè)和分析心電的其他細(xì)節(jié)信息,才能對(duì)其進(jìn)行分類(lèi)等操作。 對(duì)QRS波群檢測(cè)方法的研究已有不少學(xué)者做了大量工作,但他們至今在某 方面還不完善,特別是在干擾嚴(yán)重或非典型R波等情況下檢測(cè)錯(cuò)誤率較大。由 于采集信號(hào)時(shí)位置、大小的不同和心臟的解剖性質(zhì),讓心電圖即使對(duì)同一個(gè)正 常人也具有高度的可變性:同時(shí),心電信號(hào)向體表傳導(dǎo)的不同方式也起著重要
的影響作用。由于ECG表現(xiàn)出來(lái)的這些巨大的變化,使得運(yùn)用這個(gè)工具進(jìn)行診 斷具有很強(qiáng)的直覺(jué)性和主觀性,因此對(duì)ECG模式的解釋變得非常困難。 早期的心電監(jiān)護(hù)系統(tǒng)由于其自身的限制,需要護(hù)理人員人工進(jìn)行長(zhǎng)時(shí)間地
觀察,往往會(huì)使護(hù)理人員因?yàn)橐暳ζ诤妥⒁饬Ψ稚⒃斐陕z。五十年代末以 來(lái),隨著計(jì)算機(jī)的發(fā)展,人們開(kāi)始了對(duì)心電自動(dòng)分析技術(shù)的研究。1959年
Piberger等人完成了一個(gè)可以區(qū)分正常和異常心電圖的程序,并于1961年首
先研究出導(dǎo)聯(lián)心電圖分析程序。六十年代初,Caseres驗(yàn)證了用計(jì)算機(jī)進(jìn)行常 規(guī)12導(dǎo)聯(lián)ECG分析的可能性,開(kāi)發(fā)了利用測(cè)得的平均ECG參數(shù)進(jìn)行波形模式識(shí) 別的程序。經(jīng)過(guò)許多人的努力,到了七十年代后期,微處理器技術(shù)的高度發(fā)展更 加促進(jìn)了心電自動(dòng)分析技術(shù)的研究。裝配了微處理器的心電自動(dòng)分析裝置大大 提高了心電數(shù)據(jù)處理的速度和一致性,并增加了心律監(jiān)護(hù)的種類(lèi),提高了準(zhǔn)確
率。
目前常用的QRS波群的檢測(cè)方法主要集中在幾個(gè)方面:濾波器法、模板匹 配法、小波分析法、濾波器組法、神經(jīng)網(wǎng)絡(luò)法等,還有幅度法、低斜率法和面 積法。QRS波的檢測(cè)算法檢測(cè)率比較高,但由于噪聲污染和一些病理波形,檢測(cè)
率仍不盡人意,尚有很多工作可做。肌電干擾,基線漂移,工頻干擾是心電信號(hào)
中噪聲的主要原因,很難徹底去除,混雜這些干擾的心電圖在實(shí)際中很普遍,若 能去除這些干擾,就能在很大程度上提高QRS波的檢測(cè)率。 心電圖分析是檢測(cè)出心電周期中的各波形,然后進(jìn)行模式分類(lèi)的過(guò)程.對(duì) 檢測(cè)出的特征進(jìn)行直接的應(yīng)用,就是對(duì)這些特征進(jìn)行分類(lèi),判斷出心電圖中所 包含的病理特征,從而幫助進(jìn)行疾病監(jiān)控與功能檢測(cè)。 目前常用的分類(lèi)方法有:多元統(tǒng)計(jì)、模糊邏輯、神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、Bayes
分類(lèi)、K近鄰分類(lèi)、專(zhuān)家系統(tǒng)等方法。從80年代后期開(kāi)始,由于神經(jīng)網(wǎng)絡(luò)技術(shù) 的發(fā)展,神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)的功能、抗干擾及解決復(fù)雜問(wèn)題的能力,引起醫(yī)學(xué)技
術(shù)領(lǐng)域的注意。Tsai等用ECG波形的功率譜密度函數(shù)PSD訓(xùn)練三層網(wǎng)絡(luò)來(lái)識(shí)
別5種不同的ECG類(lèi)型.訓(xùn)練好的網(wǎng)絡(luò)識(shí)別正確率達(dá)到92.5%。Dokur、Olmez 等設(shè)計(jì)了一種混合神經(jīng)網(wǎng)絡(luò)。并采用遺傳算法對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整。近年來(lái), 國(guó)內(nèi)許多專(zhuān)家學(xué)者也對(duì)神經(jīng)網(wǎng)絡(luò)用于心電分類(lèi)進(jìn)行了研究,特別是王繼成、呂 維雪等設(shè)計(jì)了一系列神經(jīng)網(wǎng)絡(luò)方法進(jìn)行了分類(lèi)研究,包括模糊神經(jīng)網(wǎng)絡(luò)、回歸
神經(jīng)網(wǎng)絡(luò)、符號(hào)神經(jīng)網(wǎng)絡(luò)等,取得了較好的結(jié)果,分類(lèi)正確率大致控制在60%到 98%之間。 V.Vapnik等人早在20世紀(jì)60年代就開(kāi)始研究小樣本情況下的機(jī)器學(xué)習(xí)
問(wèn)題。。3。當(dāng)時(shí)這方面的研究尚不十分完善,且數(shù)學(xué)上比較艱澀,大多數(shù)人難
以理解和接受,直到90年代以前還沒(méi)有能夠提出將其理論付諸實(shí)現(xiàn)的方法。 加之當(dāng)時(shí)正處在其他學(xué)習(xí)方法飛速發(fā)展的時(shí)期,因此這方面的研究一直沒(méi)有得 到足夠的重視。直到90年代中期,小樣本下的機(jī)器學(xué)習(xí)理論研究逐漸成熟起
來(lái),形成了較完善的理論體系——統(tǒng)計(jì)學(xué)習(xí)理論(Statistical
Learning
Theory)。而同時(shí),神經(jīng)網(wǎng)絡(luò)等新興的機(jī)器學(xué)習(xí)方法的研究則遇到了前所未有 的困難陽(yáng)】。在這種情況下,試圖從更本質(zhì)上研究機(jī)器學(xué)習(xí)問(wèn)題的統(tǒng)計(jì)學(xué)習(xí)理
論逐步得到重視。
統(tǒng)計(jì)學(xué)習(xí)理論是建立在堅(jiān)實(shí)的理論基礎(chǔ)之上的,為解決小樣本學(xué)習(xí)問(wèn)題提
供了統(tǒng)一的框架。統(tǒng)計(jì)學(xué)習(xí)理論的核心是vc維與結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論,它用 VC維來(lái)描述學(xué)習(xí)機(jī)器的復(fù)雜度,并以此為出發(fā)點(diǎn)導(dǎo)出了學(xué)習(xí)機(jī)器推廣能力的 界的理論。該理論致力于尋找在小樣本情況下學(xué)習(xí)問(wèn)題的最優(yōu)解,而不需要樣 本數(shù)趨于無(wú)窮大的漸進(jìn)性條件。這使得統(tǒng)計(jì)學(xué)習(xí)理論在小樣本情況下同樣能得
到具有推廣價(jià)值的知識(shí)。
1992年至1995年,在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出了一種新型的學(xué)習(xí)機(jī) 器——支持向量機(jī)(Support
Vector
Machine簡(jiǎn)稱(chēng)sⅧ)。支持向量機(jī)是建立
在統(tǒng)計(jì)學(xué)習(xí)理論的vC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,根據(jù)有限的樣本 信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以期獲得最好的推廣能 力。支持向量杌被看作是對(duì)傳統(tǒng)分類(lèi)器的一個(gè)好的發(fā)展,在解決小樣本、非線 性和高維的機(jī)器學(xué)習(xí)問(wèn)題中表現(xiàn)出了許多特有的優(yōu)勢(shì)。 SVM方法是由Vapnik及其合作者Boser、Guyon、Cortes及Scholkopf在
AT&T
Bell實(shí)驗(yàn)室共同創(chuàng)造與發(fā)展起來(lái)的一種新方法‘州。近年來(lái),許多關(guān)于
SVM方法的研究,包括算法本身的改進(jìn)和算法的實(shí)際應(yīng)用,都陸續(xù)提了出來(lái)。 其中在理論上主要以Vapnik及其研究小組做了大量開(kāi)創(chuàng)性及奠基性的工作
(g-lO]
o
目前,S%f方法在模式識(shí)別、回歸估計(jì)、概率密度函數(shù)估計(jì)等方面得到了
廣泛的應(yīng)用!簦簦保常。例如,在模式識(shí)別方面,手寫(xiě)字體識(shí)別,語(yǔ)音識(shí)別,面部 檢測(cè),文本識(shí)別等應(yīng)用“’”1,SⅧ方法在精度上已經(jīng)超過(guò)傳統(tǒng)的學(xué)習(xí)算法。如 Pontil等人將SVM應(yīng)用與三維物體的識(shí)別“”,Fukuda及ZhaoQun等人利用SvM 進(jìn)行SAR自動(dòng)目標(biāo)的識(shí)別“”,Kim等對(duì)紋理圖像進(jìn)行了有監(jiān)督分割啪1。SVM在 醫(yī)學(xué)圖像分割中的應(yīng)用,如Issan等人利用SVM分類(lèi)器從超聲圖像中識(shí)別病變
組織““,Mangasarian等利用鈴SVM進(jìn)行了乳腺癌的識(shí)別與診斷!。
隨著SVM理論的逐步完善,應(yīng)用越來(lái)越廣泛,這幾年SVM在國(guó)內(nèi)越來(lái)越受 到重視。國(guó)內(nèi)主要以張鈸,張學(xué)工等一批在SVM理論上做了一些研究,當(dāng)然大 部分學(xué)者還是以應(yīng)用為主,或針對(duì)SVl4中的不足之處進(jìn)行改進(jìn),或?qū)ⅲ樱郑团c其 它方法進(jìn)行綜合應(yīng)用。
第一章心電圖常識(shí)與測(cè)量
心臟機(jī)械收縮之前。心肌先產(chǎn)生電激動(dòng)。這種電流能通過(guò)組織和體液傳導(dǎo) 至體表。在身體不同部位的表面形成電位差,將這種變動(dòng)的電位差用心電圖機(jī)
紀(jì)錄下來(lái)即為心電圖(E1ectrocardiograph,簡(jiǎn)稱(chēng)ECG)淵。
1.1常規(guī)心電圖
常規(guī)心電圖是從體表觀察心臟生物電活動(dòng)的無(wú)創(chuàng)性檢查技術(shù)。每次心臟搏 動(dòng),包括心房和心室的順序機(jī)械性收縮和舒張,稱(chēng)為一個(gè)心動(dòng)周期。與機(jī)械運(yùn)
動(dòng)相對(duì)應(yīng)的心電活動(dòng),包括心房和心室的電收縮期(除極和復(fù)極)和舒張期(靜
息期),構(gòu)成一個(gè)心電周期。心臟的電活動(dòng)發(fā)生在機(jī)械運(yùn)動(dòng)之前,先有電的興 奮激動(dòng),后有機(jī)械收縮運(yùn)動(dòng),它們之間有一部分時(shí)間重疊,是“電(興奮)一機(jī) 械(收縮)耦聯(lián)”關(guān)系。心臟的電激動(dòng)過(guò)程影響著全身各個(gè)部位,使體表的不同 部位發(fā)生了電位差,產(chǎn)生了電動(dòng)力。在心電周期的整個(gè)過(guò)程中,此電位差也在 不間斷地變動(dòng)。通過(guò)心電圖機(jī)把這變動(dòng)的電位差記錄成曲線,就是心電圖。
1.2常規(guī)導(dǎo)聯(lián)系統(tǒng)
常規(guī)心電圖的獲得離不開(kāi)導(dǎo)聯(lián)系統(tǒng)。導(dǎo)聯(lián)就是在人體表而任何兩點(diǎn)放置兩 個(gè)電極,將導(dǎo)線與心電圖儀的正輸入端與負(fù)輸入端相連,從而描記出這兩點(diǎn)聞 的心電電位差變化,電極放置的部位不同,可組成各種導(dǎo)聯(lián)。目前,在臨床實(shí) 踐中通常采用“12導(dǎo)聯(lián)系統(tǒng)”進(jìn)行心電檢測(cè)。下面首先對(duì)12導(dǎo)聯(lián)系統(tǒng)進(jìn)行說(shuō)
明。
1、雙極標(biāo)準(zhǔn)肢體導(dǎo)聯(lián)
共三個(gè)電極,組成三個(gè)導(dǎo)聯(lián)(I、II、III)(如圖L l所示),反映的是兩個(gè) 肢體問(wèn)的電位差。例如:在導(dǎo)聯(lián)I,當(dāng)左上肢(接正極)電位高于右上肢(接負(fù)極) 時(shí),記錄得正電壓,即向上的波;反之則記錄得負(fù)電壓,即向下的波。以下各
導(dǎo)聯(lián)依此類(lèi)推。 導(dǎo)聯(lián)I:左上肢接正極,右上肢接負(fù)極。
4
導(dǎo)聯(lián)II:左下肢接正極,右上肢接負(fù)極。
導(dǎo)聯(lián)III:左下肢接正極,左上肢接負(fù)極。
健?健-惱
輔l 硎l
圖1.1雙極肢導(dǎo)聯(lián)的連接法
2、加壓?jiǎn)螛O肢體導(dǎo)聯(lián)(如圖1.2)
可以比較“單純”地反映不同肢體電極所在部位心臟電激動(dòng)的情況。
aVR導(dǎo)聯(lián):右上肢連接正極,左上肢和左下肢共同連接負(fù)極。
“L導(dǎo)聯(lián):左上肢連接正極,右下肢和左下肢共同連接負(fù)極。
aVF導(dǎo)聯(lián):左下肢連接正極,左上肢和右上肢共同連接負(fù)極。
呤伊誕
●VR -VL-Vr
圖1.2加壓?jiǎn)螛O肢導(dǎo)聯(lián)的連接法
3、單極胸導(dǎo)聯(lián)
將中心電端(接近零電位)連接負(fù)極,把連接正極的探查電極安放在心前區(qū) 不同的位置。胸導(dǎo)聯(lián)的電極距離心臟較近,受到面對(duì)的那部分心肌的局部電位 影響較為明顯,所以胸導(dǎo)聯(lián)除了一般地反映心臟電激動(dòng)的綜合心電向量以外, 電極面對(duì)的那部分心肌所給予的局部電位影響也不容忽視(如圖1.3、1.4).
圖1.3單極胸導(dǎo)聯(lián)的連接法
圖1.4胸導(dǎo)聯(lián)探察電極位置
K:胸骨右緣第4肋間。 巧:在圪與圪連線之中點(diǎn)。
圪:胸骨左緣第4肋間。 ■:左第5肋間鎖骨中線處?
以:左腋前線上與K同一水平。圪:左腋中線上與■,K同一水平。
常規(guī)心電圖是由一系列“波組”構(gòu)成的曲線圖,如圖1.5所示。
圖1.5典型心電圖
P波:代表左右心房的除極過(guò)程。其起點(diǎn)表示從竇房結(jié)發(fā)出的電激動(dòng)己到 心房,使心房開(kāi)始除極:其終點(diǎn)表示兩心房全部除極完畢。P波波頂圓鈍、光
心房,使心房開(kāi)始除極;其終點(diǎn)表示兩心房全部除極完畢。P波波頂圓鈍、光
滑、有時(shí)可能有小切跡,但應(yīng)(O.04秒。P波的整個(gè)時(shí)間應(yīng)(0.11秒,其肢導(dǎo) 聯(lián)振幅<0.25毫伏,胸導(dǎo)聯(lián)直立振幅應(yīng)<O.15毫伏。 P-R間期:自心房開(kāi)始除極至心室開(kāi)始除極的間隔時(shí)間。代表從竇房結(jié)發(fā) 出的電激動(dòng)經(jīng)結(jié)間束激動(dòng)心房后由房室交界區(qū)、房室束、束支及蒲肯野纖維到 達(dá)心室,使心室開(kāi)始除極。PR問(wèn)期正常值范圍一般為0.12—0,20秒。
P-R段:相當(dāng)于激動(dòng)通過(guò)房室結(jié)及房室束的總時(shí)間(亦即P波終點(diǎn)到R波或
Q波起點(diǎn)這一節(jié)段)。其起點(diǎn)表示心房除極完畢,其終點(diǎn)表示心室除極開(kāi)始。 心電圖上描出的為一等位線,在這段中可埋藏著心房復(fù)極波—Ta波,多被ORS
波所覆蓋。
QRS波群:反映左、右心室除極的全過(guò)程。典型的ORS波群,包括3個(gè)緊 密相連的波:第1個(gè)向下的波稱(chēng)為Q(或q)波;第1個(gè)向上的波稱(chēng)為R(或r波);
以后向下的波稱(chēng)為S(或s波)。s波以后向上的波稱(chēng)為R’(或,’)波;R’波后向
下的波稱(chēng)為S’(或J’)波,依此類(lèi)推。如果僅有向下的波稱(chēng)為Qs波。ORS波群 中振幅較大的波用Q,R,S分別代表,振幅較小的波用q’r,s分別代表。QRS
時(shí)限代表心室除極所需時(shí)間,正常為0.06—0.10秒。 sT段:代表心室除極終了到心室復(fù)極開(kāi)始在體表產(chǎn)生電位差以前的一短 暫瞬間。正常人在等位線上,但亦可輕度偏移。
T波:反映心室復(fù)極過(guò)程產(chǎn)生的電位變化,又稱(chēng)心室復(fù)極波。一般其間期
為0.05-0.25秒,振幅愈高,間期愈長(zhǎng)。
鏟T間期:從ORS波起始至T波終末的時(shí)間。代表心室除極和復(fù)極的總時(shí) 間(即心室的電收縮時(shí)間),與心率快慢有關(guān)。其一般值為0.39+0.04秒。 U波:又稱(chēng)后電位,一般認(rèn)為是心室舒張的機(jī)械佳結(jié)果,由心室牽張時(shí)形 成的后電位產(chǎn)生。亦有認(rèn)為與心肌傳導(dǎo)纖維或乳頭肌的復(fù)極有關(guān)。其振幅為 0.05—0.2毫伏,寬度<O.27秒. TP段:代表心室的電收縮期(除極與復(fù)極)完畢到下一個(gè)心電周期心房開(kāi) 始除極的時(shí)間。此段為心室的電舒張期(靜止期),處于心電圖等位線上。 圖1.6給出了一組正常人的十二導(dǎo)聯(lián)常規(guī)心電圖。
7
.~』,乙j,’一三,^—I/.一j,‘—■^—0,、—-,j—^l九
。。j八立,.j。。土九.3。立人j^工,、。^幾.
橢.k—J.—匕一曼/o—J√L—a一,L—J■,、—~L^—^0^—^L~....L^。一
.o.....。t,,—..J.,....上.!蓿希剩獭,!摺弧辏慌
。k。,p、.~,j,,4
”111葉葉111葉一
}i
l
”j..f4…i,! f i
九隊(duì)一毒’ 一璣Ⅺ、、◇V,.過(guò)&。趴。
。L執(zhí)少 b∑∑∑心∑jjb。
l
兒^iA.L上一且一且.厶一^l乙^i九h一
圖1.6正常人的12導(dǎo)聯(lián)常規(guī)心電圖
1.3心電圖的測(cè)量
記錄心電圖是在印有縱橫細(xì)軸方格坐標(biāo)紙上直接描記。橫向坐標(biāo)表示時(shí) 間,以秒為單位。當(dāng)記錄紙速為25毫米/秒時(shí),豎分格l毫末=0.04秒?v向
坐標(biāo)表示電壓,以毫伏為單位。當(dāng)心電圖機(jī)定準(zhǔn)電壓為10毫米/毫伏時(shí),橫分 格1毫米=O.1毫伏。
對(duì)心電圖進(jìn)行測(cè)量時(shí),波幅的大小以毫伏為單位計(jì)算,時(shí)間寬度以秒為單
位計(jì)算。 電壓(振幅):測(cè)量向上的振幅時(shí),從基線的上緣量至波峰頂進(jìn)行計(jì)算;
測(cè)量向下的波幅時(shí),從基線的下緣至波底進(jìn)行計(jì)算。 ST段移位時(shí),以相鄰的兩個(gè)P-Q段作為基線和S-T段相比較進(jìn)行測(cè)量。 S—T段高于P—Q段基線為S_T段上升,S-T段低于P-Q段基線為S—T段下降。
測(cè)量時(shí),以P-Q段基線的上緣和S1段基線的上緣相比較計(jì)算,或以p-Q段基
線的下緣和S—T段基線的下緣相比較計(jì)算。
時(shí)間(寬度):選擇波形比較清晰的導(dǎo)聯(lián),從波的起始至全波的終末進(jìn)行
測(cè)量。
心率:測(cè)量p-p或R—R間隔,代表一個(gè)心臟激動(dòng)周期的時(shí)間,每分鐘心房
或心室率按下列公式計(jì)算;
每分鐘心率=萬(wàn)j兩壓三茜麗
P波:從P波的起始量至P波的終末,P波是QRS波群前面的一個(gè)比較顯
著的波。
QRS波群:如有Q波即從Q波的起始量至QRS波群的最后一個(gè)波的終末, 如沒(méi)有Q波就從R波的起始量至QRS波群的最后一個(gè)波的終末。ORS波即是心 電周期中最高、最陡峭、最尖銳,總之是最顯著的波。 T波:從1.波的起始量至,F波的終末。T波是ORS波群后面的一個(gè)比較顯
著的波。
P-R見(jiàn)期:自P波的開(kāi)始量至ORS的開(kāi)始。如果QRS波群最初為Q波,即
從P波的開(kāi)始量至Q波的開(kāi)始。如果ORS波群沒(méi)有Q波,即從P波的開(kāi)始量至 R波的開(kāi)始。
Q.T見(jiàn)期:自QRS波群的開(kāi)始量至T波的終末。如果QRS波群有Q波,就 從Q波的開(kāi)始測(cè)量:如果QRS波群沒(méi)有Q波,就從R波開(kāi)始測(cè)量。 VAT:室壁激動(dòng)時(shí)間,是心室肌至內(nèi)壁向外壁進(jìn)行除極所需要的時(shí)間,在 心電圖中是指自QRS波的開(kāi)始至R波的頂峰點(diǎn)所經(jīng)歷的時(shí)間.測(cè)量時(shí),從Q 波(如無(wú)Q波則從R波開(kāi)始)的起點(diǎn)劃一條垂直線,再?gòu)模也ǖ捻旤c(diǎn)劃一條垂
直線,兩垂直直線之間的寬度即為“室壁激動(dòng)時(shí)間”。
通常,P、T波形比起QRS波群來(lái)要平滑的多,P波、QRS波群、T波的交 替出現(xiàn)就構(gòu)成了整個(gè)心電周期。如果心電圖出現(xiàn)異常,將會(huì)出現(xiàn)更復(fù)雜的心電
圖,是計(jì)算機(jī)自動(dòng)分析出現(xiàn)困難。
由于生理或病例原因,可以引起波形出現(xiàn)各種各樣的變換,其中以QRS
波群改變最多。
9
當(dāng)然,心電圖只是一種協(xié)助診斷工具,同一種疾病可有不同類(lèi)型的心電圖
變化,而不同的疾病有相似的心電圖表現(xiàn)。
lO
第二章統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)
2.1
機(jī)器學(xué)習(xí)的基本問(wèn)題
2.1.I傳統(tǒng)學(xué)習(xí)理論的困難
機(jī)器學(xué)習(xí)從本質(zhì)上來(lái)說(shuō)就是建立輸入模式空間與輸出模式空間的函數(shù)映 射關(guān)系,通常把表達(dá)這種映射關(guān)系的函數(shù)統(tǒng)稱(chēng)為學(xué)習(xí)機(jī)器。學(xué)習(xí)機(jī)器最主要的 性能是其學(xué)習(xí)能力和推廣能力。所謂學(xué)習(xí)能力是指學(xué)習(xí)機(jī)器調(diào)整其自身參數(shù)使
之適應(yīng)訓(xùn)練樣本集的能力。推廣能力是指學(xué)習(xí)機(jī)器從當(dāng)前訓(xùn)練樣本上學(xué)到的知
識(shí)(映射關(guān)系)的普遍性能力。
(1)小樣本問(wèn)題
傳統(tǒng)統(tǒng)計(jì)學(xué)主要研究漸迸理論,即當(dāng)訓(xùn)練樣本數(shù)趨向無(wú)窮大時(shí)的解決方 案。但是在實(shí)際問(wèn)題中,可用的樣本數(shù)通常是有限的,因此漸進(jìn)性的前提條件 往往得不到滿(mǎn)足。這是包括參數(shù)估計(jì)和神經(jīng)網(wǎng)絡(luò)等在內(nèi)的學(xué)習(xí)機(jī)器的一個(gè)根本 問(wèn)題。在所有問(wèn)題中,這類(lèi)學(xué)習(xí)機(jī)器所遇到的問(wèn)題基本上都可以歸結(jié)到漸進(jìn)性 前提。在所有問(wèn)題中,最直接的就是小樣本問(wèn)題。傳統(tǒng)統(tǒng)計(jì)學(xué)應(yīng)用經(jīng)驗(yàn)風(fēng)險(xiǎn)最 小化原則來(lái)優(yōu)化學(xué)習(xí)機(jī)的參數(shù)。但是理論表明,經(jīng)驗(yàn)風(fēng)險(xiǎn)與實(shí)際之間具有一定 的差異。在小樣本情況下,這種差異尤其明顯。由于訓(xùn)練樣本數(shù)的限制,基于 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則的學(xué)習(xí)機(jī)器在實(shí)際應(yīng)用中普遍存在推廣能力不足的問(wèn)題。 工程實(shí)際中,對(duì)解決小樣本學(xué)習(xí)問(wèn)題的有效方案有著迫切的需求。例如,在心 電圖分析中,對(duì)于疾病分類(lèi)在實(shí)際過(guò)程中很難獲得,往往只能專(zhuān)家通過(guò)交互式 的方式手工得到。在這種情況下,通過(guò)基于漸進(jìn)性分析的學(xué)習(xí)機(jī)器就很難得到
有價(jià)值的、具有推廣意義的知識(shí)。 (2)高維問(wèn)題
傳統(tǒng)的學(xué)習(xí)機(jī)器在高維情況下往往不能正常工作。比如神經(jīng)網(wǎng)絡(luò),當(dāng)訓(xùn)練 樣本維數(shù)很高時(shí),神經(jīng)網(wǎng)絡(luò)的測(cè)試和訓(xùn)練結(jié)果可能會(huì)出現(xiàn)較大的隨機(jī)性,究其
原因,首先,神經(jīng)網(wǎng)絡(luò)(例如BP網(wǎng)絡(luò))的解往往收斂于局部極值,由于在高
維空間中可能存在眾多的局部極值,不同局部極值存在較大的差異,因此神經(jīng) 網(wǎng)絡(luò)的解必然呈現(xiàn)隨機(jī)性。其次,‘高維問(wèn)題與小樣本問(wèn)題是緊密聯(lián)系的,樣本 數(shù)的多少是相對(duì)的,比如,在低維空間中,只要很少數(shù)量的樣本就可以比較充
分的描述整個(gè)樣本空間。而在高維空問(wèn)中,為了同樣程度的描述樣本空間,所 需要的樣本數(shù)以指數(shù)形式增長(zhǎng)。另在運(yùn)算方面,當(dāng)特征空間的維數(shù)增大時(shí),神 經(jīng)網(wǎng)絡(luò)的運(yùn)算量將急劇增長(zhǎng),從而使訓(xùn)練和測(cè)試過(guò)程非常慢。因此,傳統(tǒng)學(xué)習(xí)
機(jī)器在實(shí)際的應(yīng)用中,通常需要特征約筒,將數(shù)據(jù)壓縮到較低維的空間中,才 能有效地進(jìn)行學(xué)習(xí)。 (3)局部極值問(wèn)題 傳統(tǒng)學(xué)習(xí)機(jī)器的優(yōu)化過(guò)程容易出現(xiàn)陷入局部極值的問(wèn)題。如神經(jīng)網(wǎng)絡(luò)最常 見(jiàn)的優(yōu)化方法是梯度修正算法。梯度修正算法本身只保證找到目標(biāo)函數(shù)的局部 極值,同時(shí)局部極值逼近全局最優(yōu)解的程度并沒(méi)有理論上的保證。當(dāng)然,有些 設(shè)計(jì)者設(shè)計(jì)了可以跳出局部極值的算法,雖然在實(shí)際應(yīng)用中取得了較好的結(jié)
果,但是仍然很難得到全局最優(yōu)。
與傳統(tǒng)統(tǒng)計(jì)學(xué)相比,統(tǒng)計(jì)學(xué)習(xí)理論(Statistical
Learning
Theory或SLT)
是一種專(zhuān)門(mén)研究小樣本情況下機(jī)器學(xué)習(xí)規(guī)律的理論。該理論針對(duì)小樣本統(tǒng)計(jì)問(wèn) 題建立了一套新的理論體系,這種體系下的統(tǒng)計(jì)推理規(guī)則不僅考慮了對(duì)漸進(jìn)性 能的要求,而且追求在現(xiàn)有有限信息的條件下得到最優(yōu)結(jié)果。V.Vapnik等人 從六、七十年代開(kāi)始致力于此方面研究,到九十年代中期,隨著其理論的發(fā)展
和成熟,也由于神經(jīng)網(wǎng)絡(luò)等學(xué)習(xí)方法在理論上缺乏實(shí)質(zhì)性的進(jìn)展,統(tǒng)計(jì)學(xué)習(xí)理
論開(kāi)始受到越來(lái)越廣泛地重視。同時(shí),在這一理論基礎(chǔ)上發(fā)展了一種新的通用
學(xué)習(xí)方法——支持向量機(jī)(Support
Vector
Machine或SVM),已初步表現(xiàn)出
很多優(yōu)于各種傳統(tǒng)方法的性能。目前,統(tǒng)計(jì)學(xué)習(xí)理論和支持向量機(jī)已經(jīng)成為國(guó) 際上機(jī)器學(xué)習(xí)領(lǐng)域新的研究熱點(diǎn)。本章將對(duì)其基本理論進(jìn)行概要地介紹。
2.1.2機(jī)器學(xué)習(xí)問(wèn)題的描述 機(jī)器學(xué)習(xí)問(wèn)題可以看作是,通過(guò)某種訓(xùn)練方法,對(duì)某一系統(tǒng)的輸入與輸出
之間的依賴(lài)關(guān)系進(jìn)行估計(jì),并且期望這一估計(jì)可以對(duì)任意給定輸入盡量準(zhǔn)確地 進(jìn)行輸出預(yù)測(cè)‘””。 假設(shè)變量y與x之間存在一定的未知依賴(lài)關(guān)系,即遵循某一未知的聯(lián)合概 率,F(x,y),(x和y之闐的確定性關(guān)系可以看作是其特例),機(jī)器學(xué)習(xí)闖題就
12
是根據(jù)r1個(gè)獨(dú)立同分布觀測(cè)樣本(‘,M),(屯,y2),...,(矗,只),在一組函數(shù)
{/U,。曛星蟪鲆粋(gè)最優(yōu)的函數(shù),(x,%)對(duì)依賴(lài)關(guān)系迸行估計(jì),使期望風(fēng)險(xiǎn)
R(m)=p(乃廠(石,腳))d。疲ㄅc力
(2—1)
最小?其中,{f(x,∞)l稱(chēng)作預(yù)測(cè)函數(shù)集,。牛餅楹瘮(shù)的廣義參數(shù),L(y,f(x,腳))
為由于用f(x,∞)對(duì)Y進(jìn)行預(yù)測(cè)而造成的損失。不同類(lèi)型的學(xué)習(xí)問(wèn)題有不同形 式的損失函數(shù)。預(yù)測(cè)函數(shù)也稱(chēng)做學(xué)習(xí)函數(shù)、學(xué)習(xí)模型或?qū)W習(xí)機(jī)器。 例如,對(duì)模式識(shí)別問(wèn)題,系統(tǒng)給出Y是類(lèi)別標(biāo)號(hào)。兩類(lèi)分類(lèi)情況下Y={o’1)
或{一1,1}是二值函數(shù),預(yù)測(cè)函數(shù)稱(chēng)作指示函數(shù),損失函數(shù)可以定義為:
洲刪={:}臻鬈:
使式(2-1)中的期望風(fēng)險(xiǎn)最小就是Bayes決策中使錯(cuò)誤率最小。 2.1.3經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化
∞,
在上面的問(wèn)題表述中,學(xué)習(xí)的目標(biāo)在于使期望風(fēng)險(xiǎn)最小化,要計(jì)算式(2一1) 中的期望風(fēng)險(xiǎn),必須依賴(lài)關(guān)于聯(lián)合概率的信息F(x,y)的信息,在模式識(shí)別中 就是必須已知類(lèi)先驗(yàn)概率和類(lèi)條件概率密度。但是,由于我們可以利用的信息
只有有限的樣本,式(2-1)中的期望風(fēng)險(xiǎn)無(wú)法宣接計(jì)算和最小化。因此傳統(tǒng)的 學(xué)習(xí)方法中采用了所謂經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則,即用有限的樣本定義經(jīng)驗(yàn)風(fēng)險(xiǎn):
R。=吉喜地,胞,硼(2-3)
來(lái)逼近式(3—1)定義的期望風(fēng)險(xiǎn),用對(duì)參數(shù)腳求經(jīng)驗(yàn)風(fēng)險(xiǎn)R。,(功的最小值代替 求期望風(fēng)險(xiǎn)月如)的最小化,就是所謂的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則.
事實(shí)上,用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則代替期望風(fēng)險(xiǎn)最小化沒(méi)有經(jīng)過(guò)充分的理論
論證,只是直觀上合理的想當(dāng)然做法,但這種方法卻在多年的機(jī)器學(xué)習(xí)方法研 究中占據(jù)了主要地位。人們多年來(lái)將大部分注意力集中到如何更好地對(duì)經(jīng)驗(yàn)風(fēng) 險(xiǎn)最小化。而實(shí)際上,即使可以假定,當(dāng)n趨向于無(wú)窮大時(shí),式(2.3)趨進(jìn)于
式(2-1),而在很多實(shí)際問(wèn)題中,樣本數(shù)目也離無(wú)窮大相去甚遠(yuǎn),那么在有限 樣本情況下,采用最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)準(zhǔn)則,得到的結(jié)果能使真實(shí)風(fēng)險(xiǎn)也最小嗎?
要得到這個(gè)答案,需要了解統(tǒng)計(jì)學(xué)習(xí)理論對(duì)采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則解決期望
風(fēng)險(xiǎn)最小化問(wèn)題的前提,如果這些前提不成立時(shí),需要找到更合理的準(zhǔn)則。
3.1.4模型復(fù)雜度與推廣能力
人們將學(xué)習(xí)機(jī)器對(duì)未來(lái)輸出進(jìn)行正確預(yù)測(cè)的能力稱(chēng)作推廣能力。在傳統(tǒng)學(xué)
習(xí)理論中,人們總是把注意力集中到如何使經(jīng)驗(yàn)風(fēng)險(xiǎn)最小,但是一味追求訓(xùn)練
誤差小并不能得到好的預(yù)測(cè)效果。在某些情況下。訓(xùn)練誤差過(guò)小。反而會(huì)導(dǎo)致
推廣能力的下降,即真實(shí)風(fēng)險(xiǎn)的增加,這是神經(jīng)網(wǎng)絡(luò)中的過(guò)學(xué)習(xí)問(wèn)題。之所以
出現(xiàn)過(guò)學(xué)習(xí)現(xiàn)象,一是因?yàn)閷W(xué)習(xí)樣本不充分,二是學(xué)習(xí)機(jī)器設(shè)計(jì)不合理。理論 表明,經(jīng)驗(yàn)風(fēng)險(xiǎn)與期望風(fēng)險(xiǎn)之間具有一定的差異,在小樣本情況下,這種差異 尤其明顯。由于訓(xùn)練樣本數(shù)的限制,基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則的學(xué)習(xí)機(jī)器在實(shí)
際應(yīng)用中普遍存在推廣能力不足的問(wèn)題。 究其原因,是試圖用~個(gè)十分復(fù)雜的模型去擬合有限的樣本,導(dǎo)致喪失了
推廣能力。在神經(jīng)網(wǎng)絡(luò)方法中,若對(duì)有限的樣本來(lái)說(shuō)網(wǎng)絡(luò)學(xué)習(xí)能力過(guò)強(qiáng),足以 記住每個(gè)樣本,此時(shí)經(jīng)驗(yàn)風(fēng)險(xiǎn)很快就可以收斂到很小甚至零,但卻根本無(wú)法保
證它對(duì)未來(lái)樣本能給出好的預(yù)測(cè)。學(xué)習(xí)機(jī)器的復(fù)雜性與推廣性之間的這種矛盾 同樣可以在其它學(xué)習(xí)方法中看到。
由此可看出,1)經(jīng)驗(yàn)風(fēng)險(xiǎn)對(duì)學(xué)習(xí)機(jī)器的性能有一定的影響,但不起決定 作用。經(jīng)驗(yàn)風(fēng)險(xiǎn)最小并不一定意味著期望風(fēng)險(xiǎn)最小;2)復(fù)雜度高的學(xué)習(xí)機(jī)器, 往往具有較低的經(jīng)驗(yàn)風(fēng)險(xiǎn)。因此,經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則的結(jié)果,將使學(xué)習(xí)機(jī)器 變得越來(lái)越復(fù)雜。3)學(xué)習(xí)機(jī)器的復(fù)雜度對(duì)其性能有較大的影響,學(xué)習(xí)機(jī)器的 復(fù)雜性不但與所研究的系統(tǒng)有關(guān),而且與有限數(shù)目的樣本相適應(yīng)。
14
因此。如何根據(jù)實(shí)際問(wèn)題。在學(xué)習(xí)機(jī)器的經(jīng)驗(yàn)風(fēng)險(xiǎn)與模型復(fù)雜度之間取得
合理的折衷,從而使機(jī)器學(xué)習(xí)具有更高的推廣能力,需要一種能夠指導(dǎo)我們?cè)?小樣本情況下建立有效的學(xué)習(xí)和推廣方法的理論。
2.2統(tǒng)計(jì)學(xué)習(xí)理論
2.2.1學(xué)習(xí)機(jī)器的vc維
為了描述學(xué)習(xí)機(jī)器的容量。Vapnik和Chervonenko提出了vc維概念
(Vapnik—Chervonenko Dimension)。
模式識(shí)別方法中vc維的直觀定義是:對(duì)一個(gè)指示函數(shù)集,如果存在h個(gè) 樣本能夠被函數(shù)集中的函數(shù)按所有可能的26種形式分開(kāi),則稱(chēng)函數(shù)集能夠把h 個(gè)樣本打散:函數(shù)集的VC維就是它能打散的最大樣本數(shù)目h。著對(duì)任意數(shù)目 的樣本都有函數(shù)能將它們打散,則函數(shù)集的vc維是無(wú)窮大。 VC維反映了函數(shù)集的學(xué)習(xí)能力,vc維越大則學(xué)習(xí)機(jī)器越復(fù)雜(容量越大)。
遺憾的是,目前尚沒(méi)有通過(guò)的關(guān)于任意函數(shù)集vc維計(jì)算的理論,只確定了一
些特殊的函數(shù)集的vc維。比如在n維實(shí)數(shù)空間中線性分類(lèi)器和線性實(shí)函數(shù)的 vc維是n+l,對(duì)于一些比較復(fù)雜的學(xué)習(xí)機(jī)器(如神經(jīng)網(wǎng)絡(luò)),其vc維除了與函 數(shù)集(神經(jīng)網(wǎng)結(jié)構(gòu))有關(guān)外,還受學(xué)習(xí)算法等的影響,其確定更加困難。但是,
在實(shí)際應(yīng)用統(tǒng)計(jì)學(xué)理論時(shí),可以通過(guò)變通的辦法巧妙地避開(kāi)直接求VC維的問(wèn) 題。
2.2.2推廣性的界
統(tǒng)計(jì)學(xué)習(xí)理論從vc維的概念出發(fā),推導(dǎo)出了經(jīng)驗(yàn)風(fēng)險(xiǎn)與實(shí)際風(fēng)險(xiǎn)的關(guān)系, 即稱(chēng)作推廣性的界,它是分析機(jī)器性能和發(fā)展新的學(xué)習(xí)算法的重要基礎(chǔ)。
對(duì)于指示函數(shù)集f(x,功),如果損失函數(shù)Q∽m)=上(乃廠“蝴為一般的有
界非負(fù)實(shí)函數(shù),即OsQ(x,口)≤B,冤目有如下的結(jié)論:
定理2.1對(duì)指示函數(shù)集中的所有函數(shù)(包括使經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的函數(shù)),經(jīng)
驗(yàn)風(fēng)險(xiǎn)R。。(國(guó))和實(shí)際風(fēng)險(xiǎn)R(回之間至少以概率1一,7滿(mǎn)足如下關(guān)系:
酬颯扣)+≯Be.+√-+%導(dǎo))
其中
㈤
s:4二二—L—=_j
上式中,h為函數(shù)集的Vc維,n為樣本數(shù)。
對(duì)于損失函數(shù)為無(wú)界函數(shù)的情況,也有相應(yīng)的結(jié)論。
矗(1n絲+1)一lIl翌
(2.5)
這一結(jié)論從理論上說(shuō)明了學(xué)>-j機(jī)器的實(shí)際風(fēng)險(xiǎn)是由兩部分組成的:一部分 是由經(jīng)驗(yàn)風(fēng)險(xiǎn)(訓(xùn)練誤差);另一部分稱(chēng)作值信范圍,它和學(xué)習(xí)機(jī)器的Vc維及
訓(xùn)練樣本數(shù)有關(guān)?梢院(jiǎn)單地表示為:
R(m)≤R。,(國(guó))壩》
矗
,l
(2-6)
上式中置信范圍廬隨;增加,單調(diào)下降。即當(dāng)芋較小時(shí),置信范圍妒較大,
用經(jīng)驗(yàn)風(fēng)險(xiǎn)近似實(shí)際風(fēng)險(xiǎn)就存在較大的誤差,因此采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則,
取得的最優(yōu)解可能具有較差的推廣性;如果樣本數(shù)較多,;較大,則置信范圍
矗
就會(huì)很小,采用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則,求得的最優(yōu)解就接近實(shí)際的最優(yōu)解。 在有限的訓(xùn)練樣本情況下,當(dāng)樣本數(shù)n固定時(shí),此時(shí)學(xué)習(xí)機(jī)器的vc維越 高(學(xué)習(xí)機(jī)器的復(fù)雜性越高),則置信范圍就越大,此時(shí),真實(shí)風(fēng)險(xiǎn)與經(jīng)驗(yàn)風(fēng) 險(xiǎn)之間的差別就越大,這就是為什么出現(xiàn)過(guò)學(xué)習(xí)現(xiàn)象的原因。機(jī)器學(xué)習(xí)過(guò)程不
但要使經(jīng)驗(yàn)風(fēng)險(xiǎn)最小,還要使其vc維盡量小,以縮小置信范圍,才能取得較 小的實(shí)際風(fēng)險(xiǎn),即對(duì)未來(lái)樣本有較好的推廣性,它與學(xué)習(xí)機(jī)器的VC維及訓(xùn)練 樣本數(shù)有關(guān)。
2.2.3結(jié)構(gòu)風(fēng)險(xiǎn)最小化
經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化方法是目前絕大多數(shù)模式識(shí)別方法的基礎(chǔ),其定義為訓(xùn)練 集上的平均錯(cuò)誤率,用于對(duì)整個(gè)樣本集的期望風(fēng)險(xiǎn)進(jìn)行估計(jì),它建立在樣本數(shù) 目足夠多的前提下,致使各種方法只有在樣本數(shù)趨向無(wú)窮大時(shí),其性能才有理 論上的保證。而在現(xiàn)實(shí)世界的應(yīng)用中,這一前提并不總能被滿(mǎn)足,這時(shí)大多數(shù)
16
次類(lèi)方法都難以取得理想的結(jié)果。 由2.2.2節(jié)中的推廣性的界可知;影響期望風(fēng)險(xiǎn)上界的因子有兩個(gè)方面: 首先是訓(xùn)練集的規(guī)模n,其次是VC維的h?梢(jiàn),在保證分類(lèi)精度(經(jīng)驗(yàn)風(fēng)險(xiǎn))
的同時(shí),降低學(xué)習(xí)機(jī)器的vc維,可以使學(xué)習(xí)機(jī)器在整個(gè)樣本集上的期望風(fēng)險(xiǎn) 得到控制,它就是結(jié)構(gòu)風(fēng)險(xiǎn)最小化(Structure
的由來(lái)。
Risk
Minimization,簡(jiǎn)稱(chēng)SvM)
由vc維的討論可以看到,經(jīng)驗(yàn)風(fēng)險(xiǎn)和期望風(fēng)險(xiǎn)依賴(lài)于學(xué)習(xí)機(jī)器函數(shù)族的 選擇。把函數(shù)集J=礦O,∞),∞∈Q)分解為一個(gè)函數(shù)子集列,
毛cj2c…c吼c…cs,
(2—7)
使各個(gè)子集能夠按照置信范圍≯的大小排列,也就是按照vc維的大小排列,
即
。笕纭堋芤浴堋,
(2—8)
所謂結(jié)構(gòu)風(fēng)險(xiǎn)最小化,便是構(gòu)造一組嵌套的函數(shù)子集,使得其vc維由內(nèi) 向外依次遞增,然后在其上尋找經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍之和最小的子集,從而使
得實(shí)際風(fēng)險(xiǎn)的上界最小化,如圖2.1所示
17
風(fēng)險(xiǎn)
一圍
磷署瓢鏟‘毛
vC維:^s噍≤島
圖2.1 結(jié)構(gòu)風(fēng)險(xiǎn)最小化示意圖
基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則的統(tǒng)計(jì)學(xué)理論是一種專(zhuān)門(mén)研究小樣本的統(tǒng)計(jì)理 論,它為研究有限樣本下的統(tǒng)計(jì)模式識(shí)別,并為更廣泛的機(jī)器學(xué)習(xí)問(wèn)題建立了 一個(gè)較好的理論框架,同時(shí)也發(fā)展出了一種新的模式識(shí)別方法——支持向量 機(jī)t從而能夠較好地解決小樣本的學(xué)習(xí)問(wèn)題。
2.3支持向量機(jī)原理
支持向量機(jī)方法是Vapnik等人根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論提出的一種新的機(jī)器學(xué)
習(xí)方法,它以結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則為理論基礎(chǔ),通過(guò)適當(dāng)?shù)剡x擇函數(shù)子集及其
該子集中的判別函數(shù),使學(xué)習(xí)機(jī)器的實(shí)際風(fēng)險(xiǎn)達(dá)到最小,保證了通過(guò)有限訓(xùn)練 樣本得到的小誤差分類(lèi)器,對(duì)獨(dú)立測(cè)試集的測(cè)試誤差仍然較小。因而,是一個(gè) 具有最優(yōu)分類(lèi)能力和推廣能力的學(xué)習(xí)機(jī)器。
2.3.1
線性可分的最優(yōu)分類(lèi)面
(1)最優(yōu)分類(lèi)面
支持肉量枧是從線性可分情況下的最優(yōu)分類(lèi)面發(fā)展焉來(lái)的,基本思想可用
圖2.2來(lái)說(shuō)明。對(duì)于一維空間中的點(diǎn),二維空間中的直線,三維空間中的平面,
以及高維空間中的超平面。圖中實(shí)心點(diǎn)和空心點(diǎn)代表兩類(lèi)樣本,Ⅳ為它們之
間的分類(lèi)超平面,日。、鷗分別為各類(lèi)中離分類(lèi)面最近的樣本且平行于分類(lèi)面
的超平面,它們之問(wèn)的距離△叫做分類(lèi)間隔(margin).
H
Hz
圖2.2最優(yōu)分類(lèi)面示意圖
當(dāng)分類(lèi)面發(fā)生變化時(shí),分類(lèi)閾蕊△也會(huì)隨之發(fā)生變化。反之給定△的值也 可以確定相應(yīng)的分類(lèi)超平面(也可能對(duì)應(yīng)著許多超平面,統(tǒng)稱(chēng)為超平面集合)。 按照文獻(xiàn)“““1,在△間隔下,超平面集合的vc維h滿(mǎn)足下面關(guān)系:
叫(吉)
分類(lèi)間隔越大。則對(duì)應(yīng)的分類(lèi)超平面集合的VC維就越小。
(2?9)
其中,廠(.1是單調(diào)增函數(shù),郎h與△2成反比關(guān)系。因此,當(dāng)訓(xùn)練樣本給定時(shí),
最優(yōu)分類(lèi)面就是要求分類(lèi)面不但能將兩類(lèi)樣本正確分開(kāi)(訓(xùn)練錯(cuò)誤率為 0),而且要使兩類(lèi)的分類(lèi)間隔越大.根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,前者是保證經(jīng) 驗(yàn)風(fēng)險(xiǎn)最小,而后者使分類(lèi)間隔最大,導(dǎo)致VC維最小,實(shí)際上就是使推廣性
的界中的置信范圍最小,從而達(dá)到使真實(shí)風(fēng)險(xiǎn)最。
分類(lèi)面方程為wrz+6=0,如果線性可分,則樣本集“,乃),
i=l,…,月,x∈Rd,ye{+l,-1},滿(mǎn)足
咒[w7x+6=o]-1=0,i=1,..m(2-10)
此時(shí)分類(lèi)間隔等于2州wl,使分類(lèi)間隔最大等價(jià)于使0wll2最小。滿(mǎn)足條件
式(2-10)且使圭o wJl2最小的分類(lèi)面就叫做最優(yōu)分類(lèi)面,如圖2.3所示為各分類(lèi)
面與最優(yōu)分類(lèi)面的示意圖,其中q、z‘上的訓(xùn)練樣本點(diǎn)就稱(chēng)作支持向量。
圖2.3分類(lèi)面與最優(yōu)分類(lèi)面示意圖
(2)優(yōu)化求解
在線性可分情況下,在結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則下的最優(yōu)超平面問(wèn)題,可以表
示為如下的約束優(yōu)化問(wèn)題。即在條件(2.10)的約束下,求函數(shù)
礦(w)=判wIl2
的最小化。為此,可以定義如下的Lagrange函數(shù):
(2.11)
mM=抑2一喜q{M[w饑㈣]-l}
其中,a!荩盀楦鳂颖緦(duì)應(yīng)的Lagrange系數(shù)。
㈣2)
求解(2.t2)的最小值,可以令該泛函對(duì)W和b求偏導(dǎo),并令它們等于0, 就可以把上述求最優(yōu)分類(lèi)面的問(wèn)題轉(zhuǎn)化為較簡(jiǎn)單的對(duì)偶問(wèn)題,即:在約束條件
∑Mq=o
1=I
(2一13)
島≥O
i=I,...,群
(2-14)
下,求下列函數(shù)最大值時(shí)的解al:
Q(口)=∑q一去∑qq只乃(而?_)
i=1
(2?15)
-I.j=l
a;為原問(wèn)題中與每個(gè)約束條件(3.1 o)對(duì)應(yīng)的Lagrange乘子。這是一個(gè)不 等式約束條件下二次函數(shù)優(yōu)化的問(wèn)題,存在唯一解。容易證明,解中將只有一 部分(通常是少部分)ai不為零,對(duì)應(yīng)的樣本就是支持向量(SV)。
若仉‘為最優(yōu)解,則最優(yōu)分類(lèi)面的權(quán)系數(shù)向量為:
w.=∑口『。乃而
^E5P
(2?t6)
即最優(yōu)分類(lèi)面的權(quán)系數(shù)向量是訓(xùn)練樣本中支持向量的線性組合。得到支持向量 及權(quán)向量w.后,分類(lèi)器中的閥值b‘,可以通過(guò)兩類(lèi)中任意一對(duì)支持向量取中 值求得。
b+=妄【w‘J’(1)+w’x’(_1)】(2?17)
二
其中,r(1),x’(-1)分別表示兩類(lèi)中任意一個(gè)支持向量。
(3)構(gòu)造判別函數(shù)
有前面獲得的支持向量及相關(guān)參數(shù)后,就可以求得上述問(wèn)題的最優(yōu)分類(lèi)判
別函數(shù)為:
,(工)=sgn{(w"?x)+6)=sgn{∑ai+乃(而?力+6’)
(2?18)
Z1
2.3.2線性不可分的最優(yōu)分類(lèi)面
上面的方法是保證訓(xùn)練樣本在線性可分的情況下,全部樣本能被正確地分
類(lèi),即經(jīng)驗(yàn)風(fēng)險(xiǎn)R。。為0的前提下,通過(guò)對(duì)分類(lèi)間隔最大化,使分類(lèi)器獲得
最好的推廣性能。若訓(xùn)練樣本是線性不可分的,或事先不知道它是否線性可分, 可以通過(guò)引入非負(fù)松弛變量毒i=1,2,¨.,/'/來(lái)允許錯(cuò)分樣本的存在。這時(shí)約束
(2—10)變?yōu)椋?br />
咒l(w7?墨)+6 I—l+缶≥0,f=1,…月
(2.19)
容許錯(cuò)分的分類(lèi)超平面稱(chēng)作軟間隔分類(lèi)超平面,如圖2.4所示,表示訓(xùn)練 集在線性不可分的情況下軟間隔分類(lèi)超平面示意圖。由于允許存在錯(cuò)分樣本, 此時(shí)的軟間隔分類(lèi)超平面表示在剔除那些錯(cuò)分樣本后最大分類(lèi)間隔的超平面。 此時(shí),最小泛函由式(2-11)變?yōu)椋?br />
加固=扣[12+Cf窆卣1
二
(2-20)
\f-I
/
其中,c>0是一個(gè)自定義的懲罰因子,它控制對(duì)錯(cuò)分樣本懲罰的程度,用來(lái) 控制樣本偏差與機(jī)器推廣能力之間的折衷。c越大,懲罰就越大,對(duì)錯(cuò)分樣本
的約束就越大。
q2 日
’j
\
日l
jj
\ \j-
_ 一
\
'●
、
o
o
‘>、\鞭\?-t 。。’\\。V\\
’\
\
o
!?./\
j
’
爿一分類(lèi)超平面,w—分類(lèi)面的法矢量,△一分類(lèi)間隔
日。,鷗一與曰平行且過(guò)兩類(lèi)樣本中離日最近的點(diǎn)的超平面
圖2.4線性不可分情況下軟間隔分類(lèi)超平面示意圖
用與求解最優(yōu)分類(lèi)面的同樣的方法求解式(2.20)的優(yōu)化問(wèn)題,同樣得到一
個(gè)求二次函數(shù)的極值問(wèn)題,其結(jié)果與線性可分情況下得到的式(2.13)一式
(2一Is))L乎完全相同,只是條件式(2.14)變?yōu)?osq≤c,f=1,2,…,玎(2-21)
2.3。3支持向量機(jī) 前面介紹了在線性分類(lèi)情況下,如何求解最優(yōu)超平面。而在實(shí)際分類(lèi)問(wèn)題 中,分類(lèi)問(wèn)題往往是一個(gè)非線性的問(wèn)題,理想的分類(lèi)面應(yīng)該是非線性的。對(duì)非 線性問(wèn)題,可以通過(guò)非線性變換,將非線性問(wèn)題轉(zhuǎn)化為某個(gè)高維空間中的線性 問(wèn)題,在變換后的高維空間中求其最優(yōu)分類(lèi)面。1.支持向量機(jī)處理非線性問(wèn)題
的方法是,首先將訓(xùn)練樣本集從原始模式空間經(jīng)過(guò)特定函數(shù)的非線性變換,映
射到高維特征空間,然后,在高維特征空間中,尋找最優(yōu)分類(lèi)超平面,該超平 面實(shí)際上對(duì)應(yīng)著原始模式空間中的非線性分類(lèi)面,如圖2.5所示。因此,支持
向量機(jī)方法在處理非線性問(wèn)題時(shí),僅比線性情況多了一個(gè)非線性映射環(huán)節(jié)。假
定該非線性映射為
x斗伊(x)(2-22)
則式(2.15)中的優(yōu)化問(wèn)題就可以轉(zhuǎn)變?yōu)?br />
Q(口)=∑aj一去∑qqM乃p(而)妒(一)
(2?23)
---?_-◆
矽
圖2.5輸入空間和特征空間所對(duì)應(yīng)的樣本和分類(lèi)面不意圖
式(2-22)的非線性變換可能比較復(fù)雜,使式(2-23)的計(jì)算非常困難以致不
易實(shí)現(xiàn)。但是注意到,在上面的對(duì)偶問(wèn)題中,訓(xùn)練算法僅使用高維特征空間中 的點(diǎn)積,即伊(‘)伊(x,),而沒(méi)有單獨(dú)的映射伊(t)出現(xiàn)。因此,如果能夠找到一 個(gè)函數(shù)K使得 K(xt,J,)=伊(而)伊(工,)(2-24)
這樣,在高維特征空間中,實(shí)際上只需進(jìn)行內(nèi)積運(yùn)算,而這種內(nèi)積運(yùn)算是
可以用原空間的函數(shù)來(lái)實(shí)現(xiàn)的,我們甚至沒(méi)有必要知道變換映射p(?)的形式。
根據(jù)泛函的有關(guān)理論,只要一種內(nèi)積函數(shù)足(t,■)滿(mǎn)足定理2.2中的Mercer
條件“‘21。它就對(duì)應(yīng)某一變換空間中的內(nèi)積.
定理2.2(Mercer條件)對(duì)于任意的對(duì)稱(chēng)函數(shù)K(x,z’,它是某個(gè)特征空
間中的內(nèi)積運(yùn)算的充分必要條件是,對(duì)于任意的妒(石)≠o且勛20)辦<o。,有
J弘(州弦(神妒。梗洌洌荆铮ǎ玻担
因此在求最優(yōu)分類(lèi)面時(shí),采用適當(dāng)?shù)膬?nèi)積函數(shù)圖文,xj)就可以實(shí)現(xiàn)某一非 線性變換后的線性分類(lèi),而計(jì)算復(fù)雜度卻沒(méi)有增加,此時(shí)目標(biāo)函數(shù)(2-15)與式
(2—23)變?yōu)?br />
Q(妨=∑q一去∑色乞咒乃足(一,xj)
而相應(yīng)的最優(yōu)分類(lèi)面的判別函數(shù)式(2-18)也變?yōu)?br />
(2—26)
/(石)=sgn(∑aTyiK(xi,力曲‘)
(2?27)
我們稱(chēng)式(2.24)的內(nèi)積為核函數(shù)。核函數(shù)K(x。y)將高維特征空聞中內(nèi)積運(yùn) 算轉(zhuǎn)化為低維模式空間上一個(gè)簡(jiǎn)單的函數(shù)計(jì)算。較常用的核函數(shù)有線性核
K(x,z)=xrz,多項(xiàng)式嫻∽卻“啦高斯觚㈣=oxp(一睜],
其中d為多項(xiàng)式的階數(shù),盯為高斯分布的寬度。 SVM是一種有堅(jiān)實(shí)理論基礎(chǔ)的新穎的小樣本學(xué)習(xí)方法。它基本上不涉及概
率測(cè)度的定義及大數(shù)定律等,因此不同于現(xiàn)有的統(tǒng)計(jì)方法.從本質(zhì)上看,它避 開(kāi)了從歸納到演繹的傳統(tǒng)過(guò)程,實(shí)現(xiàn)了高效的從訓(xùn)練樣本到預(yù)測(cè)樣本的“轉(zhuǎn)導(dǎo)
推理”(transductive inference),大大簡(jiǎn)化了分類(lèi)問(wèn)題。SVM的最終決策函
數(shù)只由少數(shù)的支持向量所確定,計(jì)算的復(fù)雜性取決于支持向量的數(shù)目,而不是 樣本空問(wèn)的維數(shù),這在某種意義上避免了“維數(shù)災(zāi)”。如果說(shuō)神經(jīng)網(wǎng)絡(luò)方法是 對(duì)樣本的所有因子加權(quán)的話,SVM方法是對(duì)只占樣本集少數(shù)的支持向量樣本 “加權(quán)”。當(dāng)預(yù)測(cè)因子與預(yù)測(cè)對(duì)象之間蘊(yùn)涵的復(fù)雜關(guān)系尚不清楚對(duì),基于關(guān)鍵 樣本的方法可能優(yōu)于基于因子的“加權(quán)”。
第三章基于支持向量機(jī)的ECG分類(lèi)方法和特點(diǎn)
3.1
基于支持向量機(jī)的ECG分類(lèi)方法
支持向量機(jī)方法從本質(zhì)上說(shuō)是一種兩類(lèi)學(xué)習(xí)算法,只能解決兩類(lèi)分類(lèi)問(wèn)
題。而在心電圖的分類(lèi)中,心電數(shù)據(jù)是一個(gè)高維的非線性的多分類(lèi)問(wèn)題,因此 有必要采取一定的策略使支持向量機(jī)可以處理這樣的多類(lèi)分類(lèi)問(wèn)題;镜姆 法有如下四種: (1)一對(duì)一方法
假設(shè)有11_類(lèi)樣本(n>1),每?jī)深?lèi)樣本構(gòu)造一個(gè)支持向量機(jī)分類(lèi)器,對(duì)于
某個(gè)輸入測(cè)試樣本,依次用每個(gè)支持向量機(jī)分類(lèi)器去分類(lèi),每次都保留所屬類(lèi)
號(hào),然后再用與這一類(lèi)有關(guān)的支持向量機(jī)分類(lèi)器去分類(lèi),如此循環(huán),直到遍歷 完與某類(lèi)相關(guān)的所有支持向量機(jī)分類(lèi)器而類(lèi)屬不變,或遍歷完所有支持向量機(jī)
分類(lèi)器為止,最終的類(lèi)號(hào)就是測(cè)試樣本的類(lèi)屬。’”。這種策略需要構(gòu)造nCn一1)/2 個(gè)支持向量機(jī),測(cè)試時(shí),最少需要測(cè)試n次,最多需要測(cè)試nCn.1)/2次。這種
策略的優(yōu)點(diǎn)是訓(xùn)練簡(jiǎn)單,但測(cè)試比較復(fù)雜。
(2)一對(duì)多方法 假設(shè)有n類(lèi)樣本(n>1),每一類(lèi)與其余類(lèi)構(gòu)造一個(gè)支持向量機(jī)分類(lèi)器,
對(duì)于某個(gè)輸入測(cè)試樣本,依次用每個(gè)支持向量機(jī)分類(lèi)器分類(lèi),若屬類(lèi)為某類(lèi)類(lèi) 號(hào),則停止;若屬于其它類(lèi),則繼續(xù),直到類(lèi)屬是某個(gè)類(lèi)號(hào)為止,最終的類(lèi)號(hào) 就是測(cè)試樣本的類(lèi)屬…1。這種策略需要構(gòu)造n個(gè)支持向量機(jī)分類(lèi)器,測(cè)試時(shí),
最少需要測(cè)試1次,最多需要測(cè)試n次,因此,這種策略的優(yōu)點(diǎn)是測(cè)試簡(jiǎn)單, 但是訓(xùn)練比較復(fù)雜。 (3)基于決策樹(shù)方法
基于決策樹(shù)方法將多類(lèi)分類(lèi)問(wèn)題分解為一序列的二值分類(lèi)問(wèn)題,這些二值
分類(lèi)分布于決策樹(shù)的各個(gè)節(jié)點(diǎn)上!埃 y,如圖3.6所示,是一棵多類(lèi)分類(lèi)決策樹(shù)。
A
B
D
E
圖3.6多類(lèi)識(shí)別決策樹(shù)
決策樹(shù)上的每一個(gè)節(jié)點(diǎn)將一個(gè)多類(lèi)混合的子集分為兩個(gè)小一點(diǎn)的多類(lèi)混
合子集或是一個(gè)單類(lèi)(樹(shù)的葉子)。這里,多類(lèi)混合的集合是所有類(lèi)別{1,2,...,N)
#
中特征相對(duì)相似的類(lèi)別組成的一個(gè)子集。每一個(gè)決策點(diǎn)都有兩個(gè)兒子。樹(shù)的葉
子表示單個(gè)類(lèi)別,不需要再分。 決策節(jié)點(diǎn)的分類(lèi)任務(wù)由其輸入邊和輸出邊所決定。如圖3.6所示,根節(jié)點(diǎn) 的輸入邊是{A,B,C,D,E,F),所以該節(jié)點(diǎn)要完成一個(gè)6類(lèi)分類(lèi)任務(wù)。其輸出邊
(兒子)標(biāo)記以{A,B,C}(左兒子)和{D,E,F)(右兒子)。表示這個(gè)節(jié)點(diǎn)上 的支持向量機(jī)要將樣本分成{A,B,C)和{D,E,F)兩大類(lèi)。為此,{A,B,C,D,E,F) 中所有的樣本類(lèi)別標(biāo)簽都要重新標(biāo)記。類(lèi)別A,B和C的樣本標(biāo)記為l,D,
E及F的樣本標(biāo)記為.1。然后用兩類(lèi)支持向量機(jī)方法進(jìn)行訓(xùn)練分類(lèi)函數(shù)。以此 類(lèi)推,直到所有葉節(jié)點(diǎn)。
基于決策樹(shù)方法的缺點(diǎn)在于可操作性不強(qiáng),有時(shí)需要認(rèn)為的預(yù)先定義數(shù)據(jù) 子集。離使用尚有很大的距離。
(4)全局優(yōu)化分類(lèi)方法
全局優(yōu)化分類(lèi)方法直接解一個(gè)含多類(lèi)問(wèn)題的優(yōu)化問(wèn)題。通過(guò)改寫(xiě)Vapnik
的二類(lèi)分類(lèi)中SVM的目標(biāo)函數(shù),建立一個(gè)含多類(lèi)的目標(biāo)函數(shù),使其滿(mǎn)足多類(lèi) 分類(lèi)問(wèn)題的需要…。
方法類(lèi)型 一對(duì)多 一對(duì)一 全局優(yōu)化 決策樹(shù)
訓(xùn)練代價(jià)
一般 較小 較大 較小
預(yù)測(cè)代價(jià) 較大 一般 較小
正確率 一般 一般 較高 較高
可操作性 較好 較好 一般 較差
一般
表3.1多類(lèi)分類(lèi)方法比較
3.2支持向量機(jī)方法特點(diǎn) 在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出了一種新型的學(xué)習(xí)機(jī)器——支持向量機(jī)
方法,在解決小樣本、非線性和高維的機(jī)器學(xué)習(xí)問(wèn)題中表現(xiàn)出了許多特有的優(yōu)
勢(shì)。
支持向量機(jī)方法成功地解決了小樣本、高維和局部極值問(wèn)題。傳統(tǒng)統(tǒng)計(jì)學(xué) 應(yīng)用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則來(lái)優(yōu)化學(xué)習(xí)機(jī)器的參數(shù)。由于訓(xùn)練樣本數(shù)的限制,基 于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的學(xué)習(xí)機(jī)器在實(shí)際應(yīng)用中普遍存在推廣能力不足的問(wèn)題。而 建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的支持向量機(jī)方法,以結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則為優(yōu)化
參數(shù),使用了大間隔因子來(lái)控制學(xué)習(xí)機(jī)器的訓(xùn)練過(guò)程,使其只選擇具有最大分 類(lèi)間隔的分類(lèi)超平面,又叫最優(yōu)超平面(在不可分情況下,又引入松弛因子來(lái)
控制經(jīng)驗(yàn)風(fēng)險(xiǎn)),從而使其在小樣本的情況下,滿(mǎn)足分類(lèi)要求的條件下,具有 較高的推廣能力。尋找最優(yōu)超平面的過(guò)程最終轉(zhuǎn)化為二次型優(yōu)化問(wèn)題,從理論 上說(shuō),得到的是全局最優(yōu)解。與傳統(tǒng)的學(xué)習(xí)機(jī)器不同的是,支持向量機(jī)方法是 將原始的模式矢量映射到高維的特征空間,仍然使用大間隔因子在高維特征空 間中尋找最大間隔超平面。事實(shí)上,高維特征空間中的超平面對(duì)應(yīng)著原始模式
空間中的非線性分類(lèi)面。實(shí)際上,支持向量機(jī)的優(yōu)化過(guò)程并沒(méi)有在高維空間中
進(jìn)行,而是通過(guò)一些具有特殊性質(zhì)的核函數(shù),將高維空間中的內(nèi)積運(yùn)算轉(zhuǎn)化為
原始空間中核函數(shù)的運(yùn)算,從而巧妙地避免了在高維空間中處理問(wèn)題的困難。
支持向量機(jī)方法的幾個(gè)主要特點(diǎn)為: 1.支持向量機(jī)方法是基于統(tǒng)計(jì)學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,與傳統(tǒng)的
方法類(lèi)型 一對(duì)多 一對(duì)一 全局優(yōu)化 決策樹(shù)
訓(xùn)練代價(jià) 一般 較小 較大 較小
預(yù)測(cè)代價(jià)
較大
正確率 一般 一般 較高 較高
可操作性 較好 較好 一般 較差
一般
較小
一般
表3.1多類(lèi)分類(lèi)方法比較
3.2支持向量機(jī)方法特點(diǎn)
在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出了一種新型的學(xué)習(xí)機(jī)器——支持向量機(jī) 方法,在解決小樣本、非線性和高維的機(jī)器學(xué)習(xí)問(wèn)題中表現(xiàn)出了許多特有的優(yōu)
勢(shì)。
支持向量機(jī)方法成功地解決了小樣本、高維和局部極值問(wèn)題。傳統(tǒng)統(tǒng)計(jì)學(xué) 應(yīng)用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則來(lái)優(yōu)化學(xué)習(xí)機(jī)器的參數(shù)。由于訓(xùn)練樣本數(shù)的限制,基 于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的學(xué)習(xí)機(jī)器在實(shí)際應(yīng)用中普遍存在推廣能力不足的問(wèn)題。而 建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的支持向量機(jī)方法,以結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則為優(yōu)化 參數(shù),使用了大間隔因子來(lái)控制學(xué)習(xí)機(jī)器的訓(xùn)練過(guò)程,使其只選擇具有最大分 類(lèi)間隔的分類(lèi)超平面,又叫最優(yōu)超平面(在不可分情況下。又引入松弛因子來(lái) 控制經(jīng)驗(yàn)風(fēng)險(xiǎn)),從而使其在小樣本的情況下,滿(mǎn)足分類(lèi)要求的條件下,具有 較高的推廣能力。尋找最優(yōu)超平面的過(guò)程最終轉(zhuǎn)化為二次型優(yōu)化問(wèn)題,從理論
上說(shuō),得到的是全局最優(yōu)解。與傳統(tǒng)的學(xué)習(xí)機(jī)器不同的是,支持向量機(jī)方法是
將原始的模式矢量映射到高維的特征空間,仍然使用大間隔因子在高維特征空 間中尋找最大間隔超平面。事實(shí)上,高維特征空間中的超平面對(duì)應(yīng)著原始模式 空間中的非線性分類(lèi)面。實(shí)際上,支持向量機(jī)的優(yōu)化過(guò)程并沒(méi)有在高維空間中 進(jìn)行,而是通過(guò)一些具有特殊性質(zhì)的核函數(shù),將高維空間中的內(nèi)積運(yùn)算轉(zhuǎn)化為 原始空間中核函數(shù)的運(yùn)算,從而巧妙地避免了在高維空間中處理問(wèn)題的困難。 支持向量機(jī)方法的幾個(gè)主要特點(diǎn)為: 1.支持向量機(jī)方法是基于統(tǒng)計(jì)學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,與傳統(tǒng)的
機(jī)器學(xué)習(xí)方法不同,它不僅使經(jīng)驗(yàn)風(fēng)險(xiǎn)最小而且通過(guò)尋找最大間隔分界面來(lái)控 制模型的復(fù)雜度,從而有效地避免了過(guò)擬合現(xiàn)象,為模型選擇的問(wèn)題提供了很
好的思路。 2.它是專(zhuān)門(mén)針對(duì)有限樣本情況下,其目標(biāo)是得到現(xiàn)有信息下的最優(yōu)解而不 僅僅是樣本數(shù)趨于無(wú)窮大時(shí)的最優(yōu)解。
3.支持向量機(jī)方法最終轉(zhuǎn)億為在線性條件下的凸二次優(yōu)化問(wèn)題,從理論上 說(shuō),找到的極值點(diǎn)是全局最優(yōu)點(diǎn),解決了在神經(jīng)網(wǎng)絡(luò)方法中無(wú)法避免的局部極
值問(wèn)題。
4.支持向量機(jī)方法將實(shí)際問(wèn)題通過(guò)非線性映射變換到高維的特征空間,在 高維空間中,通過(guò)構(gòu)造線性判別函數(shù)來(lái)實(shí)現(xiàn)原空間中的非線性判別,特殊性質(zhì) 能保證機(jī)器有較好的推廣能力,同肘它巧妙地解決了維數(shù)問(wèn)題,這在一定程度
上解決了特征維數(shù)過(guò)大所導(dǎo)致的維數(shù)災(zāi)難問(wèn)題。
5.SvM方法具有較好的“魯棒性”,這種魯棒性表現(xiàn)在多方面。首先是同 一個(gè)樣本集,增刪非支持向量的樣本對(duì)決策集沒(méi)有影響:其次是對(duì)同一問(wèn)題的 不同樣本集,所建模型有一定的穩(wěn)定性;最后是核函數(shù),很多實(shí)驗(yàn)表明,SVM
方法對(duì)核的選取不敏感,同一問(wèn)題應(yīng)用不同核都可以得到接近的效果,不同核
下建立的支持向量機(jī)往往包含同樣的支持向量。 統(tǒng)計(jì)學(xué)習(xí)理論具有較為堅(jiān)實(shí)的理論基礎(chǔ),它為解決小樣本問(wèn)題提供了一個(gè)
統(tǒng)一的框架。在這一理論基礎(chǔ)上發(fā)展起來(lái)的一種新的通用學(xué)習(xí)方法一支持向
量機(jī),已初步表現(xiàn)出很多優(yōu)于傳統(tǒng)方法的性能。該算法的理論基礎(chǔ)——結(jié)構(gòu)風(fēng)
險(xiǎn)最小化原則,是在對(duì)小樣本情況下模式識(shí)別中的一些根本性問(wèn)題進(jìn)行了系統(tǒng)
地理論研究后得出的,這使得支持向量機(jī)能夠在很大程度上較好地解決了以往 困擾機(jī)器學(xué)習(xí)方法的一些問(wèn)題,如模型選擇問(wèn)題i過(guò)學(xué)習(xí)問(wèn)題、非線性問(wèn)題和
’
維數(shù)災(zāi)難問(wèn)題等。
從支持向量機(jī)算法及凸優(yōu)化的知識(shí)不難得出該算法的一些主要特點(diǎn):(1) 非線性映射,是SvM理論的基礎(chǔ);(2)在高維特征空間尋找最優(yōu)超平面,是 SVM的目標(biāo);(3)求出支持向量,是SⅥ訂的結(jié)果;(4)二次規(guī)劃,是計(jì)算
支持向量的手段。
目前,支持向量機(jī)在部分領(lǐng)域已進(jìn)入了實(shí)用階段(如氣象預(yù)報(bào))。一些學(xué)
3l
者認(rèn)為,統(tǒng)計(jì)學(xué)習(xí)理論和支持向量機(jī)正在成為繼神經(jīng)網(wǎng)絡(luò)研究之后新的研究熱 點(diǎn),并將推動(dòng)機(jī)器學(xué)習(xí)理論和技術(shù)的發(fā)展。本章概要總結(jié)了統(tǒng)計(jì)學(xué)習(xí)理論及支
持向量機(jī)的基本理論與基本方法,以及支持向量機(jī)對(duì)多類(lèi)分類(lèi)問(wèn)題的解決方
法,它是下一章研究的基礎(chǔ)。
第四章
基于支持向量機(jī)的ECG分類(lèi)
心臟疾病是威脅人類(lèi)生命健康的主要疾病之一,進(jìn)行心電信號(hào)(ECG)的
檢測(cè)診斷一直是臨床醫(yī)學(xué)上診斷心臟病變的常規(guī)檢測(cè)手段之一。ECG信號(hào)是從
人體表面記錄心肌細(xì)胞電活動(dòng)的情況,它攜帶了很多反映心臟工作狀況的信
息,是臨床診斷中不可缺少的依據(jù)。ECG中有用信號(hào)的正確提取是對(duì)心血管疾 病的正確診斷的前提。利用ECG信號(hào)可以監(jiān)測(cè)心率和識(shí)別各種心率失常,調(diào)制
心律,診斷心肌梗塞并測(cè)定梗塞的程度.研究心臟病變的機(jī)理。因此,,心電圖
的計(jì)算機(jī)自動(dòng)分析一直是醫(yī)學(xué)工程領(lǐng)域的研究熱點(diǎn)。對(duì)QRS波的分類(lèi)主要有兩
大類(lèi):基于特征的分類(lèi)方法和基于波形形態(tài)的分類(lèi)方法。由于QRS波的特異性 和變異性較大,其分類(lèi)結(jié)果不甚理想;谔卣鞯姆诸(lèi)方法受波群變異及噪聲
的影響較小。但它的準(zhǔn)確性是建立在正確的特征提取基礎(chǔ)上的;基于形態(tài)上的 分類(lèi)方法有相關(guān)波形法(CWA)、直接ECG特征檢測(cè)法、傅立葉變換法、功率譜 分析法、復(fù)雜度測(cè)量法、TLS(Total
Least
Squares)prony建模法、自適應(yīng)
卡爾曼濾波器法、使用LPC系數(shù)和模糊ARTflAP神經(jīng)網(wǎng)絡(luò)分類(lèi)法等。目前這些 方法在實(shí)際應(yīng)用中,大多數(shù)仍需人工輔助處理。為了提高精度,許多學(xué)者正試 圖尋求更優(yōu)的方法。文獻(xiàn)。73率先將SVM方法引入到ECG分類(lèi)中,并通過(guò)實(shí)際臨 床心電數(shù)據(jù)在SW不同的核函數(shù)上做了比較分析,然而文獻(xiàn)Ⅱ釘并沒(méi)有給出對(duì)
ECG分類(lèi)的識(shí)別率,而僅僅是縱向比較了取兩類(lèi)不同核函數(shù)得到的結(jié)果;另一
方面,文獻(xiàn)o”是以一組臨床數(shù)據(jù)來(lái)作的分析,對(duì)于臨床數(shù)據(jù)而言,其本身就具
有不確定性,故以臨床數(shù)據(jù)作為分析數(shù)據(jù)不具有足夠的說(shuō)服力。本文提出基于 支持向量機(jī)卜v—I算法的ECG分類(lèi)方法,并通過(guò)MIT-BIH心電數(shù)據(jù)庫(kù)進(jìn)行實(shí)例
分析,獲得了較高的識(shí)別率,且在算法模型的構(gòu)造和分類(lèi)速度方面優(yōu)于常規(guī)方 法。
4.1支持向量機(jī)對(duì)心電信號(hào)的分析處理
心電專(zhuān)家對(duì)心電圖的解釋可以分為兩個(gè)階段:1).特征信息提。簭男碾 圖中提取心電波形,各波的幅值和間期等信息;2).根據(jù)提取的心電圖特征信 息,心電專(zhuān)家解釋心電信號(hào)。所以,目前主要用于心電圖分析的方法有基于向
量測(cè)量和句法分析的方法;谙蛄繙y(cè)量的方法由三個(gè)階段組成:1).預(yù)處理,
其中包括數(shù)據(jù)壓縮、模擬或數(shù)字濾波、線性或非線性變換等;2).特征選擇/
提取,其中包括特征的選擇、特征的提。唬常诸(lèi),根據(jù)提取的心電圖的特
征信息,對(duì)心電圖進(jìn)行分類(lèi)。同樣基于句法分析的方法也是由三個(gè)階段組成: 1).預(yù)處理;2).把心電圖模式轉(zhuǎn)換成字符串描述;3).根據(jù)預(yù)先定義的規(guī)則, 通過(guò)測(cè)試心電圖的字符串描述,完成心電圖模式分類(lèi)。下面是心電圖計(jì)算機(jī)自
動(dòng)分析流程:
圖4.1心電信號(hào)計(jì)算機(jī)自動(dòng)分析流程
4.2支持向量機(jī)1-v-1算法模型
該方法在每?jī)深?lèi)間構(gòu)件一個(gè)分類(lèi)面,因此對(duì)于k類(lèi)問(wèn)題則需要構(gòu)造 k(k-1)/2個(gè)分類(lèi)函數(shù)。為了區(qū)分第i類(lèi)和第j類(lèi)樣本,需要解如下最優(yōu)化問(wèn)
題:
rain捌w”112+c∑影
_,一,! 厶t
[∥,一】+69≥l一∥,礦乃=‘(4.1)
【∥,x‘】+6”≤-1+∥’,礦M=J
∥≥o,
相應(yīng)的分類(lèi)函數(shù)為:
s切([∥,x】+69)(4-2)
當(dāng)對(duì)一個(gè)未知樣本分類(lèi)時(shí),每個(gè)分類(lèi)器都要對(duì)類(lèi)別進(jìn)行判斷,并為相應(yīng)的 類(lèi)別“投上一票”,最后得票最多的類(lèi)別即為該未知樣本的類(lèi)別,這種策略稱(chēng) 為“投票法”。采用這種方法的支持向量機(jī),簡(jiǎn)稱(chēng)1.v-1 SVMs算法。
4.3支持向量機(jī)1-v-J算法核函數(shù)的選取
核函數(shù)是SVM模型建立的一個(gè)主要問(wèn)題,目前多項(xiàng)式核函數(shù)、高斯徑向 基函數(shù)和Sigmoid函數(shù)是三種常用的核函數(shù),除此之外,其它還有指數(shù)型徑向 基函數(shù)、傅立葉級(jí)數(shù)、B樣條核函數(shù)、張量積核函數(shù)等。 (1).多項(xiàng)式核函數(shù) K(x,葺)=【(工?玉)+1r q是多項(xiàng)式的階數(shù)。 (2).高斯徑向基函數(shù) (4?3)
‰細(xì)卜呼]
(3).Sigrnoid函數(shù) (4).指數(shù)型徑向基函數(shù)
一q
K(x,薯)=tanh[y,(x?西)+c,】(4-5)
撕,=唧(一紫)
其中,x,x’是輸入向量,下同。 (5).傅立葉級(jí)數(shù)
1
㈤,
sin0V+毒)(x—x9
r(x,并’=————。剩獭 (4-7)
sin(寺(x—x∞
二
(6).B樣條核函數(shù) X(x,x3=墾Ⅳ。(x—x’ (7).張量積核函數(shù)
(4—8)
X(x,x9=n局似,而’
j
(4—9)
我們以徑向基函數(shù)(滿(mǎn)足Mercer定理?xiàng)l件, 又稱(chēng)高斯核。簡(jiǎn)記為RBF)
作為核函數(shù)建立推理試驗(yàn)?zāi)P。徑向基函?shù)形為:
‰,:唧f-學(xué)1
在分類(lèi)分析中,基于RBF核求得的最終決策函數(shù)形為:
…∞
M(x)=sgn(∑ayfK(x,xA+b)
一ss
nt支磊量…xpf-匕筍]+6)
支持剛量
…-,
l
‘,
J
其中玉為作為支持向量的樣本因子響亮;x為待預(yù)報(bào)因子向量;q,6為建 立SVM模型待確定的系數(shù),/-為核參數(shù),求和運(yùn)算P,xt支持向量進(jìn)行。
4.4支持向量機(jī)--V--I算法參數(shù)的確定
SVM中可供調(diào)整的參數(shù)較少,其模型的確立主要是核函數(shù)的形式及參數(shù), 如采用多項(xiàng)式核函數(shù)就是要確定q,對(duì)于高斯徑向基核函數(shù)則是要確定仃。對(duì) 于分類(lèi)問(wèn)題,標(biāo)準(zhǔn)的SVM的另一個(gè)可調(diào)節(jié)的參數(shù)是懲罰系數(shù)C。 我們利用CMSVM建模軟件平臺(tái),采用逐步篩選的方法確定參數(shù)。首先 設(shè)置較大的參數(shù)取值范圍,對(duì)參數(shù)進(jìn)行大間隔步長(zhǎng)的循環(huán)取值,通過(guò)訓(xùn)練和測(cè) 試,依據(jù)評(píng)分準(zhǔn)則確定在這種狀況下建立的最優(yōu)SVM分析模型所對(duì)應(yīng)的參數(shù)
值;再以此參數(shù)值為中心,設(shè)置較小的參數(shù)范圍,以小間隔步長(zhǎng)重復(fù)上述步驟,
直至最終確定出用于建立SVM分析模型的理想?yún)?shù)值,進(jìn)而確定分析模型。 (4.1I)中的參數(shù)盯由逐步篩選方法確定,at和b為建摸過(guò)程中依據(jù)約束條件
自動(dòng)生成,不需人為選擇。
4.5結(jié)論
4.5.1
支持向量機(jī)l-v-1算法分類(lèi)試驗(yàn)結(jié)果
這里采用的樣本心電圖數(shù)據(jù)為MIT-BIH心電數(shù)據(jù)庫(kù)文件T101.dat中第12
秒到14秒數(shù)據(jù)段的心電采樣點(diǎn)數(shù)據(jù),采樣率為250Hz,見(jiàn)表4.1
由于心電圖的條件屬性都是連續(xù)值,因此必須先進(jìn)行離散化,按下表進(jìn)行 離散化。
Values NO.
屬性 一階 差分
0
I
2
3
4
5
6
l
<一44
[-“。一10】
[一10,0)
(0,10】Clo。30)[30,80】>80
2 3
一階 <一37.6[一37.6,0)[O,一41.2][41.2,80)≥80 差分
表4.1
心電圖一階差分和二階差分的離散化方法
U l l 2 3 4 5 6 7 8 9 10 2 2 3 3 4 4 5 4 5 3 2 2 1 2 1 0 O O O O l 3 l 2 2 2 6 6 6 4 2 2 2 2 O O O 0 O O 5 2 l l l 3 4 2 4 2 4
條件屬性
6 1 2 2 2 4 4 4 4 4 2 7 2 2 2 3 l 1 1 1 1 2 8 2 2 1 1 2 2 2 2 2 2 9 3 2 3 2 O O 0 O O l 10 2 l 2 2 4 4 4 4 4 2 1l l 1 1 1 6 6 6 6 6 5 l l l 1 2 2 2 2 2 3
類(lèi)
別
6
6 4
表4.2
決策表
建模程序采用CMSVMI.0,選取徑向基函數(shù)作為支持向量機(jī)核函數(shù),最優(yōu)
37
模型中的參數(shù)c=100,核參數(shù)g=O.001,將樣本數(shù)據(jù)75%作為分類(lèi)訓(xùn)練樣本,20%
作為分類(lèi)實(shí)驗(yàn)樣本,5%作為分類(lèi)檢驗(yàn)樣本,成功預(yù)報(bào)率為98.7%。 本文將支持向量機(jī)(SVM)1-vs-rest算法首次系統(tǒng)地用于心電圖分類(lèi); 目前也有人試圖將SVM用于心電圖自動(dòng)分析率先將S、,M方法引入到ECG分類(lèi)
中,并通過(guò)實(shí)際臨床心電數(shù)據(jù)在SvM不同的核函數(shù)上做了比較分析,然而并沒(méi)
有給出對(duì)EcG分類(lèi)的識(shí)別率,而僅僅是縱向比較了取兩類(lèi)不同核函數(shù)得到的結(jié) 果,并沒(méi)有給出實(shí)際的處理方式和方法僅是在理論方法上提出一種可能。本文 首先分析了該方法存在的理論依據(jù)接著選取了支持向量機(jī)算法并給出該算法 的模型和相應(yīng)的核函數(shù)及參數(shù),最后通過(guò)MIT-BIH心電數(shù)據(jù)庫(kù)進(jìn)行實(shí)例分析, 獲得了較高的識(shí)別率,并在算法模型的構(gòu)造和分類(lèi)速度優(yōu)于常規(guī)方法。SVM算 法是將線性不可分的心電信號(hào)數(shù)據(jù)映射到一個(gè)高維空間中,在此高維空間中建 構(gòu)最優(yōu)超平面。利用超平面進(jìn)行線性分類(lèi)。用傳統(tǒng)神經(jīng)網(wǎng)絡(luò)分類(lèi)算法BP神經(jīng) 網(wǎng)絡(luò)算法,一旦輸入矢量的維數(shù)增加,其收斂性和錯(cuò)誤率就會(huì)發(fā)生較大改變, 需要隨時(shí)根據(jù)輸入改變其網(wǎng)絡(luò)結(jié)構(gòu)和激活函數(shù)的類(lèi)型。而根據(jù)SⅧ分類(lèi)算法的 性質(zhì),如果目標(biāo)樣本數(shù)量增大的話,只需適當(dāng)?shù)卦黾佑?xùn)練樣本的個(gè)數(shù)同洋能得
保證較好的分類(lèi)率。
心電數(shù)據(jù)分類(lèi)在心臟疾病診斷中發(fā)揮著越來(lái)越大的作用,對(duì)心電數(shù)據(jù)分類(lèi) 是診斷心臟疾病的定量信息所不可缺少的手段。心電自動(dòng)分析技術(shù),即在從人 體上采集到數(shù)字化心電信號(hào)之后,利用現(xiàn)代信號(hào)處理和計(jì)算機(jī)技術(shù),進(jìn)行心電 信號(hào)上各波、段和間期的檢測(cè),并在此基礎(chǔ)上進(jìn)行其它各方面的進(jìn)一步分析, 實(shí)現(xiàn)心電圖的診斷,整個(gè)過(guò)程大多數(shù)由計(jì)算機(jī)自動(dòng)完成,減少人工的參與以盡
可能避免因人為造成的誤檢。
4.5.2下一步研究的方向 心電圖的計(jì)算機(jī)自動(dòng)分析研究是一個(gè)長(zhǎng)期而復(fù)雜的研究過(guò)程,要做的工作 還很多,支持向量機(jī)是心電圖分析中的一個(gè)新的研究領(lǐng)域,本文僅是用支持向
量機(jī)對(duì)心電圖分類(lèi)作了初步的研究,對(duì)于支持向量機(jī)而言除了分類(lèi)能力以外還
具有回歸分析、特征提取的能力。因此下一步的工作重點(diǎn)為: 1.怎樣利用支持向量機(jī)對(duì)心電信號(hào)進(jìn)行特征點(diǎn)提?
2.將提取結(jié)果利用支持向量機(jī)建立起一套心電圖自動(dòng)診斷分析系統(tǒng)。 該系統(tǒng)可以開(kāi)發(fā)出自動(dòng)分析軟件從而直接與心電圖機(jī)配合使用;在心電圖 機(jī)將病人的心電數(shù)據(jù)檢測(cè)出后直接作為該軟件的數(shù)據(jù)輸入,通過(guò)該系統(tǒng)先對(duì)數(shù) 據(jù)進(jìn)行預(yù)處理然后特征提取,隨之將提取出的特征數(shù)據(jù)進(jìn)行分類(lèi)診斷分析,最 后打印診斷報(bào)告。心電圖的自動(dòng)診斷可以將醫(yī)務(wù)人員從煩瑣的心電圖形分析中 解脫出來(lái),特別指導(dǎo)鄉(xiāng)鎮(zhèn)中小醫(yī)院,邊遠(yuǎn)山區(qū)醫(yī)生正確判定患者的疾病種類(lèi), 大大提高工作效率。并可開(kāi)展網(wǎng)上自動(dòng)診斷各種疾病,有利于人們防治各種疾 病提高全民的身體素質(zhì)。因而本研究具有很高的經(jīng)濟(jì)和社會(huì)效益。
參考文獻(xiàn)
[1]V.Vapnik.The
-Verlag,1995. Nature of Statistical Learning Theory.New York:Springer
一
[2]V.Vapnik.Statistical [3】
Barabino
Learning Theory.New York:John Wiley&Sons,1998. A,et a1.Support Vector Machines Verleysen
vs
N,Pallavicini M,Petrolini Perceptrons in
Multi—layer
Particle
Identification.
M.
Proceedings ESANN.Brussels;Dfactron。1999,257_262.
[4]Bartlett
P L,Shawe—teylor J.Generalization Performance of Support
Vector Machines and Other Pattern Classifiers.Scholkopf B,Gwrges C J C,Smola A J,Advances in Kernel Methods—Support Cambridge;MIT Press,1999. Vector Learning.
[5]c.Cortes.V.Vapnik.Support 20(3):273—297. [6]
E.Osuna,R.Freund.and
Vector Network.Machines Learning,1995,
F.Girosi.Support
Vector
Machines:Training
and
Appliciations.Technical Report AIM一1602.MIT A.I.Lab.,1996.
[7]Scholkopf,S.Mika,C.J.C.Burges,et
a1.Input Space vs.Future Space in
on
Kernel—based Methods.IEEE Transactions 1000—1017.
Neural
Network,1999,10(5):
[8]Guyon
and D.G.Stork.Linear Discriminant and Support Vector Classifi—
era.In^.J.SMOLA,P.L Bartlett.B.Scholkopf and D.Schunrmans,editors,
Advances in Large,Margin Classifiers,Cambridge,MA,2000,MIT Press. Tutorial
on
[9]Burges C.J.C.A
Support Vector Machines for Pattern Reco—
gnition.Knowledge Discovery and Data
Mining,1998,2(2):121—167.
[10】s.o.Stitson,J.A.E.Weston.et
Technical Report,1996.
a1.Theory of Support Vector Machines.
[11]Steve
Gunn.Support Vector Machines
for Classficiation and Regression.
IAIS Technical Report.University of Southampton,1998.
[12】A J.Smola,B.Scholkopf.A
Tutorial
on
Support Vector Regression.Neuro
COLT2 Technical Report Series.NC2一TR一1998-030,1998.
柏
[13]v.Vapnik,S.Golowich,A.Smola.Support
—oximation。Regression Neural Estimation,and
Vector Method for Function Appr Signal Processing.In Advances in
Information Processing
Systerms
9,1996.Forthcoming.
[14]B.Scholkopf,S.Kah—Kay,et
a1.Comparing Support Vector Machines with
Gaussian Kenels to Radial Basis Function Classifiers,IEEE trans.Signal Processing,1997,45:2758—2765.
[15]V.Wan,w.M.Campell.Support
Vector Machines for Speaker Verification
and Identification.In Proc.IEEE Workshop Neural Networks for Processing,Sydne,Auetralia,2000,775—784.
Signal
[16]E.Osuna,R.Freund,F.Girosit.Training
Support Vector Machines:An App—
lication to Face Detection.Processing of IEEE Computer Society Confe—
rence on
Computer Vision and Pattern
Recognition,1997,130—136.
[17]T.Joachims.Tranductive
Inference for Text Classification Using the Int.conf.Machine Learning,
Support Vector Machines.Presented at Slovenia,1999.
[18]Pontil
M,Verri A.Support Vector Machines For 3D Object Recognition.
IEEE Trans.on Pattern Analysis and Machine 637-646.
Intelligence。1998,20(6):
[19]Q.Zhao,J.Principe.Support Recognition.IEEE (2):643-654. [20]K.I.Kim,K.Jung,et
Vector Machines
for SAR Automatic Target
Trans.on Aerospace and Electronic
Systerms,2001,37
a1.Support Vector Machines for Texture C1assifi。
ciation.IEEE Trans.On Pattern Analysis and Machine Intelligence,2002,
24(11):1542-1563.
’
[21]Issam
Ei-Naqa,Y-V Vang,et a1.A Support Vector Machines Approach for
Detection of Microcalcifications.IEEE Trans.On Medical Image,2002,21
(12):1552—1563. [22]G.M.Fung
and o.L.Mangasarian.Breast Tumor Susceptibility to Chemothe—
Rapy via Support Vector Machines.Data Mining Institute Technical
Report
41
03—06.2003
[23]唐孝,莫智文.基于SVM的ECG分類(lèi)策略.生物醫(yī)學(xué)工程學(xué)雜志.2007第三期(已 錄用). [24]張翔,田金文,柳。С窒蛄繖C(jī)及其在醫(yī)學(xué)圖像分割中的應(yīng)用:[博士學(xué)位論 文].華中科技大學(xué),2004. C25] 邢華雄.心電圖基礎(chǔ).北京:解放軍出版社,1988;35-42,128—141 [26] 邊肇祺,張學(xué)工等編著.模式識(shí)別.北京:清華大學(xué)出版社.2000. [27]
V.Vapnik.The Nature of Statistical Learning Theory.New York:Springer
—Verlag,1995.(張學(xué)工譯,統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì),北京:清華大學(xué)出版社.2000.) [283祝海龍.統(tǒng)計(jì)學(xué)習(xí)理論的工程應(yīng)用:[博士學(xué)位論文].西安交通大學(xué),2002. [29]K.R.Mul ler,S.Mika,G.Ratsch,K.Tsuda.AIl
Learning Algorithms.IEEE Transactions 181-201. Introduction to Kernel—Based
on
Neutral
Network。2001,12(2):
[30]V.Vapnik.Statistical
Learning Theory.Wiley,New York。1998. Support Vector Machines Approach to Decision
[31]K.P.Bennett,J.A.Blue。A
Trees.R.P.L.Math Report.No.97一100。Rensselaer Polytechnic Institute, Troy,NY,1997.
[32]史忠植編著.高級(jí)人工智能.北京:科學(xué)出版社.1998. [33]J.Weston,C.Watkins.Multiclass Support
U.K,Tech.Rep.CSD—TR一98—04,1998. Vector Machines.Univ.London.
[34]忻棟.支持向量機(jī)算法的研究及在人說(shuō)話識(shí)別上的應(yīng)用:[碩士學(xué)位論文].浙江 大學(xué),2002. [35]李紅蓮,王春花,袁保宗.一種改進(jìn)的支持向量機(jī)NN-SW.計(jì)算機(jī)學(xué)報(bào)。2003.
[36]王國(guó)勝,鐘義信.支持向量機(jī)的若干新進(jìn)展.電子學(xué)報(bào).2001,29(10):1397-1400
[37]周珂,彭宏,胡勁松.支持向量機(jī)在心電圖分類(lèi)診斷中的應(yīng)用.微計(jì)算機(jī)信息, 2006;22(3—3):237-239. 【38】Zhou SHI Rautaharju
parameters
P M.Calhoun n P.Selection of
a
reduced set of
for classification of ventricular conduction defects by Comp Cardiol,1993;879.
cluster
analysis[R].Proc
42
[39]Minam
I K C,Nakajima H,Toyoshma T.Real—time discrimination of
W
ventricular tachyarrythm ia
ith fourier—transform
neural network
[JJ.IEEE [40]A
Trans B
iam
ed
Eng.1999;46:179.
fonoso V X。Tompkins W J.Detecting ventricular fibrillation: for the
Selecting the appropriate time—frequency analysis tool
application[J].IEEE 【41]Zhang
Eng M ed B iolMag.1995:14:152.
XS,Zhu YS。Thakor N V,etal Detecting ventricular tachycardia and
fibrillation by complex ity 46:548.
measure[J].IEEE
T
rans
B iom ed Eng,1999;
[42】Chen
SW.Two—stage discrim ination of cardiac arrhythm
prony
ia
S
using
a
total least squares—based
ed Eng,2000;47:1317.
modeling
algorithm[J].IEEE
Trans B iom
[43]^rnold
M,M iltner w H R,w itte H.A daptive A R modeling of nonstationary
means
time series by 1998:45:533.
of Kalman fi
ltering[J].IEEE
T
rans
B iom ed
Eng,
[44]Ham
F3l。Han S.Classificiation of
carhiac arrhythm ia
S
using fuzzy
ARTMAP[J].IEEE
Trans B iom ed Eng,1996;43:425.
[45]任建峰,郭雷.李剛.多類(lèi)支持向量機(jī)的自然圖象分類(lèi).西北工業(yè)大學(xué)學(xué)報(bào), 2005:23(3):295—298. [46]Platt J.Fast
Training of Support Vector Machines Using Sequential in Kernel Methods.Cambridge,Mass:MIT
Minimal Optimization in Advances Fres。1999:185.
[47]薛明東,郭立.基于SVM算法的圖象分類(lèi).計(jì)算機(jī)工程與應(yīng)用,2004;30:230. [48】張華煜。邢麗萍.基于核函數(shù)的支持向量機(jī)分類(lèi)方法.電腦開(kāi)發(fā)與應(yīng)用,2005:
18(7):26
[49】黃發(fā)良,鐘智.用于分類(lèi)的支持向量機(jī).廣西師范學(xué)院學(xué)報(bào)(自然科學(xué)版),
2004;21(3):75.
[50]沈翠華,劉廣利,鄧乃揚(yáng).一種改進(jìn)的支持向量分類(lèi)方法及其應(yīng)用.計(jì)算機(jī)工程。
2005:31(8):153.
43
[51]龍曉林,蔣靜坪.基。海樱郑偷臋C(jī)器人1:仲識(shí)別華中科技人學(xué)學(xué)報(bào)(自然科學(xué)版)
2005:33(2):41.
[52]路斌,楊建武,陳曉鷗.一種基于SVM的多層分類(lèi)策略.計(jì)算機(jī)工稃。2005:
31(1):73.
致謝
本文是在導(dǎo)師莫智文教授的精心指導(dǎo)下完成的,三年來(lái),導(dǎo)師在學(xué)術(shù)和生
活上給予了我極大的指導(dǎo)和幫助,使我進(jìn)入粗糙集和心電圖像信息處理領(lǐng)域, 并做了一些科研工作。感謝質(zhì)樸、溫厚的導(dǎo)師莫智文教授,先生那對(duì)科學(xué)孜孜 不倦的熱忱與衷愛(ài)、淵博的知識(shí)與智慧、嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度,都讓我時(shí)刻感動(dòng)并
銘記于心,這些也都將成為我今后的人生境界。 感謝電子科技大學(xué)舒蘭教授在學(xué)術(shù)上的指導(dǎo)和生活上的關(guān)心l
感謝北京氣象學(xué)院陳永義教授提供的SVM技術(shù)指導(dǎo)! 感謝電子科技大學(xué)漆進(jìn)老師在學(xué)術(shù)上的指導(dǎo)l 感謝四川師范大學(xué)數(shù)學(xué)與軟件科學(xué)學(xué)院領(lǐng)導(dǎo)和老師們對(duì)我的學(xué)習(xí)和生活 給予了大力的支持和幫助!
感謝和我一起學(xué)習(xí)的同學(xué)們! 最后,我還要深深地感謝我的父母,在我學(xué)習(xí)期間給予我學(xué)業(yè)堅(jiān)定的理解 和支持,對(duì)我生活無(wú)微不至的關(guān)心,為我付出了巨大的犧牲!
攻讀碩士學(xué)位期間的科研成果
[1].Tang
Xiao,Mo Zhiwen.A Model
of Granular of
Computing Based
OH
gquivalent
Operator
of Pansystems
Rough
Sets.Fuzzy systems
and mathemat i
cs,(2007)4,2.
[2].唐孝,唐麗,莫智文.基于支持向量機(jī)算法的ECG分類(lèi)策略.生物醫(yī)學(xué)工 程學(xué)雜志(已錄用) [3].Mo
zhiwen,Tang Li,Tang xiao,Lan Shu,The Algorithm of the Quick
Fitting LADT,International Joural of Computer Science and Network
Security,(2006)6,6,52—56. [4].王燕,唐孝,唐麗.基于絕對(duì)分析的多值信息系統(tǒng)粗集模型及其約簡(jiǎn)。四川 師范大學(xué)學(xué)報(bào).(已錄用)
[5].唐麗,唐孝,莫智文.Vague集相似度量及其在心電圖自動(dòng)識(shí)別中的應(yīng)用.
生物醫(yī)學(xué)工程學(xué)雜志(已錄用) [6]。唐孝,莫智文.汽車(chē)防抱變論域自適應(yīng)模糊控制器設(shè)計(jì).控制理論.(修改 中) [7:.唐孝,莫智文.基于支持向量機(jī)1-vs-rest算法的心電圖分類(lèi)方法.中國(guó) 生物醫(yī)學(xué)工程學(xué)報(bào)(修改中) [8:.莫智文,唐孝.ECG自動(dòng)分類(lèi)診斷的研究. (已完稿)
[9:.莫智文,唐孝.ECG自動(dòng)診斷系統(tǒng)的開(kāi)發(fā).(已完稿)
支持向量機(jī)(SVM)及其在心電圖(ECG)分類(lèi)識(shí)別中的應(yīng)用
作者: 學(xué)位授予單位: 唐孝 四川師范大學(xué)
相似文獻(xiàn)(10條) 1.期刊論文 劉志剛.李德仁.秦前清.史文中 支持向量機(jī)在多類(lèi)分類(lèi)問(wèn)題中的推廣 -計(jì)算機(jī)工程與應(yīng)用2004,40(7)
支持向量機(jī)(SVMs)最初是用以解決兩類(lèi)分類(lèi)問(wèn)題,不能直接用于多類(lèi)分類(lèi),如何有效地將其推廣到多類(lèi)分類(lèi)問(wèn)題是一個(gè)正在研究的問(wèn)題.該文總結(jié)了現(xiàn) 有主要的支持向量機(jī)多類(lèi)分類(lèi)算法,系統(tǒng)地比較了各算法的訓(xùn)練速度、分類(lèi)速度和推廣能力,并分析它們的不足和有待解決的問(wèn)題.
2.學(xué)位論文 張曉平 基于支持向量機(jī)的多類(lèi)分類(lèi)算法研究及在滾動(dòng)軸承故障識(shí)別中的應(yīng)用 2007
上世紀(jì)九十年代,在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出了一種新的機(jī)器學(xué)習(xí)算法——支持向量機(jī)。由于其具有良好的理論基礎(chǔ)和推廣能力,并解決了機(jī) 器學(xué)習(xí)領(lǐng)域存在的一些問(wèn)題,因而受到了人們普遍的重視。然而,支持向量機(jī)本身是針對(duì)兩類(lèi)分類(lèi)問(wèn)題的算法,而實(shí)際生活中廣泛存在著的是多類(lèi)別的 分類(lèi)問(wèn)題,因此,研究如何利用支持向量機(jī)實(shí)現(xiàn)多類(lèi)分類(lèi),具有十分重要的意義,也成為當(dāng)前研究的一個(gè)熱點(diǎn)問(wèn)題。國(guó)內(nèi)外學(xué)者在此領(lǐng)域作了大量的研 究工作,提出了多種基于支持向量機(jī)的多類(lèi)分類(lèi)算法,達(dá)到了利用支持向量機(jī)實(shí)現(xiàn)多類(lèi)分類(lèi)的目的,這些算法有著各自的優(yōu)點(diǎn),但還存在一定的缺陷 ,還有很多問(wèn)題需要得到進(jìn)一步的解決?傮w上看,基于支持向量機(jī)的多類(lèi)分類(lèi)算法的研究還處于一個(gè)不斷探索的階段,有著廣闊的發(fā)展空間。 本文全部研究工作的著眼點(diǎn)主要集中于以下幾個(gè)問(wèn)題:現(xiàn)有的幾種支持向量機(jī)多類(lèi)分類(lèi)器在算法結(jié)構(gòu)和分類(lèi)機(jī)理上彼此有什么共同點(diǎn),能否將它們 歸結(jié)為幾種類(lèi)型;如何確定多類(lèi)分類(lèi)器的算法結(jié)構(gòu)以提高分類(lèi)器的推廣能力;核函數(shù)的變化對(duì)多類(lèi)樣本經(jīng)過(guò)映射后所有兩類(lèi)間的可分性對(duì)比關(guān)系究竟有 什么影響;能否直接在高維特征空間中對(duì)多類(lèi)樣本所有兩類(lèi)的可分性對(duì)比關(guān)系進(jìn)行估計(jì);能否提出新的支持向量機(jī)多類(lèi)分類(lèi)算法,并且使其具有較好的 推廣能力。針對(duì)以上問(wèn)題,本文主要做了以下幾個(gè)方面的研究工作,第一,從算法結(jié)構(gòu)和分類(lèi)機(jī)理的角度對(duì)“一對(duì)一”、“一對(duì)多”、基于二叉樹(shù)結(jié)構(gòu) 的支持向量機(jī)多類(lèi)分類(lèi)算法及DAGSVM進(jìn)行了分析,并將其分別歸結(jié)到兩種利用支持向量機(jī)實(shí)現(xiàn)多類(lèi)分類(lèi)的算法設(shè)計(jì)思路之中,為從算法結(jié)構(gòu)和分類(lèi)機(jī)理 的角度研究支持向量機(jī)多類(lèi)分類(lèi)算法提供了一種參考;第二,進(jìn)行了滾動(dòng)軸承的故障實(shí)驗(yàn),分別采集了滾動(dòng)軸承在五種工作狀態(tài)下的振動(dòng)信號(hào),并通過(guò) 小波包變換進(jìn)行特征提取,得到了對(duì)應(yīng)于滾動(dòng)軸承五種工作狀態(tài)的五類(lèi)樣本;第三,對(duì)類(lèi)間可分性的幾個(gè)相關(guān)問(wèn)題進(jìn)行了研究,并通過(guò)將核函數(shù)引入到 類(lèi)間可分性度量算法當(dāng)中,實(shí)現(xiàn)了對(duì)高維特征空間中所有兩類(lèi)樣本可分性的度量與對(duì)比;第四,對(duì)不同的核函數(shù)及同一種核函數(shù)的不同參數(shù)對(duì)多類(lèi)樣本 在高維特征空間中所有兩類(lèi)間的可分性及其對(duì)比關(guān)系的影響進(jìn)行了研究和總結(jié);第五,提出了基于類(lèi)間可分性度量的二叉樹(shù)結(jié)構(gòu)生成算法,并利用得到 的二叉樹(shù)結(jié)構(gòu)構(gòu)造支持向量機(jī)多類(lèi)分類(lèi)器,通過(guò)實(shí)驗(yàn)證明,利用本文提出的算法所確定的二叉樹(shù)結(jié)構(gòu)使得到的多類(lèi)分類(lèi)器的分類(lèi)性能有所提高;第六 ,分別提出了基于兩類(lèi)可分性最大原則的支持向量機(jī)多類(lèi)分類(lèi)算法和基于類(lèi)間可分性度量的“一對(duì)二”支持向量機(jī)多類(lèi)分類(lèi)算法,并將它們分別應(yīng)用于 對(duì)滾動(dòng)軸承五種工作狀態(tài)的識(shí)別,取得了較好的效果。 本文通過(guò)以上工作,主要對(duì)確定支持向量機(jī)多類(lèi)分類(lèi)算法的結(jié)構(gòu)、發(fā)展新的支持向量機(jī)多類(lèi)分類(lèi)算法、多類(lèi)樣本所有兩類(lèi)間的可分性對(duì)比關(guān)系及其 與核函數(shù)的聯(lián)系等幾個(gè)方面進(jìn)行了研究,并將所提出的一些方法應(yīng)用于對(duì)滾動(dòng)軸承五種狀態(tài)的識(shí)別,取得了較好的效果。總的來(lái)講,基于支持向量機(jī)的 多類(lèi)分類(lèi)算法的研究主要立足于如何用較好的方法構(gòu)造出性能更為優(yōu)良的多類(lèi)分類(lèi)器,其中許多問(wèn)題的解決還有待于廣大研究者的進(jìn)一步探索。
3.期刊論文 王曉鋒.秦玉平.WANG Xiao-feng.QIN Yu-ping 基于支持向量機(jī)的網(wǎng)頁(yè)多類(lèi)分類(lèi)技術(shù) -大連輕工業(yè)學(xué)院 學(xué)報(bào)2007,26(4)
基于支持向量機(jī)的網(wǎng)頁(yè)分類(lèi)技術(shù)是數(shù)據(jù)挖掘中一個(gè)研究熱點(diǎn)領(lǐng)域.支持向量機(jī)是一種高效的分類(lèi)識(shí)別方法,在解決高維模式識(shí)別問(wèn)題中表現(xiàn)出許多特 有的優(yōu)勢(shì),但支持向量機(jī)本身是一個(gè)兩類(lèi)問(wèn)題的判別方法,不能直接應(yīng)用于多類(lèi)問(wèn)題.總結(jié)了當(dāng)前常用的幾種支持向量機(jī)多類(lèi)分類(lèi)算法,分別從訓(xùn)練速度、 測(cè)試速度、分類(lèi)精度三方面對(duì)這些分類(lèi)方法進(jìn)行了討論,并給出了進(jìn)一步的研究方向.
4.學(xué)位論文 張晶晶 多類(lèi)分類(lèi)支持向量機(jī)在信用評(píng)級(jí)領(lǐng)域的應(yīng)用及核參數(shù)選擇研究 2009
支持向量機(jī)(Support Vector Machine)是數(shù)據(jù)挖掘的新方法,也是一種小樣本統(tǒng)計(jì)工具,它在解決小樣本、非線性及高維的模式識(shí)別問(wèn)題上具有其 他機(jī)器學(xué)習(xí)方法難以企及的優(yōu)勢(shì)。在支持向量機(jī)二類(lèi)分類(lèi)方法的基礎(chǔ)上,本文深入研究了多類(lèi)分類(lèi)的算法及其應(yīng)用。 巴塞爾新資本協(xié)議希望并鼓勵(lì)銀行業(yè)發(fā)展內(nèi)部信用評(píng)級(jí)系統(tǒng),如何尋找到一種客觀、可行的評(píng)級(jí)方法,如何構(gòu)建內(nèi)部評(píng)級(jí)系統(tǒng),對(duì)國(guó)內(nèi)銀行從業(yè)者 提出了新的要求和挑戰(zhàn)。信用評(píng)級(jí)從科學(xué)的角度對(duì)信用度進(jìn)行定性和定量分析,其本質(zhì)是一個(gè)非線性的分類(lèi)問(wèn)題,用支持向量機(jī)可以很好地解決。 本文在前人研究的基礎(chǔ)上,圍繞著支持向量機(jī)多類(lèi)分類(lèi)算法的改進(jìn)及其在信用評(píng)級(jí)領(lǐng)域應(yīng)用而展開(kāi)。 首先,根據(jù)巴塞爾新資本協(xié)議提出的信用評(píng)級(jí)體系,建立對(duì)應(yīng)的評(píng)級(jí)模型。該模型的建立將信用評(píng)級(jí)過(guò)程標(biāo)準(zhǔn)化,層次化。本文主要針對(duì)模型層進(jìn) 行分析,通過(guò)改進(jìn)模型層的核心算法,實(shí)現(xiàn)不同的評(píng)級(jí)方法。 其次,將層次支持向量機(jī)、糾錯(cuò)編碼支持向量機(jī)等幾種適合用于多類(lèi)分類(lèi)的算法加以改變和優(yōu)化,使之有更好的分類(lèi)效果。然后結(jié)合銀行提供的評(píng) 級(jí)樣本,使用工具箱實(shí)現(xiàn)了機(jī)器學(xué)習(xí)和數(shù)據(jù)評(píng)估過(guò)程。最后從性能、分類(lèi)效果和易實(shí)現(xiàn)等角度分析了這幾種多類(lèi)分類(lèi)算法的相對(duì)優(yōu)劣。 本文還分析了核函數(shù)的選取對(duì)支持向量機(jī)分類(lèi)結(jié)果的影響,通過(guò)調(diào)節(jié)參數(shù),對(duì)不同參數(shù)條件下的分類(lèi)效果進(jìn)行實(shí)驗(yàn)。分析了幾種最常見(jiàn)核函數(shù)的性 能和特點(diǎn),闡述了核函數(shù)的構(gòu)造和相關(guān)定理,選擇實(shí)驗(yàn)所用的核函數(shù)--Gauss徑向基核函數(shù);同時(shí)研究了Gauss徑向基核函數(shù)兩個(gè)參數(shù)意義,根據(jù)數(shù)據(jù)源 樣本對(duì)兩個(gè)參數(shù)σ和C進(jìn)行調(diào)整,找尋參數(shù)值與支持向量機(jī)學(xué)習(xí)、推廣性能之間的關(guān)系,最后總結(jié)了參數(shù)調(diào)節(jié)的方法。
5.會(huì)議論文 孫開(kāi)師.賀國(guó)平 基于聚類(lèi)的支持向量機(jī)多類(lèi)分類(lèi)問(wèn)題 2006
支持向量機(jī)源于二類(lèi)分類(lèi)問(wèn)題,而支持向量機(jī)多類(lèi)分類(lèi)問(wèn)題雖然取得了一定的進(jìn)展,但是目前仍是一個(gè)不斷發(fā)展的熱點(diǎn)問(wèn)題.本文介紹了當(dāng)前支持向量 機(jī)多類(lèi)分類(lèi)問(wèn)題的一般解法和思路,提出了一種基于聚類(lèi)的支持向量機(jī)多類(lèi)分類(lèi)問(wèn)題的解法,并與通常的解法相比較,得到了良好的結(jié)果。
6.學(xué)位論文 楊杰 基于模糊支持向量機(jī)的多類(lèi)分類(lèi)方法研究 2005
多類(lèi)分類(lèi)是機(jī)器學(xué)習(xí)的一個(gè)重要分支,而經(jīng)典的支持向量機(jī)算法是針對(duì)兩類(lèi)的分類(lèi)問(wèn)題提出的,于是人們將其推廣來(lái)解決多類(lèi)分類(lèi)問(wèn)題.在一些實(shí)際 問(wèn)題中類(lèi)與類(lèi)的邊界是不清晰的,為此人們又提出了模糊支持向量機(jī)的概念,來(lái)進(jìn)一步完善支持向量機(jī)多類(lèi)分類(lèi)方法及滿(mǎn)足一些其他實(shí)際問(wèn)題的需要.基 于不同的出發(fā)點(diǎn),目前主要有兩種建立在模糊支持向量機(jī)基礎(chǔ)上的分類(lèi)方法,但都不是很成熟,本文的工作在于對(duì)這兩種方法進(jìn)行深入分析,提出改進(jìn) 算法,并加以實(shí)例驗(yàn)證: 一種思想是由日本學(xué)者Takuga與Shigeo提出的.此方法主要是針對(duì)一對(duì)多組合與一對(duì)一組合支持向量機(jī)存在決策盲區(qū)而提出的,但這種方法并不能保 證各個(gè)多類(lèi)分類(lèi)器結(jié)果的一致性,本文給出一個(gè)修正的模糊支持向量機(jī)的分類(lèi)模型,從而提高此方法的性能. 另一種思想由臺(tái)灣學(xué)者Chun-FuLiu,Sheng-DeWang,Han-PangHuang等人提出,其出發(fā)點(diǎn)是為了突出數(shù)據(jù)中各個(gè)樣本點(diǎn)的重要程度的差異,同時(shí)也為 了減小噪音數(shù)據(jù)對(duì)分類(lèi)結(jié)果的影響.本文將這種方法和一對(duì)多組合結(jié)合起來(lái),從而使新的多類(lèi)分類(lèi)算法具有很好的泛化能力. 經(jīng)實(shí)例驗(yàn)證,本文提出的改進(jìn)算法比原方法有更好的分類(lèi)結(jié)果.
7.期刊論文 唐發(fā)明.王仲東.陳綿云.TANG Fa-ming.WANG Zhong-dong.CHEN Mian-yun 支持向量機(jī)多類(lèi)分類(lèi)算法研 究 -控制與決策2005,20(7)
提出一種新的基于二叉樹(shù)結(jié)構(gòu)的支持向量(SVM)多類(lèi)分類(lèi)算法.該算法解決了現(xiàn)有主要算法所存在的不可分區(qū)域問(wèn)題.為了獲得較高的推廣能力,必須 讓樣本分布廣的類(lèi)處于二叉樹(shù)的上層節(jié)點(diǎn),才能獲得更大的劃分空間.所以,該算法采用最小超立方體和最小超球體類(lèi)包含作為二叉樹(shù)的生成算法.實(shí)驗(yàn)結(jié) 果表明,該算法具有一定的優(yōu)越性.
8.學(xué)位論文 趙暉 支持向量機(jī)分類(lèi)方法及其在文本分類(lèi)中的應(yīng)用研究 2005
支持向量機(jī)作為一種基于統(tǒng)計(jì)學(xué)習(xí)理論的新型機(jī)器學(xué)習(xí)方法,較好地解決了非線性、高維數(shù)、局部極小點(diǎn)等實(shí)際問(wèn)題,是機(jī)器學(xué)習(xí)領(lǐng)域新的研究熱 點(diǎn)。文本分類(lèi)是基于內(nèi)容的自動(dòng)信息管理的核心技術(shù)。文本向量稀疏性大、維數(shù)高、特征之間具有較大的相關(guān)性,支持向量機(jī)對(duì)于特征相關(guān)性和稀疏性 不敏感,處理高維數(shù)問(wèn)題具有較大的優(yōu)勢(shì),因此,支持向量機(jī)非常適用于文本分類(lèi)問(wèn)題,在文本分類(lèi)中具有很大的應(yīng)用潛力。但是,同時(shí),文本分類(lèi)也 給支持向量機(jī)提出了許多富有挑戰(zhàn)性的課題。例如,文本分類(lèi)具有類(lèi)別和樣本數(shù)目多、噪音多等特點(diǎn),支持向量機(jī)用于文本分類(lèi)時(shí)存在訓(xùn)練和分類(lèi)速度 較慢等缺點(diǎn)。該文主要針對(duì)支持向量機(jī)在文本分類(lèi)等實(shí)際應(yīng)用中存在的問(wèn)題進(jìn)行深入研究。 主要工作如下: 1、支持向量機(jī)是針對(duì)兩類(lèi)分類(lèi)問(wèn)題提出的,如何將其有效地推廣到多類(lèi)分類(lèi)仍是一個(gè)尚未完全解決的問(wèn)題。分析了現(xiàn)有支持向量機(jī)多類(lèi)分類(lèi)方法的 特點(diǎn),并給出了一種半模糊核聚類(lèi)算法,在此基礎(chǔ)上,根據(jù)樹(shù)型支持向量機(jī)的特性,提出了一種基于半模糊核聚類(lèi)的樹(shù)型支持向量機(jī)多類(lèi)分類(lèi)方法。該 方法基于半模糊核聚類(lèi)算法挖掘不同類(lèi)別之間的銜接和離散信息,設(shè)計(jì)樹(shù)型支持向量機(jī)的樹(shù)型結(jié)構(gòu),克服其差錯(cuò)積累問(wèn)題。實(shí)驗(yàn)表明,與其它支持向量 機(jī)多類(lèi)分類(lèi)方法相比,該方法具有較高的分類(lèi)精度和訓(xùn)練速度,提高了支持向量機(jī)在多類(lèi)分類(lèi)問(wèn)題中的應(yīng)用效果。 2、針對(duì)標(biāo)準(zhǔn)支持向量機(jī)對(duì)噪音敏感,分類(lèi)時(shí)傾向于樣本數(shù)目較多的類(lèi)別的問(wèn)題,給出一種模糊支持向量機(jī)的推廣模型,并在此基礎(chǔ)上,結(jié)合近似支 持向量機(jī)的優(yōu)勢(shì),提出了一種支持向量機(jī)組合分類(lèi)方法。該方法首先采用近似支持向量機(jī)快速地去除非支持向量、減少訓(xùn)練樣本數(shù)目、確定樣本權(quán)值和 模型參數(shù),然后在樣本數(shù)目較少的訓(xùn)練集上,依據(jù)選擇好的模型參數(shù)和樣本權(quán)值訓(xùn)練模糊支持向量機(jī)的推廣模型。實(shí)驗(yàn)表明,該方法能有效確定樣本權(quán) 值,減少訓(xùn)練時(shí)間,并克服野值點(diǎn)和類(lèi)別訓(xùn)練樣本數(shù)目不均衡對(duì)分類(lèi)器的不利影響。 3、通常情況下,支持向量的數(shù)目越多,支持向量機(jī)的分類(lèi)速度越慢,如何縮減支持向量集合、提高支持向量機(jī)的分類(lèi)速度是支持向量機(jī)的重要研究 內(nèi)容之一。在分析了現(xiàn)有支持向量集合縮減方法的基礎(chǔ)上,提出了一種基于虛樣本與支持向量回歸的支持向量集合縮減方法。該方法是根據(jù)支持向量集 合和支持向量回歸方法的特性,對(duì)Osuna等提出的支持向量集合縮減方法的改進(jìn)。該方法通過(guò)引入虛樣本剔除支持向量集合中的冗余樣本,生成虛邊界支 持向量,解決了當(dāng)冗余支持向量數(shù)目較多、邊界支持向量數(shù)目很少時(shí),Osuna等提出的方法不能有效縮減支持向量集合的問(wèn)題。實(shí)驗(yàn)表明,該方法在基本 不降低支持向量機(jī)分類(lèi)精度的前提下,比Osuna等提出的方法更大程度地減少了支持向量的數(shù)目,提高了支持向量機(jī)的分類(lèi)速度。 4、基于支持向量機(jī)在文本分類(lèi)中的優(yōu)勢(shì),將支持向量機(jī)方法應(yīng)用于文本分類(lèi)的特征提取,提出了一種基于支持向量機(jī)的單詞聚類(lèi)方法。該方法基于 支持向量機(jī)度量單詞對(duì)分類(lèi)的貢獻(xiàn)大小,將對(duì)分類(lèi)貢獻(xiàn)一致的單詞合并起來(lái)作為文本向量的一個(gè)特征項(xiàng)。實(shí)驗(yàn)表明,該方法在基本不丟失分類(lèi)信息的前 提下,較大程度地降低了文本向量的維數(shù)、減少了文本特征之間的相關(guān)性,并提高了文本分類(lèi)的查準(zhǔn)率和查全率。
9.期刊論文 黃劍鋒.劉付顯.朱法順.HUANG JIANFENG.LIU FUIXIJAIN.ZHU FASHUN 基于多類(lèi)分類(lèi)支持向量機(jī)的空襲 目標(biāo)識(shí)別 -微計(jì)算機(jī)信息2008,24(10)
針對(duì)已有空襲目標(biāo)識(shí)別方法存在的不足,依據(jù)空襲目標(biāo)的分類(lèi)原則,提出了基于多類(lèi)分類(lèi)支持向量機(jī)的空襲目標(biāo)識(shí)別方法.該方法采用支持向量機(jī)的多 類(lèi)分類(lèi)技術(shù),降低了經(jīng)驗(yàn)風(fēng)險(xiǎn),有效地提高了識(shí)別率.最后給出了一個(gè)算例,結(jié)果和專(zhuān)家給出的建議一致,表明支持向量機(jī)方法比較精確和簡(jiǎn)單.
10.學(xué)位論文 王曉峰 SVM多類(lèi)分類(lèi)及其在遙感圖像中的應(yīng)用 2005
支持向量機(jī)(SVM)是在Vapnic的統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上發(fā)展起來(lái)的一種新的模式識(shí)別方法。它以結(jié)構(gòu)風(fēng)險(xiǎn)最小化(SRM)為原則,通過(guò)實(shí)現(xiàn)確定的非線性 映射將輸入向量映射到一個(gè)高維特征空間中,然后在此高維空間中構(gòu)建最優(yōu)分類(lèi)超平面。SVM在解決小樣本、非線性及高維模式識(shí)別問(wèn)題中表現(xiàn)出許多特 有的優(yōu)勢(shì),并能夠推廣到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問(wèn)題中。目前,將SVM應(yīng)用于模式識(shí)別領(lǐng)域,是當(dāng)前SVM的一個(gè)研究熱點(diǎn)。 最初SVM是用以解決兩類(lèi)分類(lèi)問(wèn)題,不能直接用于多類(lèi)分類(lèi)。因此如何有效地將其推廣到多類(lèi)分類(lèi)問(wèn)題還是一個(gè)正在研究的問(wèn)題。當(dāng)前已經(jīng)有許多算 法將SVMs推廣到多類(lèi)分類(lèi)問(wèn)題,這些算法統(tǒng)稱(chēng)為“多類(lèi)支持向量機(jī)“(Multi-category Support Vector Machimes,M-SVMs)。本文提出了一種基于編碼 二叉樹(shù)的多類(lèi)支持向量機(jī)——CB-SVMs,算法舍棄了各子分類(lèi)器間大量冗余信息及其較小的糾錯(cuò)補(bǔ)償,合理利用了其它子分類(lèi)器的分類(lèi)信息,大大減少了 子分類(lèi)器的數(shù)目。復(fù)雜度分析和在標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集上的計(jì)算結(jié)果表明:CB-SVMs相對(duì)其它M-SVMs,有效提高了訓(xùn)練速度和測(cè)試速度,同時(shí)具有構(gòu)造簡(jiǎn)單、 穩(wěn)定性好的優(yōu)點(diǎn)。 本文最后介紹了遙感圖像分類(lèi)的基本理論和算法,通過(guò)將CB-SVMs應(yīng)用到遙感圖像分類(lèi)中去,表明了CB-SVMs算法具有較高的分類(lèi)精度和泛化性能。 同時(shí)說(shuō)明了SVM算法在遙感圖像分類(lèi)方面良好的應(yīng)用前景。
本文鏈接: 授權(quán)使用:電子科技大學(xué)(cddzkjdx),授權(quán)號(hào):c0c68a99-28fd-4bb4-a62c-9ea300eda538 下載時(shí)間:2011年3月11日
本文關(guān)鍵詞:支持向量機(jī)(SVM)及其在心電圖(ECG)分類(lèi)識(shí)別中的應(yīng)用,由筆耕文化傳播整理發(fā)布。
本文編號(hào):224174
本文鏈接:http://sikaile.net/yixuelunwen/swyx/224174.html