利用人工神經(jīng)網(wǎng)絡(luò)模型預(yù)測原發(fā)性高血壓的研究
本文關(guān)鍵詞:利用人工神經(jīng)網(wǎng)絡(luò)模型預(yù)測原發(fā)性高血壓的研究,由筆耕文化傳播整理發(fā)布。
【摘要】: 前言 原發(fā)性高血壓(essential hypertension, EH)是常見的心血管疾病之一,近年來,隨著我國經(jīng)濟發(fā)展,生活節(jié)奏明顯增快,產(chǎn)生了一系列的不健康的生活方式,導致我國心腦血管疾病死亡率、發(fā)病率和患病率持續(xù)上升。高血壓既是一種獨立的疾病,又是引發(fā)心腦血管疾病的重要危險因素,發(fā)生高血壓危象及高血壓腦病等嚴重并發(fā)癥時可危及生命。因此,高血壓的防治工作不容忽視。 國內(nèi)外研究表明,高血壓是一種多因子疾病,致病因素多,各因素間關(guān)系復雜,是高血壓研究的重要特點。目前疾病預(yù)測的方法以傳統(tǒng)的Logistic回歸(Logistic regression, LR)為主,Logistic回歸模型要求變量滿足獨立性且不能處理變量之間的共線性問題。因此,應(yīng)用Logistic回歸模型進行預(yù)測高血壓這樣的復雜疾病具有一定的局限性。人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANNs),簡稱為神經(jīng)網(wǎng)絡(luò)(NNs),是模擬生物神經(jīng)網(wǎng)絡(luò)進行信息處理的一種數(shù)學模型。神經(jīng)網(wǎng)絡(luò)具有強大的解決共線性效應(yīng)和變量間的交互作用的能力,善于處理非線性的、模糊的、含有噪聲的數(shù)據(jù)情況。目前,人工神經(jīng)網(wǎng)絡(luò)在醫(yī)學上的應(yīng)用還遠沒有傳統(tǒng)的Logistic回歸那么廣泛。 本研究所選擇的現(xiàn)場是遼寧省彰武縣農(nóng)村,經(jīng)調(diào)查該人群高血壓標化患病率高達35%,全國罕見。本研究利用這些調(diào)查數(shù)據(jù)建立BP人工神經(jīng)網(wǎng)絡(luò)(backpropagation ANNs)預(yù)測模型,并與Logistic回歸模型進行比較,利用受試者工作特征曲線(receiver operator characteristic curve, ROC曲線)評價人工神經(jīng)網(wǎng)絡(luò)模型的預(yù)測性能。以探討和評價ANNs用于疾病預(yù)測的效果和特點,為高血壓等復雜疾病的預(yù)測探索新的方法,同時對農(nóng)村高血壓病的防治也有一定的參考價值。 研究對象與方法 一、研究對象的選擇 本研究利用之前在遼寧省彰武縣農(nóng)村進行的EH流行病學調(diào)查的資料進行統(tǒng)計、預(yù)測分析。該調(diào)查采用整群多級隨機抽樣的方法總計調(diào)查5208人,最后30歲以上常住人群共計4126名調(diào)查對象被納入本次研究,其中女1942人,男2184人。 二、調(diào)查內(nèi)容和檢測指標 在現(xiàn)場以問詢和測量的方式填寫調(diào)查表,調(diào)查內(nèi)容主要包括:一般特征,吸煙史,飲酒史等;測量血壓、體重、身高等 現(xiàn)場每人采血5ml(隔夜空腹),經(jīng)離心后分離血清,分裝冰凍保存用于血清指標檢測。 三、診斷標準和測量方法: 高血壓診斷是根據(jù)1999年WHO/ISH公布的高血壓診斷標準:收縮壓≥140mmHg和/或舒張壓≥90 mmHg或既往確診的原發(fā)性高血壓者。血壓測量及其他血清生化檢測指標由專業(yè)醫(yī)護人員在標準條件下進行測量。 膽固醇、甘油三酯、HDL、LDL、血清鈉、血清鉀、血清鐵、血清鈣等指標的水平采用日本第一化學提供的7150型全自動生化分析儀,用比色法進行分析。血糖水平采用美國強生公司生產(chǎn)的穩(wěn)捷基礎(chǔ)型血糖分析儀,用滴血法進行分析。 四、神經(jīng)網(wǎng)絡(luò)模型的建立 ANNs模型采用含有一個隱含層的三層BP神經(jīng)網(wǎng)絡(luò)模型。模型輸入層的神經(jīng)元為單因素分析中P0.05的與高血壓相關(guān)的因素,輸出層有1個神經(jīng)元(即按照診斷標準判斷研究對象是否患高血壓),隱含層的神經(jīng)元個數(shù)通過實驗根據(jù)均方誤差擇優(yōu)確定。隱含層的激活函數(shù)為tansig,輸出層的激活函數(shù)為logsig。 本研究將4126例資料按照性別、年齡進行均衡后按3:1的比例隨機分為訓練總集(3096例)和測試集(1030例)兩部分,分別用于模型的建立和測試。為了防止ANNs過渡擬合,在ANNs模型的訓練過程中,又將訓練總集(3096例)按3:1的比例隨機分為訓練集(2334例)和檢驗集(762例),利用檢驗集時時地檢查訓練效果。 五、資料統(tǒng)計分析方法 用Matlab7.1軟件編程建立ANNs預(yù)測模型。用spss13.0統(tǒng)計軟件建立二分類非條件Logistic回歸的高血壓預(yù)測模型和繪制模型預(yù)測識別的ROC曲線。預(yù)測概率的判別標準為0.5,即p≥0.5時預(yù)測結(jié)果為患高血壓,否則為不患高血壓。統(tǒng)計學顯著性水平規(guī)定為α=0.05。 結(jié)果 一、非條件單因素Logistic回歸模型進行高血壓預(yù)測 對調(diào)查數(shù)據(jù)進行高血壓的單因素分析,篩選出p0.05的因素作為預(yù)測模型的輸入變量,共22個因素與高血壓有關(guān)。 二、非條件多因素Logistic回歸模型進行高血壓預(yù)測 (一)建立非條件多因素Logistic回歸模型 對訓練總集的3096例樣本進行非條件多因素Logistic回歸分析,將單因素篩選出的指標作為自變量(身高、體重已轉(zhuǎn)化為BMI故未進入模型),以研究對象是否患高血壓為因變量建立多因素Logistic回歸模型。模型采用最大似然估計前進法進行逐步回歸分析,入選變量的標準是p0.05,剔除變量的標準是p0.10。經(jīng)逐步回歸后,共有9個因素進入模型,模型改善情況檢驗(x2=4.335)和整個模型檢驗(x2=1439.457)。整個訓練總集的分類一致率為78.42%,特異度為80.45%,靈敏度為76.62%, (二)利用非條件多因素Logistic回歸模型預(yù)測 用上述Logistic回歸模型預(yù)測測試集(1030例)研究對象是否患高血壓。經(jīng)模型預(yù)測,測試集一致率為77.48%,特異度為80%,靈敏度為74.85%。三、BP神經(jīng)網(wǎng)絡(luò)模型進行預(yù)測 (一)建立BP神經(jīng)網(wǎng)絡(luò)模型 建立一個三層的BPANNs模型,以單因素篩選出的全部22個因素作為輸入變量,其隱含層設(shè)為22個神經(jīng)元,輸出層1個神經(jīng)元(即是否患EH)。目標誤差取0.01,學習速率取0.1,最大訓練周期2000。經(jīng)過17步訓練,此時訓練中均方誤差MSE為0.126262,梯度Gradient為137.276/le-010,網(wǎng)絡(luò)的訓練由于檢驗集均方誤差達到極小值而結(jié)束。測試訓練好的BPANNs模型的擬合效果,訓練集的分類一致率為81.06%,檢驗集的分類一致率為77.95%,整個訓練總集的分類一致率為80.30%,特異度為84.48%,靈敏度為76.16%。 (二)利用BP神經(jīng)網(wǎng)絡(luò)模型進行預(yù)測 用上述BPANNs模型預(yù)測測試集(1030例)研究對象是否患高血壓,測試結(jié)果見表5。其測試集分類一致率為78.83%,特異度為81.57%,靈敏度為76.42%。 四、BP神經(jīng)網(wǎng)絡(luò)模型與Logistic回歸模型高血壓預(yù)測比較 (一)預(yù)測結(jié)果的比較 神經(jīng)網(wǎng)絡(luò)模型的分類一致率、靈敏度、特異度均高于Logistic回歸模型。 (二)ROC曲線面積比較 利用SSPS13.0繪出多因素Logistic回歸模型和BPANNs模型的ROC曲線,多因素Logistic回歸模型的ROC曲線下面積為0.782,95%可信區(qū)間為[0.768,0.797],BPANNs模型的ROC曲線下面積為0.800,95%可信區(qū)間為[0.786,0.814]。 討論 高血壓的病因復雜,影響高血壓患病的危險因素是多方面的,一些危險因素之間可能存在交互作用、多重共線性,這些復雜的關(guān)系影響預(yù)測模型的擬合,嚴重干擾了高血壓的預(yù)測和病因研究工作。因此本研究利用遼寧省彰武縣農(nóng)村人群的調(diào)查資料建立高血壓的神經(jīng)網(wǎng)絡(luò)預(yù)測模型,并與傳統(tǒng)方法的Logistic回歸模型相比較,以探討神經(jīng)網(wǎng)絡(luò)模型預(yù)測高血壓發(fā)病的能力。 神經(jīng)網(wǎng)絡(luò)模型建立過程中各函數(shù)、參數(shù)的設(shè)置并沒有統(tǒng)一的標準,需要針對具體問題具體分析。本研究建立的模型是以誤差反向后傳學習算法而得名的BP神經(jīng)網(wǎng)絡(luò),它是醫(yī)學領(lǐng)域應(yīng)用最廣泛的一種神經(jīng)網(wǎng)絡(luò),集中體現(xiàn)了神經(jīng)網(wǎng)絡(luò)中最精華的部分。因為對于任何在閉區(qū)間內(nèi)的一個連續(xù)函數(shù)都可以用單隱含層的BP神經(jīng)網(wǎng)絡(luò)逼近,所以本研究采用了含有一個隱含層的三層BP神經(jīng)網(wǎng)絡(luò)?紤]到輸入層神經(jīng)元個數(shù)過多對樣本量的要求較高,所以只選擇了與高血壓密切相關(guān)的因素作為輸入變量,即單因素分析中p0.05的因素。對于輸入變量中的多分類變量(如民族)采取設(shè)置啞變量的處理方法,以方便模型更好的利用數(shù)據(jù)信息。隱含層的神經(jīng)元個數(shù)和訓練函數(shù)是根據(jù)試驗來確定的,試驗顯示,相對于其他取值,神經(jīng)元個數(shù)為22訓練函數(shù)為trainlm時均方誤差既小又穩(wěn)定,網(wǎng)絡(luò)的初始權(quán)值取(0~1)區(qū)間的隨機數(shù),由于初始值不同建立ANNs模型也不同,所以經(jīng)多次試驗選出最優(yōu)的模型。為了避免過度擬合,本研究利用檢驗集在訓練過程中隨時監(jiān)督訓練。 在本研究中,神經(jīng)網(wǎng)絡(luò)模型的分類一致率、靈敏度、特異度均高于Logistic回歸模型,Logistic回歸模型的分類一致率為77.48%,神經(jīng)網(wǎng)絡(luò)模型為78.83%?梢钥闯錾窠(jīng)網(wǎng)絡(luò)模型的預(yù)測能力略優(yōu)于Logistic回歸模型。本研究利用ROC曲線來評價兩種模型的預(yù)測效果,Logistic回歸模型和ANNs模型的AUC分別為0.782,0.800,同樣提示,對于高血壓這樣的致病因素多而且各因素間關(guān)系復雜的疾病,神經(jīng)網(wǎng)絡(luò)模型的擬合效果略好一些。 神經(jīng)網(wǎng)絡(luò)尚存在一些問題有待解決。首先,神經(jīng)網(wǎng)絡(luò)的建立隨著參數(shù)、函數(shù)、初始值等的設(shè)置而變化,這些設(shè)置的正確性缺乏理論依據(jù),只能依靠經(jīng)驗和試驗來確定;其次,神經(jīng)網(wǎng)絡(luò)不能像Logistic回歸模型那樣有一個公認的模型輸入變量的準入和剔出原則;再次,各因素對因變量作用的醫(yī)學解釋尚不明確,以及其假設(shè)檢驗方法和可信區(qū)間等問題仍有待進一步研究。 結(jié)論 試驗表明對于高血壓這樣的復雜疾病,神經(jīng)網(wǎng)絡(luò)預(yù)測模型的預(yù)測能力略優(yōu)于Logistic回歸模型。因此可以作為Logistic回歸模型的必要補充,神經(jīng)網(wǎng)絡(luò)在復雜疾病的預(yù)測方面具有廣闊應(yīng)用前景。
【關(guān)鍵詞】:神經(jīng)網(wǎng)絡(luò) 高血壓預(yù)測 Logistic回歸
【學位授予單位】:中國醫(yī)科大學
【學位級別】:碩士
【學位授予年份】:2010
【分類號】:R544.1
【目錄】:
- 一、摘要4-16
- 中文論著摘要4-9
- 英文論著摘要9-16
- 二、英文縮略語16-17
- 三、論文17-30
- 前言17-18
- 研究對象與方法18-21
- 結(jié)果21-27
- 討論27-29
- 結(jié)論29-30
- 四、本研究創(chuàng)新性的自我評價30-31
- 五、參考文獻31-33
- 六、附錄33-48
- 綜述33-47
- 致謝47-48
- 個人簡介48
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 陳建新;西廣成;王偉;趙慧輝;陳靜;;數(shù)據(jù)挖掘分類算法在冠心病臨床應(yīng)用的比較[J];北京生物醫(yī)學工程;2008年03期
2 趙一鳴;分類與回歸樹——一種適用于臨床研究的統(tǒng)計分析方法[J];北京大學學報(醫(yī)學版);2001年06期
3 馬海英;;基于神經(jīng)網(wǎng)絡(luò)及Logistic回歸的混合信用卡評分模型[J];華東理工大學學報(社會科學版);2008年02期
4 龐蓓蕾;劉力松;;高血壓病患者飲食結(jié)構(gòu)的調(diào)查分析[J];護理學雜志;2006年21期
5 熊友珍;王旋;;高血壓的危險因素及研究進展[J];湖南環(huán)境生物職業(yè)技術(shù)學院學報;2008年01期
6 傅傳喜;馬文軍;梁建華;王大虎;王聲ng;;高血壓危險因素logistic回歸與分類樹分析[J];疾病控制雜志;2006年03期
7 許雷;費新軍;曹源;姚志揚;莊家毅;;連云港市城區(qū)居民高血壓患病現(xiàn)狀及危險因素分析[J];疾病控制雜志;2006年06期
8 薛海峰;閆宏;王騁;尹慧;;膳食營養(yǎng)素攝入量與高血壓關(guān)系研究[J];齊齊哈爾醫(yī)學院學報;2007年06期
9 楊艷軍;曾俊濤;;?诘貐^(qū)高校教師高血壓患病率與相關(guān)因素調(diào)查[J];中國熱帶醫(yī)學;2008年09期
10 邸茹杰,華琦;青少年原發(fā)性高血壓臨床特點分析與運動干預(yù)[J];中國臨床康復;2003年15期
本文關(guān)鍵詞:利用人工神經(jīng)網(wǎng)絡(luò)模型預(yù)測原發(fā)性高血壓的研究,,由筆耕文化傳播整理發(fā)布。
本文編號:277805
本文鏈接:http://sikaile.net/yixuelunwen/xxg/277805.html