樹(shù)模型在社會(huì)心理流行病學(xué)研究中的應(yīng)用
發(fā)布時(shí)間:2019-08-16 08:26
【摘要】: 隨著疾病譜和現(xiàn)代醫(yī)學(xué)模式的轉(zhuǎn)變,流行病學(xué)研究的范圍也經(jīng)歷了從傳染病到非傳染病、急性病到慢性病、從疾病到健康的轉(zhuǎn)變,社會(huì)因素、心理因素在疾病和健康問(wèn)題相關(guān)研究中受到越來(lái)越多的關(guān)注。社會(huì)心理流行病學(xué)研究呈現(xiàn)出多因一果的特點(diǎn),多個(gè)因素多種水平的交互作用錯(cuò)綜復(fù)雜,傳統(tǒng)的方法在分析時(shí)受到諸多條件的限制,方法越來(lái)越難,運(yùn)算量越來(lái)越大,結(jié)果的解釋也越來(lái)越不容易,對(duì)決策支持提供的信息也缺乏整體性和直觀性,因此可操作性有所降低。引進(jìn)一種基于數(shù)據(jù)的、易操作的,結(jié)果可靠且容易理解的分析技術(shù),具有相當(dāng)?shù)钠惹行浴?基于樹(shù)結(jié)構(gòu)模型的數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。它通過(guò)在訓(xùn)練集中的數(shù)據(jù)表現(xiàn)出來(lái)的特性,為每一個(gè)類找到一種準(zhǔn)確的描述或者模型,可用于提取描述重要數(shù)據(jù)類的模型或預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì)。利用了人工智能(AI)所帶來(lái)的好處,在足夠多的數(shù)據(jù)和計(jì)算能力下,幾乎不用人的關(guān)照自動(dòng)就能完成許多有價(jià)值的功能,使研究者能夠更專注于自己所要解決的問(wèn)題。 聽(tīng)力損失和認(rèn)知功能減退在老年人中較為普遍,對(duì)老年人的身心健康都有影響,會(huì)使老年人的生活質(zhì)量下降,危害極為嚴(yán)重。因此,探討聽(tīng)力損失和認(rèn)知功能的影響因素進(jìn)而對(duì)其做出干預(yù),對(duì)提高老年人生活質(zhì)量有著重要意義。 目的:(1)探討老年人認(rèn)知功能及聽(tīng)力損害的影響因素及其作用方式;(2)比較通過(guò)幾種常見(jiàn)算法構(gòu)建的樹(shù)結(jié)構(gòu)模型的效果;(3)探討不同類型因變量資料的樹(shù)模型應(yīng)用。 數(shù)據(jù)來(lái)源: 1.抽取太原市太白巷、杏花嶺、煤化所、江陽(yáng)化工廠、農(nóng)科院等五個(gè)社區(qū)的1065名60歲以上非癡呆老年人作為研究對(duì)象,其中男461人,女604人。作為認(rèn)知功能研究的查對(duì)象。調(diào)查內(nèi)容為橫斷面研究,主要包括:1)認(rèn)知功能測(cè)查。在小范圍預(yù)調(diào)查的基礎(chǔ)上,采用選自韋氏成人智力量表的算術(shù)、數(shù)字廣度、填圖、木塊圖幾個(gè)分測(cè)驗(yàn)以及簡(jiǎn)易智能量表(Mini memal state examination,MMSE)測(cè)定1065名老年人的認(rèn)知功能,以探索老年人認(rèn)知功能隨年齡變化的規(guī)律。2)一般情況調(diào)查。包括:一般人口學(xué)資料,如年齡、性別、職業(yè)、受教育程度、婚姻狀況等;軀體健康狀況資料,如高血壓、糖尿病、腦血栓等疾彩?測(cè)量血壓、聽(tīng)力損失情況;生活習(xí)慣,如Smoking、飲酒、體育鍛煉、常讀書(shū)看報(bào)、做家務(wù)等。3)生理指標(biāo)測(cè)定。對(duì)太白巷、江陽(yáng)、農(nóng)科院社區(qū)的294名老年人進(jìn)行如下指標(biāo)測(cè)定:血糖、血脂(包括膽固醇、高密度脂蛋白、低密度脂蛋白、甘油三酯)測(cè)定,采用酶法。 2.隨機(jī)抽取太原市兩個(gè)社區(qū)的50歲以上中老年人371例(男131例,女240例)作為聽(tīng)力損失的研究對(duì)象。調(diào)查內(nèi)容包括1)一般情況調(diào)查。包括:一般人口學(xué)資料,如年齡、性別、職業(yè)、受教育程度、婚姻狀況、收入情況等:軀體健康狀況資料,如高血壓、糖尿病、腦血栓、冠心病、高脂血癥等疾病史,測(cè)量血壓;生活習(xí)慣,如居住情況,出行習(xí)慣,是否經(jīng)常參加社區(qū)活動(dòng)、吸煙、飲酒、體育鍛煉、常讀書(shū)看報(bào)、做家務(wù)等。2)實(shí)驗(yàn)室檢查:查12小時(shí)空腹血糖.甘油三脂和總膽固醇。3)聽(tīng)力測(cè)查:采用LK-1助聽(tīng)評(píng)估儀分別測(cè)兩耳0.5kHz、1kHz、2kHz聽(tīng)閾。 研究方法: 1.認(rèn)知功能研究將韋氏成人智力量表中的算術(shù)、木塊圖、填圖和數(shù)字廣度四個(gè)分測(cè)驗(yàn)的標(biāo)準(zhǔn)分和MMSE總分轉(zhuǎn)換為二分類變量,以轉(zhuǎn)換后的韋氏四項(xiàng)分測(cè)驗(yàn)得分和MMSE總分為因變量,以CHAID、EXHAUSTIVE CHAID、CRT和QUEST四種算法擬合樹(shù)結(jié)構(gòu)模型。 2.聽(tīng)力損失研究以最優(yōu)耳聽(tīng)閾、左耳聽(tīng)閾、右耳聽(tīng)閾以及0.5kHz、1kHz、2kHz聽(tīng)閾為變量(連續(xù)變量),擬合樹(shù)結(jié)構(gòu)模型。 結(jié)果: 在認(rèn)知功能研究中,對(duì)韋氏成人智力量表算術(shù)、木塊圖、填圖、數(shù)字廣度四個(gè)分測(cè)驗(yàn)得分有影響的變量有受教育程度、婚姻狀況、運(yùn)動(dòng)、性別、年齡、膽固醇、高密度脂蛋白、低密度脂蛋白、對(duì)身體狀況的自我感覺(jué)、吸煙、飲酒、收縮壓。 受教育程度低、喪偶、很少運(yùn)動(dòng),女性、高齡、高密度脂蛋白低、低密度脂蛋白高、自我感覺(jué)身體較差、吸煙、飲酒是出現(xiàn)得分低于正常的危險(xiǎn)特征。對(duì)MMSE測(cè)驗(yàn)得分有影響的因素有冠心病史和舒張壓,有過(guò)冠心病史、舒張壓高于正常均可導(dǎo)致MMSE總分低于正常值。 不同的算法構(gòu)建的樹(shù)結(jié)構(gòu)模型對(duì)因素間交互作用的方式描述有差異,但總體的趨勢(shì)一致。模型的響應(yīng)指數(shù)曲線和收益曲線表明模型的擬合效果良好。模型的誤分代價(jià)估計(jì)值在0.10-0.38之間,錯(cuò)分概率在7%—28%之間,整體預(yù)測(cè)精度達(dá)到72%—92.9%之間。 CRT算法和QUEST算法引入的變量較多但樹(shù)形圖相對(duì)簡(jiǎn)單,是因?yàn)椴糠忠氲淖兞坎⒉皇亲鳛榉种ё兞?而是當(dāng)分支變量出現(xiàn)缺失值時(shí)作為其替代變量出現(xiàn)的,這些變量和分支變量有較高強(qiáng)度的關(guān)聯(lián)性,往往能為我們的下一步研究提供線索。 在聽(tīng)力損失研究中,最優(yōu)耳聽(tīng)力損失的影響因素有年齡、社區(qū)活動(dòng)、舒張壓、收入:左耳聽(tīng)力損失的影響因素有年齡、居住情況、收入和性別:右耳聽(tīng)力損失的影響因素有年齡和收入;0.5kHz頻率下測(cè)得的聽(tīng)力損失影響因素有出行習(xí)慣,年齡,收入,血糖,居住情況,高血壓;1.0 kHz頻率下測(cè)得的聽(tīng)力損失影響因素有年齡、居住情況和性別;2.0kHz頻率下測(cè)得的聽(tīng)力損失影響因素有年齡、收入、居住情況和性別。 年齡是老年人聽(tīng)力損失的主要影響因素,隨著年齡的增長(zhǎng),聽(tīng)力損失的程度加重,一個(gè)例外是59歲和60歲老人的聽(tīng)力損失較其相鄰的年齡段低;經(jīng)常參加社區(qū)活動(dòng)的人聽(tīng)力損失程度重,舒張壓高于正常者聽(tīng)力損失程度重,收入低于200元的人聽(tīng)力損失程度重,和子女同住者聽(tīng)力損失程度重,男性的聽(tīng)力損失程度低于女性,習(xí)慣自己搭乘公車者聽(tīng)力損失程度重,低血糖者聽(tīng)力損失程度輕于正常者,有高血壓病史者聽(tīng)力損失程度重。 左右耳比較,不同之處在于對(duì)居住情況(是否與兒女同住)的反應(yīng)不同和部分的性別差異;0.5kHz頻率下測(cè)得的聽(tīng)力損失程度較另外兩種頻率下測(cè)得的聽(tīng)力損失程度重,且影響的因素最多。 CHAID算法和EXHAUSTIVE CHAID算法在本研究中的擬合結(jié)果一致,由于本研究樣本量較小,CRT擬合的樹(shù)模型中不包含自變量,且結(jié)果很不穩(wěn)定,由于QUEST算法不能對(duì)連續(xù)型的因變量做出擬合,在本文中只采用了CHAID算法來(lái)構(gòu)建樹(shù)模型。 結(jié)論: 本文以老年人認(rèn)知功能減退影響因素研究和聽(tīng)力損失影響因素研究為例,做樹(shù)結(jié)構(gòu)模型的比較學(xué)研究。以認(rèn)知功能研究為例探討以不同算法對(duì)同一組資料構(gòu)建樹(shù)結(jié)構(gòu)模型挖掘出的信息有何異同,與傳統(tǒng)方法研究的結(jié)果作對(duì)比看是否具有一致性;以老年人聽(tīng)力損失影響因素研究為例,探討同一組資料經(jīng)不同方式預(yù)處理后再構(gòu)建樹(shù)結(jié)構(gòu)模型,嘗試從不同的側(cè)面對(duì)數(shù)據(jù)中隱藏的信息進(jìn)行充分的挖掘,以便對(duì)數(shù)據(jù)背后的事實(shí)進(jìn)行最大程度的還原。同時(shí)探討樹(shù)結(jié)構(gòu)模型結(jié)果的表述與傳統(tǒng)方法研究的結(jié)果表述相比有何異同、特色和優(yōu)勢(shì)。 樹(shù)模型挖掘出來(lái)的信息和其他方法的結(jié)果反映的信息基本一致,說(shuō)明其對(duì)數(shù)據(jù)背后的事實(shí)還原程度較高,也就是說(shuō)擬合效果較好,這是評(píng)價(jià)一種建模方法優(yōu)劣的根本標(biāo)準(zhǔn)。但傳統(tǒng)的方法更多的是單因素分析,結(jié)果比較側(cè)重于某一種特定的因素,反映的是研究對(duì)象的局部的一種特征:即使是在多因素分析時(shí),為了顯示某一種或幾種因素的效應(yīng),需要人為地將另外一種或幾種因素的影響去掉,否則研究者關(guān)注的因素的作用就可能被掩蓋了,說(shuō)明傳統(tǒng)方法對(duì)弱的交互作用探測(cè)能力不足,在這種情況下選擇哪些因素作為研究的目標(biāo),或者把那種因素的作用遮蓋以便顯示其他因素的作用,就不可避免的具有了人為的偏性,這也是傳統(tǒng)方法是基于技術(shù)的特點(diǎn)決定的,研究者在進(jìn)行研究時(shí)花費(fèi)了大量的精力對(duì)數(shù)據(jù)進(jìn)行修飾和處理以適合方法的需要,既損失了部分信息,也可能或多或少偏離了研究的初衷,出現(xiàn)結(jié)果不能被很好地解釋也就不在意料之外。 樹(shù)結(jié)構(gòu)模型是一種數(shù)據(jù)挖掘技術(shù),而數(shù)據(jù)挖掘技術(shù)是基于數(shù)據(jù)的方法,樹(shù)結(jié)構(gòu)模型擅長(zhǎng)處理多變量資料,對(duì)資料的分布要求不嚴(yán)格,應(yīng)用條件不苛刻,運(yùn)算速度較快,適合處理不同類型的變量資料。CHAID、EXHAUSTIVE CHAID、CRT算法既可以適用于因變量為連續(xù)變量的情況,又可以適用于因變量是分類變量和無(wú)序變量的情況,QUEST算法只適用于因變量為連續(xù)變量的情況。CHAID算法和EXHAUSTIVE CHAID算法在構(gòu)造樹(shù)模型時(shí)設(shè)定參數(shù)相同的情況下,生成的樹(shù)基本一致。CRT算法在樣本量較小時(shí)不穩(wěn)定,但在樣本量足夠大的情況下表現(xiàn)出色。在這種情況下研究者不需要花費(fèi)大量的時(shí)間對(duì)數(shù)據(jù)進(jìn)行處理和修飾,選擇一種適合的算法,即可在友好的人機(jī)交互界面下引入眾多變量以原本的信息表現(xiàn)形式進(jìn)行模型構(gòu)建,使信息損失達(dá)到了最小程度,也使操作的復(fù)雜性降到了很低的程度。樹(shù)結(jié)構(gòu)模型的另外一個(gè)特色是對(duì)交互作用的描述和解釋更簡(jiǎn)單直觀,而且能描述多于兩種因素的交互作用,結(jié)果描述的是被研究對(duì)象同時(shí)具有的多種特征,具有較強(qiáng)的整體感。對(duì)于分類變量,能描述出幾種因素交互作用時(shí)帶來(lái)的目標(biāo)效應(yīng)的響應(yīng)指數(shù)(能反應(yīng)這些變量及其交互作用帶來(lái)的目標(biāo)效應(yīng)響應(yīng)聚集強(qiáng)度。類似于OR值),適合于篩選高危人群以便對(duì)其作出有效的干預(yù)。 樹(shù)模型方法簡(jiǎn)便易操作,結(jié)果可靠易理解,方法本身是從別的研究領(lǐng)域中引進(jìn)的,在社會(huì)心理流行病學(xué)研究中的應(yīng)用具有良好的效果,可以推斷其在具有大樣本、多因素、多水平、存在交互作用等特點(diǎn)的其他領(lǐng)域也具有良好的應(yīng)用前景。 當(dāng)然,任何一種方法都可能有其不足之處,探討樹(shù)結(jié)構(gòu)模型和傳統(tǒng)方法的聯(lián)合應(yīng)用將是本人今后努力的一個(gè)方向。
【圖文】:
8090100圖6算術(shù)測(cè)驗(yàn)標(biāo)準(zhǔn)分EXHAUST工 VECHA工D樹(shù)模型收益曲線圖6顯示,收益從零開(kāi)始以較高的斜度迅速向100%靠近,隨后曲線變得較為平緩,,說(shuō)明該模型對(duì)數(shù)據(jù)的擬合效果較好。
708090100圖7算術(shù)測(cè)驗(yàn)標(biāo)準(zhǔn)分 EXHAUSTIVECHAID樹(shù)指數(shù)曲線圖7顯示,響應(yīng)指數(shù)從明顯高于100%的地方開(kāi)始,持續(xù)一段之后迅速下降接近100%,也說(shuō)明模型對(duì)數(shù)據(jù)的擬合效果較好。表11算術(shù)測(cè)驗(yàn)標(biāo)準(zhǔn)分 EXHAUSTIVECHAID樹(shù)分類評(píng)價(jià)表觀觀測(cè) 測(cè)預(yù)測(cè) 測(cè)減 減減退組組正常組組正確率率減減退組 組 11444688862.6%%%正正常組 組 900041666822%%%整整體百分比比 29.7%%%70.3%%%77.0%%%表11顯示,模型將不同特征的人群預(yù)測(cè)為對(duì)應(yīng)目標(biāo)效應(yīng)的正確率達(dá)到”%,說(shuō)明模型的擬合效果良好。表12算術(shù)測(cè)驗(yàn)標(biāo)準(zhǔn)分EXHAUST工 VECHAID樹(shù)模型風(fēng)險(xiǎn)評(píng)價(jià)表方方法 法估計(jì)計(jì)標(biāo)準(zhǔn)誤誤重重新替代代 .27999.02000交交叉驗(yàn)證證 .28777.01999表12顯示,經(jīng)過(guò)10次交叉驗(yàn)證,模型的錯(cuò)誤分類代價(jià)為28.7%
【學(xué)位授予單位】:山西醫(yī)科大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2007
【分類號(hào)】:R181.3
本文編號(hào):2527319
【圖文】:
8090100圖6算術(shù)測(cè)驗(yàn)標(biāo)準(zhǔn)分EXHAUST工 VECHA工D樹(shù)模型收益曲線圖6顯示,收益從零開(kāi)始以較高的斜度迅速向100%靠近,隨后曲線變得較為平緩,,說(shuō)明該模型對(duì)數(shù)據(jù)的擬合效果較好。
708090100圖7算術(shù)測(cè)驗(yàn)標(biāo)準(zhǔn)分 EXHAUSTIVECHAID樹(shù)指數(shù)曲線圖7顯示,響應(yīng)指數(shù)從明顯高于100%的地方開(kāi)始,持續(xù)一段之后迅速下降接近100%,也說(shuō)明模型對(duì)數(shù)據(jù)的擬合效果較好。表11算術(shù)測(cè)驗(yàn)標(biāo)準(zhǔn)分 EXHAUSTIVECHAID樹(shù)分類評(píng)價(jià)表觀觀測(cè) 測(cè)預(yù)測(cè) 測(cè)減 減減退組組正常組組正確率率減減退組 組 11444688862.6%%%正正常組 組 900041666822%%%整整體百分比比 29.7%%%70.3%%%77.0%%%表11顯示,模型將不同特征的人群預(yù)測(cè)為對(duì)應(yīng)目標(biāo)效應(yīng)的正確率達(dá)到”%,說(shuō)明模型的擬合效果良好。表12算術(shù)測(cè)驗(yàn)標(biāo)準(zhǔn)分EXHAUST工 VECHAID樹(shù)模型風(fēng)險(xiǎn)評(píng)價(jià)表方方法 法估計(jì)計(jì)標(biāo)準(zhǔn)誤誤重重新替代代 .27999.02000交交叉驗(yàn)證證 .28777.01999表12顯示,經(jīng)過(guò)10次交叉驗(yàn)證,模型的錯(cuò)誤分類代價(jià)為28.7%
【學(xué)位授予單位】:山西醫(yī)科大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2007
【分類號(hào)】:R181.3
【引證文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前1條
1 武媛媛;未婚女性人流與流產(chǎn)后服務(wù)現(xiàn)狀及重復(fù)流產(chǎn)影響因素研究[D];山西醫(yī)科大學(xué);2012年
本文編號(hào):2527319
本文鏈接:http://sikaile.net/yixuelunwen/liuxingb/2527319.html
最近更新
教材專著