【摘要】:數(shù)據(jù)挖掘技術(shù)在各個(gè)領(lǐng)域的廣泛應(yīng)用加快了人們探索大量數(shù)據(jù)背后隱藏信息的步伐。人們希望借助數(shù)據(jù)挖掘的方法對(duì)嚴(yán)重威脅人類健康的冠心病進(jìn)行有效的研究,而決策樹分類算法作為數(shù)據(jù)挖掘技術(shù)中的數(shù)據(jù)分析方法,高精度的分類準(zhǔn)確率、直觀的決策結(jié)果、較高的泛化能力使它成為研究冠心病的較理想方法。但是,由于缺失值以及噪聲數(shù)據(jù)的存在,我們得到的分析結(jié)果并不能用于實(shí)際中的冠心病診治工作。因此,本文針對(duì)缺失數(shù)據(jù)處理和決策樹分類對(duì)噪聲數(shù)據(jù)敏感的不足,提出了相應(yīng)的改進(jìn)辦法。本文的主要研究內(nèi)容主要分以下幾個(gè)方面: (1)冠心病數(shù)據(jù)自身的特點(diǎn)決定了它的屬性值多為離散類型的,而現(xiàn)存的KNN填充算法只適用于處理連續(xù)型屬性并且未充分考慮缺失事例之間的聯(lián)系。因此,本文提出了一種既可以處理離散和連續(xù)類型屬性又能充分利用其他所有事例對(duì)該缺失事例的影響程度進(jìn)行有針對(duì)性的填充。該方法使用灰色系統(tǒng)中的灰色關(guān)聯(lián)分析理論選取與需要填充的數(shù)據(jù)事例最相似的K的事例,根據(jù)這K個(gè)事例攜帶信息量的大小使用加權(quán)平均的方法對(duì)缺失的數(shù)據(jù)值進(jìn)行填充。最后用標(biāo)準(zhǔn)UCI數(shù)據(jù)集的對(duì)比實(shí)驗(yàn)說明本文提出的填充算法優(yōu)于其他的算法。 (2)幾乎所有的數(shù)據(jù)集都存在或多或少的噪聲數(shù)據(jù),冠心病數(shù)據(jù)集中的噪聲數(shù)據(jù)對(duì)決策樹分類的結(jié)果影響較大。為此,本文提出了一種基于尺度函數(shù)的變精度粗糙集屬性選擇標(biāo)準(zhǔn),該標(biāo)準(zhǔn)同時(shí)考慮屬性的加權(quán)近似精度和屬性值個(gè)數(shù),提高了對(duì)噪聲數(shù)據(jù)的抗干擾能力,減弱了屬性選擇時(shí)的偏向性,提高了分類精度。同時(shí)在樹的預(yù)剪枝過程中引入抑制因子閾值、支持度和置信度,簡化了樹結(jié)構(gòu)。通過標(biāo)準(zhǔn)UCI數(shù)據(jù)集的對(duì)比實(shí)驗(yàn)說明本文提出的改進(jìn)算法優(yōu)于其他的決策樹算法。 (3)將本文提出的填充算法和決策樹改進(jìn)算法以決策樹模塊的形式嵌入冠心病中醫(yī)輔助診療系統(tǒng)中,實(shí)現(xiàn)對(duì)冠心病數(shù)據(jù)集的中醫(yī)診斷證型的分類。
【學(xué)位授予單位】:大連海事大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP311.13;N941.5
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王大玲,于戈,鮑玉斌,王國仁;一種基于關(guān)聯(lián)性度量的決策樹分類方法[J];東北大學(xué)學(xué)報(bào);2001年05期
2 畢建東,楊掛芳;基于熵的決策樹分枝合并算法[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);1997年02期
3 洪雪飛;徐維祥;;基于變精度粗糙集的決策樹改進(jìn)方法[J];計(jì)算機(jī)工程與應(yīng)用;2009年13期
4 趙蕊;李宏;;一種多值屬性和多類標(biāo)數(shù)據(jù)的決策樹算法[J];計(jì)算機(jī)工程;2007年13期
5 王熙照;楊晨曉;;分支合并對(duì)決策樹歸納學(xué)習(xí)的影響[J];計(jì)算機(jī)學(xué)報(bào);2007年08期
6 洪家榮,丁明峰,,李星原,王麗薇;一種新的決策樹歸納學(xué)習(xí)算法[J];計(jì)算機(jī)學(xué)報(bào);1995年06期
7 孫亞男;寧士勇;魯明羽;陸玉昌;;貝葉斯分類算法在冠心病中醫(yī)臨床證型診斷中的應(yīng)用[J];計(jì)算機(jī)應(yīng)用研究;2006年11期
8 李宏;陳松喬;趙蕊;郭躍健;;一種多值屬性多類標(biāo)數(shù)據(jù)決策樹算法[J];模式識(shí)別與人工智能;2007年06期
9 王雙成,苑森淼;具有丟失數(shù)據(jù)的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)研究[J];軟件學(xué)報(bào);2004年07期
10 苗奪謙,王玨;基于粗糙集的多變量決策樹構(gòu)造方法[J];軟件學(xué)報(bào);1997年06期
相關(guān)博士學(xué)位論文 前1條
1 陳景年;選擇性貝葉斯分類算法研究[D];北京交通大學(xué);2008年
本文編號(hào):
2680268
本文鏈接:http://sikaile.net/projectlw/xtxlw/2680268.html