數(shù)據(jù)驅(qū)動(dòng)下的糖尿病并發(fā)癥預(yù)測(cè)方法研究與系統(tǒng)構(gòu)建
發(fā)布時(shí)間:2021-07-06 17:57
近年來(lái)隨著健康醫(yī)療信息化的發(fā)展,我國(guó)在醫(yī)療信息化建設(shè)方面取得了較大的進(jìn)步,科學(xué)研究、健康醫(yī)療服務(wù)和管理實(shí)踐等使得信息化系統(tǒng)中積攢了大量的電子病歷數(shù)據(jù)。對(duì)于大部分醫(yī)院來(lái)說(shuō)電子病歷系統(tǒng)更多的是一種管理工具,醫(yī)療數(shù)據(jù)資源沒(méi)有得到充分的利用。數(shù)據(jù)驅(qū)動(dòng)下的挖掘方法在生物醫(yī)學(xué)中的應(yīng)用需求,將所有可用信息智能地轉(zhuǎn)化為有價(jià)值的知識(shí)比以往任何時(shí)候都更加迫切。因此,對(duì)于電子病歷系統(tǒng)中龐大數(shù)據(jù)的挖掘已然成為醫(yī)療信息研究中的大趨勢(shì)。糖尿病為繼心血管疾病、惡性腫瘤后的第三大威脅人類健康的慢性病。糖尿病易引起并發(fā)癥,其中糖尿病腎病是糖尿病患者最重要的并發(fā)癥之一,并發(fā)癥具有早期不易發(fā)現(xiàn),且并發(fā)后藥物難以根治的特點(diǎn),因此對(duì)并發(fā)癥的預(yù)測(cè)成為研究熱點(diǎn)。課題選取了某醫(yī)院電子病歷中與糖尿病并發(fā)腎病相關(guān)數(shù)據(jù)源進(jìn)行本文研究。對(duì)糖尿病并發(fā)癥的研究主要包含以下幾個(gè)方面:(1)數(shù)據(jù)處理。由于操作不當(dāng)、機(jī)器故障等造成的噪聲、缺失值、異常值等數(shù)據(jù)質(zhì)量問(wèn)題,為了不影響實(shí)驗(yàn)預(yù)測(cè)的結(jié)果,研究中對(duì)數(shù)據(jù)進(jìn)行了整合、清洗等一系列預(yù)處理操作。(2)糖尿病并發(fā)癥預(yù)測(cè)模型構(gòu)建。對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行了多維分析,并結(jié)合算法的優(yōu)缺點(diǎn)選擇了隨機(jī)森林算法(Rando...
【文章來(lái)源】:北京工業(yè)大學(xué)北京市 211工程院校
【文章頁(yè)數(shù)】:83 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
患者基本信息Figure2-1Patientbasicinformation
從圖2-2 抽取出的患者檢查檢驗(yàn)信息存儲(chǔ)形式是按列進(jìn)行存儲(chǔ)的。經(jīng)過(guò)抽取得到的糖尿病數(shù)據(jù)包括病患基本信息 2435 條,檢驗(yàn)檢查信息210809 條。2.2.3 數(shù)據(jù)集成將不同來(lái)源的數(shù)據(jù)中涉及到同一患者的數(shù)據(jù)整合成起來(lái),這樣才能進(jìn)行后續(xù)的工作具體數(shù)據(jù)整合的步驟如下 :(1)調(diào)研相關(guān)資料并與醫(yī)院的醫(yī)護(hù)人員確定患者做檢查檢驗(yàn)的情況,根據(jù)數(shù)據(jù)的特點(diǎn)和后續(xù)實(shí)驗(yàn)的需求制定數(shù)據(jù)整合的規(guī)則。(2)根據(jù)制定的規(guī)則設(shè)計(jì)程序?qū)⑼粋(gè)患者的基本信息和檢查檢驗(yàn)信息整合為一條可用的數(shù)據(jù)樣本。按照以上需求,通過(guò)與醫(yī)院相關(guān)人員溝通,數(shù)據(jù)的整合規(guī)則為:1.取住院日期三日內(nèi)離住院日期最近的一次檢查為準(zhǔn)。2.若住院日期三日內(nèi)無(wú)數(shù)據(jù)則取門診檢查里離住院日期最近的一次檢查。3.利用以上 1 和 2 的規(guī)則通過(guò)病案號(hào)這唯一標(biāo)識(shí)將各部分?jǐn)?shù)據(jù)進(jìn)行整合。根據(jù)以上規(guī)則設(shè)計(jì)程序,將病人的基本信息與檢查檢驗(yàn)數(shù)據(jù)進(jìn)行整合,整合后得到的數(shù)據(jù)包含病患的 65 項(xiàng)?
圖 2-3 數(shù)據(jù)整合后的結(jié)果Figure 2-3 Results after data integration2.2.4 數(shù)據(jù)清洗將患者的基本信息和檢查檢驗(yàn)信息整合后的數(shù)據(jù)如圖 2-3。通過(guò)上圖我們發(fā)現(xiàn)數(shù)據(jù)存在可讀性不強(qiáng)、部分體檢化驗(yàn)數(shù)據(jù)缺失嚴(yán)重,部分?jǐn)?shù)據(jù)存在異常值等問(wèn)題。這其中包括醫(yī)師水平問(wèn)題和對(duì)計(jì)算機(jī)使用不熟練而造成數(shù)據(jù)的錯(cuò)誤錄入,以及電子病歷保存過(guò)程中服務(wù)器運(yùn)行較慢或受到外來(lái)攻擊等造成的文件損壞或丟失問(wèn)題[39]。因此要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理達(dá)到數(shù)據(jù)質(zhì)量要求。具體處理內(nèi)容如下:(1)清除無(wú)效特征、空值特征。通過(guò)對(duì)整合后的數(shù)據(jù)集分析,數(shù)據(jù)中存在作用相同的患者指標(biāo)可刪除,如病人的姓名與病人住院號(hào),對(duì)于病人的姓名來(lái)說(shuō)在醫(yī)院的系統(tǒng)中可能存在相同數(shù)據(jù),而病人的住院號(hào)是作為病人的唯一標(biāo)識(shí),所以刪除病人的姓名,而保留病人住院號(hào)。在病人的基本信息中,還包括電話、職業(yè)等信息,這樣的信息對(duì)于糖尿病預(yù)測(cè)來(lái)說(shuō)屬于無(wú)關(guān)特征,對(duì)于這樣的特征本文直接刪除。
【參考文獻(xiàn)】:
期刊論文
[1]基于Logistic回歸和多層神經(jīng)網(wǎng)絡(luò)的Ⅱ型糖尿病并發(fā)癥預(yù)測(cè)[J]. 王潔,喬藝璇,彭巖,陳曉. 高技術(shù)通訊. 2019(05)
[2]全球糖尿病治療藥物研發(fā)及市場(chǎng)態(tài)勢(shì)[J]. 李子艷,王春麗,高柳濱. 藥學(xué)進(jìn)展. 2018(09)
[3]基于集成學(xué)習(xí)的上市公司財(cái)務(wù)信息異常識(shí)別[J]. 王榮欣. 中國(guó)物價(jià). 2018(07)
[4]一種融合多種信息的Web文檔分類方法[J]. 段國(guó)侖,謝鈞,郭蕾蕾,王曉瑩. 信息技術(shù)與網(wǎng)絡(luò)安全. 2018(06)
[5]2型糖尿病患者中性粒細(xì)胞/淋巴細(xì)胞比值與尿白蛋白/肌酐比值的相關(guān)性研究[J]. 田伊茗,陸強(qiáng),尹福在,李濤,顧洪媛,王蕊,劉俊茹,王銳. 醫(yī)學(xué)研究生學(xué)報(bào). 2017(10)
[6]糖尿病慢性并發(fā)癥社區(qū)管理現(xiàn)況與探索[J]. 李帥,任菁菁. 中華全科醫(yī)師雜志. 2017 (08)
[7]基于特征頻繁度的勒索軟件檢測(cè)方法研究[J]. 龔琪,曹金璇,蘆天亮,李丁蓬. 計(jì)算機(jī)應(yīng)用研究. 2018(08)
[8]基于miRNA-靶位點(diǎn)配對(duì)的序列特征研究[J]. 滕少華,夏飛迪,張巍,劉冬寧,王洋,鄒小勇. 分析測(cè)試學(xué)報(bào). 2017(05)
[9]基于改進(jìn)網(wǎng)格搜索算法的隨機(jī)森林參數(shù)優(yōu)化[J]. 溫博文,董文瀚,解武杰,馬駿. 計(jì)算機(jī)工程與應(yīng)用. 2018(10)
[10]紅細(xì)胞分布寬度預(yù)測(cè)2型糖尿病患者對(duì)比劑腎病[J]. 劉曉剛,劉玉峰,顧曄,胡立群. 中國(guó)動(dòng)脈硬化雜志. 2016(08)
碩士論文
[1]基于數(shù)據(jù)挖掘的陌生人社交APP用戶流失預(yù)測(cè)模型研究[D]. 鐘文鑫.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2018
[2]一維聲子晶體板的帶隙優(yōu)化研究[D]. 李杰.湖南大學(xué) 2018
[3]醫(yī)療數(shù)據(jù)挖掘可視化系統(tǒng)的研究與實(shí)現(xiàn)[D]. 吳春姍.北京郵電大學(xué) 2017
[4]隨機(jī)森林算法的優(yōu)化改進(jìn)研究[D]. 馬驪.暨南大學(xué) 2016
[5]北京工業(yè)大學(xué)3D打印中心信息發(fā)布及管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 葉珍.北京工業(yè)大學(xué) 2016
[6]求解函數(shù)優(yōu)化問(wèn)題的遺傳算法設(shè)計(jì)研究[D]. 涂井先.廣東工業(yè)大學(xué) 2012
本文編號(hào):3268706
【文章來(lái)源】:北京工業(yè)大學(xué)北京市 211工程院校
【文章頁(yè)數(shù)】:83 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
患者基本信息Figure2-1Patientbasicinformation
從圖2-2 抽取出的患者檢查檢驗(yàn)信息存儲(chǔ)形式是按列進(jìn)行存儲(chǔ)的。經(jīng)過(guò)抽取得到的糖尿病數(shù)據(jù)包括病患基本信息 2435 條,檢驗(yàn)檢查信息210809 條。2.2.3 數(shù)據(jù)集成將不同來(lái)源的數(shù)據(jù)中涉及到同一患者的數(shù)據(jù)整合成起來(lái),這樣才能進(jìn)行后續(xù)的工作具體數(shù)據(jù)整合的步驟如下 :(1)調(diào)研相關(guān)資料并與醫(yī)院的醫(yī)護(hù)人員確定患者做檢查檢驗(yàn)的情況,根據(jù)數(shù)據(jù)的特點(diǎn)和后續(xù)實(shí)驗(yàn)的需求制定數(shù)據(jù)整合的規(guī)則。(2)根據(jù)制定的規(guī)則設(shè)計(jì)程序?qū)⑼粋(gè)患者的基本信息和檢查檢驗(yàn)信息整合為一條可用的數(shù)據(jù)樣本。按照以上需求,通過(guò)與醫(yī)院相關(guān)人員溝通,數(shù)據(jù)的整合規(guī)則為:1.取住院日期三日內(nèi)離住院日期最近的一次檢查為準(zhǔn)。2.若住院日期三日內(nèi)無(wú)數(shù)據(jù)則取門診檢查里離住院日期最近的一次檢查。3.利用以上 1 和 2 的規(guī)則通過(guò)病案號(hào)這唯一標(biāo)識(shí)將各部分?jǐn)?shù)據(jù)進(jìn)行整合。根據(jù)以上規(guī)則設(shè)計(jì)程序,將病人的基本信息與檢查檢驗(yàn)數(shù)據(jù)進(jìn)行整合,整合后得到的數(shù)據(jù)包含病患的 65 項(xiàng)?
圖 2-3 數(shù)據(jù)整合后的結(jié)果Figure 2-3 Results after data integration2.2.4 數(shù)據(jù)清洗將患者的基本信息和檢查檢驗(yàn)信息整合后的數(shù)據(jù)如圖 2-3。通過(guò)上圖我們發(fā)現(xiàn)數(shù)據(jù)存在可讀性不強(qiáng)、部分體檢化驗(yàn)數(shù)據(jù)缺失嚴(yán)重,部分?jǐn)?shù)據(jù)存在異常值等問(wèn)題。這其中包括醫(yī)師水平問(wèn)題和對(duì)計(jì)算機(jī)使用不熟練而造成數(shù)據(jù)的錯(cuò)誤錄入,以及電子病歷保存過(guò)程中服務(wù)器運(yùn)行較慢或受到外來(lái)攻擊等造成的文件損壞或丟失問(wèn)題[39]。因此要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理達(dá)到數(shù)據(jù)質(zhì)量要求。具體處理內(nèi)容如下:(1)清除無(wú)效特征、空值特征。通過(guò)對(duì)整合后的數(shù)據(jù)集分析,數(shù)據(jù)中存在作用相同的患者指標(biāo)可刪除,如病人的姓名與病人住院號(hào),對(duì)于病人的姓名來(lái)說(shuō)在醫(yī)院的系統(tǒng)中可能存在相同數(shù)據(jù),而病人的住院號(hào)是作為病人的唯一標(biāo)識(shí),所以刪除病人的姓名,而保留病人住院號(hào)。在病人的基本信息中,還包括電話、職業(yè)等信息,這樣的信息對(duì)于糖尿病預(yù)測(cè)來(lái)說(shuō)屬于無(wú)關(guān)特征,對(duì)于這樣的特征本文直接刪除。
【參考文獻(xiàn)】:
期刊論文
[1]基于Logistic回歸和多層神經(jīng)網(wǎng)絡(luò)的Ⅱ型糖尿病并發(fā)癥預(yù)測(cè)[J]. 王潔,喬藝璇,彭巖,陳曉. 高技術(shù)通訊. 2019(05)
[2]全球糖尿病治療藥物研發(fā)及市場(chǎng)態(tài)勢(shì)[J]. 李子艷,王春麗,高柳濱. 藥學(xué)進(jìn)展. 2018(09)
[3]基于集成學(xué)習(xí)的上市公司財(cái)務(wù)信息異常識(shí)別[J]. 王榮欣. 中國(guó)物價(jià). 2018(07)
[4]一種融合多種信息的Web文檔分類方法[J]. 段國(guó)侖,謝鈞,郭蕾蕾,王曉瑩. 信息技術(shù)與網(wǎng)絡(luò)安全. 2018(06)
[5]2型糖尿病患者中性粒細(xì)胞/淋巴細(xì)胞比值與尿白蛋白/肌酐比值的相關(guān)性研究[J]. 田伊茗,陸強(qiáng),尹福在,李濤,顧洪媛,王蕊,劉俊茹,王銳. 醫(yī)學(xué)研究生學(xué)報(bào). 2017(10)
[6]糖尿病慢性并發(fā)癥社區(qū)管理現(xiàn)況與探索[J]. 李帥,任菁菁. 中華全科醫(yī)師雜志. 2017 (08)
[7]基于特征頻繁度的勒索軟件檢測(cè)方法研究[J]. 龔琪,曹金璇,蘆天亮,李丁蓬. 計(jì)算機(jī)應(yīng)用研究. 2018(08)
[8]基于miRNA-靶位點(diǎn)配對(duì)的序列特征研究[J]. 滕少華,夏飛迪,張巍,劉冬寧,王洋,鄒小勇. 分析測(cè)試學(xué)報(bào). 2017(05)
[9]基于改進(jìn)網(wǎng)格搜索算法的隨機(jī)森林參數(shù)優(yōu)化[J]. 溫博文,董文瀚,解武杰,馬駿. 計(jì)算機(jī)工程與應(yīng)用. 2018(10)
[10]紅細(xì)胞分布寬度預(yù)測(cè)2型糖尿病患者對(duì)比劑腎病[J]. 劉曉剛,劉玉峰,顧曄,胡立群. 中國(guó)動(dòng)脈硬化雜志. 2016(08)
碩士論文
[1]基于數(shù)據(jù)挖掘的陌生人社交APP用戶流失預(yù)測(cè)模型研究[D]. 鐘文鑫.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2018
[2]一維聲子晶體板的帶隙優(yōu)化研究[D]. 李杰.湖南大學(xué) 2018
[3]醫(yī)療數(shù)據(jù)挖掘可視化系統(tǒng)的研究與實(shí)現(xiàn)[D]. 吳春姍.北京郵電大學(xué) 2017
[4]隨機(jī)森林算法的優(yōu)化改進(jìn)研究[D]. 馬驪.暨南大學(xué) 2016
[5]北京工業(yè)大學(xué)3D打印中心信息發(fā)布及管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 葉珍.北京工業(yè)大學(xué) 2016
[6]求解函數(shù)優(yōu)化問(wèn)題的遺傳算法設(shè)計(jì)研究[D]. 涂井先.廣東工業(yè)大學(xué) 2012
本文編號(hào):3268706
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3268706.html
最近更新
教材專著