天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于相似性度量的醫(yī)學數(shù)據(jù)補缺與分類方法研究

發(fā)布時間:2020-10-17 05:24
   隨著信息科學技術(shù)的發(fā)展,醫(yī)學數(shù)據(jù)的規(guī)模以“爆炸”式的速度發(fā)展,海量的數(shù)據(jù)為健康大數(shù)據(jù)的產(chǎn)生提供了基礎(chǔ)。基于機器學習等方法進行醫(yī)學數(shù)據(jù)分析從而實現(xiàn)疾病預(yù)測、診斷成為了研究熱點。醫(yī)學數(shù)據(jù)具有其特有性質(zhì):醫(yī)學數(shù)據(jù)集中普遍存在關(guān)聯(lián)屬性,也常存在缺失數(shù)據(jù)。這些特性為基于醫(yī)學數(shù)據(jù)的分析方法帶來全新的挑戰(zhàn)。本文面向醫(yī)學數(shù)據(jù)研究的實際需求,考慮屬性關(guān)聯(lián)性設(shè)計了新的相似性度量方法,并基于這種度量方法設(shè)計了數(shù)據(jù)補缺方法及數(shù)據(jù)分類方法以應(yīng)對醫(yī)學數(shù)據(jù)缺失、進行數(shù)據(jù)分類,最終實現(xiàn)疾病的輔助診斷。主要內(nèi)容如下:(1)提出了一種新的相似性度量方法。該方法首先計算數(shù)據(jù)集中各屬性間的相關(guān)系數(shù),再利用核函數(shù)將其轉(zhuǎn)化為可直接用于計算的權(quán)重,最終設(shè)計并實現(xiàn)了一種充分考慮數(shù)據(jù)中屬性關(guān)聯(lián)程度的相似性度量方法。(2)提出了一種新的數(shù)據(jù)補缺算法。該方法以新的相似性度量方法為基礎(chǔ),篩選相似樣本,并使用了加權(quán)線性回歸方法計算數(shù)據(jù)缺失值。本文選取了K最鄰近補缺法、最小二乘補缺法等多種經(jīng)典數(shù)據(jù)補缺算法作為對照,在阿爾茲海默病數(shù)據(jù)集、心律失常數(shù)據(jù)集等醫(yī)學數(shù)據(jù)集上進行對照實驗。結(jié)果顯示本方法在補缺精度上領(lǐng)先其他算法達4.4%~12.2%,且保持了最低的均方根誤差。(3)提出了兩種改進的數(shù)據(jù)分類方法。兩種方法均基于新的相似性度量方法,分別是對K最鄰近分類算法和支持向量機分類算法的改進。同樣在醫(yī)學數(shù)據(jù)集上進行對照實驗,結(jié)果表明本文方法在數(shù)據(jù)分類表現(xiàn)優(yōu)于支持向量機、C4.5等傳統(tǒng)分類方法達2.2%~9.9%。
【學位單位】:合肥工業(yè)大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:R-05;TP181
【部分圖文】:

數(shù)據(jù)集,缺失,變量定義


合肥工業(yè)大學碩士學位論文第二章 變量定義及基礎(chǔ)知識言章首先對本課題中涉及的數(shù)據(jù)的結(jié)構(gòu)進行描述,為了更好的解釋和說明流程,將對本文中出現(xiàn)的符號進行統(tǒng)一的規(guī)范和描述,在接下來的章節(jié)中數(shù)據(jù)結(jié)構(gòu)、變量和符號將會遵循本章的格式。此外,本章將詳細介紹本文醫(yī)學數(shù)據(jù)集,并對本文中涉及算法的統(tǒng)計方法評價指標進行統(tǒng)一列出。據(jù)結(jié)構(gòu)及變量定義

算法流程圖,數(shù)據(jù),補數(shù),靈活變通


以本問題的求解方式分兩種情況:如果 rank( ))=K,此時求出: = [W π SKcT T W π SKcTπ (SKcT)Tπ WT k(Gc(£ §T))<K,此時的最小二乘解由如下公式求出: = = [W π SKcT T W π SKcTπ (SKcT)Tπ WT cTπ (SKcT)T 是 SKcTπ (SKcT)T 的偽逆矩陣,但是當 rank(SK價于 SKcTπ (SKcT)T ,從而獲取了線性組合系數(shù) 。從而 ij= π W π SKm法完成了對 ij的填補,可對下一個缺失數(shù)據(jù)進行補缺操作同一待補數(shù)據(jù)集,每次對缺失值的填補可能會對屬性間的關(guān),在大多數(shù)情況下,這種影響的效果是微乎其微的,因此本聯(lián)度的計算只需要進行一次即可。當然,我們也可以選擇每據(jù)集的屬性關(guān)聯(lián)度矩陣進行更新,但這樣無疑會增加算法補數(shù)據(jù)集的實際情況靈活變通。程圖

數(shù)據(jù)集,分類精度,缺失,比例


圖 4.2 NACC 數(shù)據(jù)集在不同缺失比例下補缺算法的分類精度4.2 Classification accuracy of imputation algorithms for NACC data with differenmissing proportions這種有效性同樣保持在了土耳其 Bilkent University 心律失常數(shù)據(jù)集上,在 們提及了該數(shù)據(jù)集是混合型數(shù)據(jù)集,而本實驗選擇將該數(shù)據(jù)集分成了離散集(數(shù)據(jù)量為 542*73)和連續(xù)型數(shù)據(jù)集(數(shù)據(jù)量為 542*263)分別處理,離據(jù)集可用數(shù)據(jù)補缺的分類精度來衡量算法性能,如圖 4.3 所示:
【參考文獻】

相關(guān)期刊論文 前10條

1 朱彥;徐俊;朱玲;崔蒙;;主要發(fā)達國家醫(yī)療健康大數(shù)據(jù)政策分析[J];中華醫(yī)學圖書情報雜志;2015年10期

2 喬巖;王偉;;大數(shù)據(jù)在醫(yī)療領(lǐng)域的應(yīng)用[J];健康管理;2014年07期

3 楊龍頻;周林;陳陽陽;楊龍麟;;依托無線物聯(lián)網(wǎng)技術(shù)的實時醫(yī)療健康監(jiān)測系統(tǒng)[J];中國衛(wèi)生信息管理雜志;2013年06期

4 高明;;基于數(shù)據(jù)挖掘技術(shù)的疾病預(yù)防控制評估研究[J];醫(yī)學信息(上旬刊);2011年03期

5 劉卓;;K-最鄰近算法在文本自動分類中的應(yīng)用[J];蘇州市職業(yè)大學學報;2010年02期

6 李希強;王笛;陸舍銘;任卓英;董學暢;繆明明;;皮爾遜相關(guān)系數(shù)與UPLC相結(jié)合研究煙用香精香料指紋圖譜[J];精細化工;2008年05期

7 左森;郭曉松;萬敬;周召發(fā);;多項式核函數(shù)SVM快速分類算法[J];計算機工程;2007年06期

8 劉寶生;閆莉萍;周東華;;幾種經(jīng)典相似性度量的比較研究[J];計算機應(yīng)用研究;2006年11期

9 趙倩,胡越黎,曹家麟;基于支持向量機的皮膚顯微圖像識別[J];上海大學學報(自然科學版);2005年01期

10 汪輝,皮道映,孫優(yōu)賢;支持向量機在線訓練算法及其應(yīng)用[J];浙江大學學報(工學版);2004年12期


相關(guān)博士學位論文 前1條

1 姚衛(wèi)新;智能數(shù)據(jù)分析中異常數(shù)據(jù)的集成化管理方法研究[D];復(fù)旦大學;2004年


相關(guān)碩士學位論文 前3條

1 楊亞超;基于SVM和結(jié)構(gòu)性MRI數(shù)據(jù)的AD病程分類研究[D];山西醫(yī)科大學;2016年

2 嚴德春;基因微陣列數(shù)據(jù)的分析算法[D];蘇州大學;2012年

3 程曉蘭;決策樹分類算法及其應(yīng)用[D];大連交通大學;2008年



本文編號:2844342

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/2844342.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f7d4f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com