AP聚類算法研究及其在電子病歷挖掘中的應(yīng)用
本文關(guān)鍵詞:AP聚類算法研究及其在電子病歷挖掘中的應(yīng)用
更多相關(guān)文章: 聚類算法 AP聚類 基于代表點的聚類 電子病歷 數(shù)據(jù)挖掘
【摘要】:大數(shù)據(jù)時代,如何從數(shù)據(jù)中獲取知識是一個非常重要的研究課題,數(shù)據(jù)挖掘和知識發(fā)現(xiàn)是從數(shù)據(jù)處理到?jīng)Q策支持的關(guān)鍵步驟;诖睃c的聚類是一種有效的無監(jiān)督學習方式,它可以從不含類別標簽的數(shù)據(jù)中提取知識,目前已經(jīng)在客戶細分、社區(qū)發(fā)現(xiàn)、異常消費行為檢測、設(shè)施選址、醫(yī)療臨床路徑抽取等問題中展現(xiàn)出了巨大的應(yīng)用價值。AP聚類是近年來提出的一種基于代表點的聚類算法,其在絕大多數(shù)數(shù)據(jù)集上都可以得到比傳統(tǒng)聚類算法更優(yōu)的聚類結(jié)果,并且在聚類過程中,無需人為設(shè)定初始代表點集合,簇的數(shù)量等等。AP聚類自提出以來,就受到了人們的青睞,目前已經(jīng)在商務(wù)智能和數(shù)據(jù)挖掘中扮演了重要的角色。然而,在最近幾年,數(shù)據(jù)科學得到了飛速的發(fā)展,新的數(shù)據(jù)形式層出不窮,新的數(shù)據(jù)問題不斷涌現(xiàn)。例如電子病歷數(shù)據(jù),具有顯著的動態(tài)性、多元異構(gòu)性、大規(guī)模性等特征;而對電子病歷的數(shù)據(jù)挖掘也從淺層問題進入深層問題,在建模分析過程中,需要考慮的因素更多,需要利用的信息更全面。標準AP聚類受到了前所未有的挑戰(zhàn):1)標準AP聚類只能處理靜態(tài)數(shù)據(jù),但是動態(tài)數(shù)據(jù)所占的比重卻在逐年上升;2)標準AP聚類只能發(fā)現(xiàn)球形簇,但是隨著數(shù)據(jù)形式的多樣化,數(shù)據(jù)對象的分布結(jié)構(gòu)正在變得越來越復(fù)雜;3)標準AP聚類算法復(fù)雜度相對較高,不適用于大規(guī)模數(shù)據(jù)聚類問題,但是在各行各業(yè)中,數(shù)據(jù)的規(guī)模正在呈指數(shù)增長。針對以上三個問題,本文分別給出了解決方案,并提出了適用于動態(tài)數(shù)據(jù)環(huán)境的增量式AP聚類,可以發(fā)現(xiàn)復(fù)雜形狀簇的任意形狀簇AP聚類,以及可以用于處理大規(guī)模數(shù)據(jù)聚類問題的快速AP聚類。本文還將以上三種聚類算法用于電子病歷數(shù)據(jù)挖掘,從大量治療記錄中提取典型治療方案,融合電子病歷包含的多源信息實現(xiàn)治療方案的個性化推薦。論文的主要研究工作如下:1.增量式AP聚類。分析了增量式AP聚類問題中存在的難點,并提出了兩種解決方案。在此基礎(chǔ)上,提出了兩種增量式AP聚類算法:基于K中心的增式AP聚類和基于近鄰賦值的增量式AP聚類。不僅從理論上分析了兩種增量式AP聚類算法的合理性,還通過在真實數(shù)據(jù)集合上的計算實驗驗證了兩種增量式AP聚類算法的有效性。2.任意形狀簇AP聚類。通過對現(xiàn)有的兩大類任意形狀簇聚類算法的分析指出了局域相似度在任意形狀簇聚類問題中的重要性,并討論了從特征相似度到類別相似度轉(zhuǎn)化的一般化方法。根據(jù)在類別相似度矩陣上的消息傳遞,提出了任意形狀簇AP聚類算法。在人造數(shù)據(jù)集和真實數(shù)據(jù)集上的計算實驗均表明本文所提方法可以有效發(fā)現(xiàn)具有復(fù)雜形狀的簇。3.快速AP聚類。提出了兩階段式快速AP聚類算法。該算法首先通過選擇潛在代表數(shù)據(jù)對象對因子圖進行壓縮,然后通過去掉不必要的消息傳遞對因子圖進行稀疏化。最后通過在不完全因子圖上的消息傳遞,實現(xiàn)對所有數(shù)據(jù)對象的聚類。計算實驗表明,本文所提出的快速AP聚類算法可以在保持標準AP聚類優(yōu)良的聚類性能的同時,大幅度地提高AP聚類算法的效率。4.典型治療方案發(fā)現(xiàn)與推薦。首先根據(jù)電子病歷中的人口統(tǒng)計學信息和診斷信息對病人進行聚類,以發(fā)現(xiàn)特定的病人群落;然后通過對藥品聯(lián)合使用網(wǎng)絡(luò)劃分,發(fā)現(xiàn)藥品之間的聯(lián)合使用關(guān)系;接著對電子病歷中的治療記錄進行聚類,并根據(jù)聚類結(jié)果提取典型治療方案;最后通過匹配病人群落和治療記錄的聚類結(jié)果,為指定的病人群落找到最佳的治療方案。本研究具有重要的理論意義和應(yīng)用價值:1)通過對標準AP聚類的拓展,使其具備有效分析和處理新型數(shù)據(jù)的能力,為數(shù)據(jù)科學的發(fā)展提供了新的工具;2)對標準AP聚類的改進和提升涉及到許多聚類領(lǐng)域中的經(jīng)典問題,本文的解決思路對其他聚類算法的改進和設(shè)計同樣具有啟發(fā)作用;3)從大量治療記錄中提取得到的典型治療方案,可以為醫(yī)生設(shè)計和改進治療方案提供素材;融合電子病歷各部分數(shù)據(jù)的治療方案個性化推薦,可以為醫(yī)生的臨床決策提供數(shù)據(jù)支持。
【學位授予單位】:大連理工大學
【學位級別】:博士
【學位授予年份】:2017
【分類號】:R197.323;TP311.13
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 付偉忠;張運陶;;改進的MC_GEP算法與嘌呤骨架類Hsp90抗癌活性的定量結(jié)構(gòu)活性關(guān)系研究[J];計算機與應(yīng)用化學;2010年05期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 黃紀武;毛澤華;李松濤;張錦雄;;SPMD并行查找算法的MPI實現(xiàn)[A];廣西計算機學會——2004年學術(shù)年會論文集[C];2004年
2 黃紀武;毛澤華;李松濤;張錦雄;;SPMD并行查找算法的MPI實現(xiàn)[A];廣西計算機學會2004年學術(shù)年會論文集[C];2004年
3 符麗錦;覃華;鄧海;孫欣;;一種改進的Apriori算法的研究[A];廣西計算機學會2012年學術(shù)年會論文集[C];2012年
4 王東鋒;王軍民;陳英武;;模糊定性仿真理論研究與算法實現(xiàn)[A];'2000系統(tǒng)仿真技術(shù)及其應(yīng)用學術(shù)交流會論文集[C];2000年
5 趙唯;;晶粒度評級的改進算法[A];中國圖象圖形科學技術(shù)新進展——第九屆全國圖象圖形科技大會論文集[C];1998年
6 劉啟文;;可擴展的圖形學算法演示系統(tǒng)的研究[A];’2004計算機應(yīng)用技術(shù)交流會議論文集[C];2004年
7 佘智;蔣泰;朱延生;;基于Type C協(xié)議的防沖突改進算法[A];廣西計算機學會25周年紀念會暨2011年學術(shù)年會論文集[C];2011年
8 朱紹文;趙培;朱秋云;;基于pSPADE并行挖掘序列算法的研究[A];2003年中國智能自動化會議論文集(下冊)[C];2003年
9 楊霞;;新的基于啟發(fā)式蟻群算法的QoS路由算法[A];廣西計算機學會2009年年會論文集[C];2009年
10 陳黎飛;姜青山;董槐林;;基于圖形輪廓的快速聚類算法[A];第二十三屆中國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2006年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 鐘永騰;基于近場MUSIC算法的復(fù)合材料結(jié)構(gòu)健康監(jiān)測研究[D];南京航空航天大學;2014年
2 劉燕;入侵雜草優(yōu)化算法在陣列天線綜合中的應(yīng)用[D];西安電子科技大學;2015年
3 苗義烽;突發(fā)事件下的列車運行調(diào)度模型與算法研究[D];中國鐵道科學研究院;2015年
4 楊玉婷;頭腦風暴優(yōu)化算法與基于視頻的非接觸式運動定量分析方法研究[D];浙江大學;2015年
5 劉杰;全局優(yōu)化問題的幾類新算法[D];西安電子科技大學;2015年
6 柏靜;基于多種混合策略的人工蜂群算法改進研究[D];山東師范大學;2016年
7 孔翔宇;幾類優(yōu)化問題的人工蜂群算法[D];西安電子科技大學;2016年
8 匡立;分形網(wǎng)絡(luò)的理論、算法及應(yīng)用研究[D];武漢大學;2015年
9 孫磊磊;AP聚類算法研究及其在電子病歷挖掘中的應(yīng)用[D];大連理工大學;2017年
10 單美靜;求解非線性實代數(shù)系統(tǒng)的混合算法研究[D];華東師范大學;2008年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 安世勇;命題邏輯中隨機3-SAT問題算法研究[D];西南交通大學;2015年
2 畢曉慶;油氣探礦權(quán)競爭性出讓系統(tǒng)設(shè)計與實現(xiàn)[D];中國地質(zhì)大學(北京);2015年
3 王明明;鐵路大機與線路固定設(shè)施間距檢測算法研究[D];西南交通大學;2015年
4 李靜;基于視頻圖像序列的運動目標檢測與跟蹤算法研究[D];寧夏大學;2015年
5 劉貝玲;基于天地圖的租房平臺開發(fā)及其關(guān)鍵技術(shù)研究[D];西南交通大學;2015年
6 曹海鋒;IDS中串匹配臭算法并行優(yōu)化研究[D];西安建筑科技大學;2015年
7 周攀;基于蟻群算法的山區(qū)高速鐵路隧道火災(zāi)應(yīng)急疏散最優(yōu)路徑研究[D];西南交通大學;2015年
8 張路奇;基于改進蟻群算法的WSN路由協(xié)議的研究[D];中國地質(zhì)大學(北京);2015年
9 王曉晨;入侵雜草優(yōu)化算法的應(yīng)用與改進[D];長安大學;2015年
10 信琴琴;手勢控制和識別算法研究[D];閩南師范大學;2015年
,本文編號:1257997
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1257997.html