天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 碩博論文 > 信息類博士論文 >

高維數(shù)據(jù)降維可視化研究及其在生物醫(yī)學(xué)中的應(yīng)用

發(fā)布時(shí)間:2018-11-12 15:17
【摘要】:計(jì)算機(jī)技術(shù)、信息技術(shù)以及存儲(chǔ)技術(shù)的快速發(fā)展,為我們采集、處理與存儲(chǔ)所獲取的海量、高維、非結(jié)構(gòu)化的數(shù)據(jù)提供了極大的便利。而隨著信息大爆炸時(shí)代的到來(lái),我們接觸到的數(shù)據(jù)已經(jīng)不再以數(shù)值型數(shù)據(jù)為主,更多的是文本數(shù)據(jù)、圖像數(shù)據(jù)、以及多媒體數(shù)據(jù)等非數(shù)值型數(shù)據(jù)。數(shù)據(jù)可視化所面向的數(shù)據(jù)對(duì)象由傳統(tǒng)的數(shù)值型數(shù)據(jù)擴(kuò)展為多來(lái)源、多維度和多尺度的復(fù)雜數(shù)據(jù)集合,這些新的數(shù)據(jù)特點(diǎn)對(duì)高維數(shù)據(jù)可視化方法的研究和應(yīng)用帶來(lái)了更高的要求和更大的挑戰(zhàn)。降維技術(shù)與可視化技術(shù)相結(jié)合,不但是處理高維數(shù)據(jù),克服“維數(shù)災(zāi)難”,實(shí)現(xiàn)數(shù)據(jù)可視化的重要途徑,并且作為數(shù)據(jù)預(yù)處理的一種方式,為進(jìn)一步深入研究數(shù)據(jù)的模式與關(guān)系提供直觀的分析基礎(chǔ)。具體地來(lái)說(shuō),降維可視化技術(shù)利用線性或非線性降維方法將高維數(shù)據(jù)投影到低維空間,以人們可以理解的可視化方式,直觀地呈現(xiàn)數(shù)據(jù)中的模式與信息,從而有效的幫助人們從海量數(shù)據(jù)中挖掘出有用信息和知識(shí)。通過(guò)對(duì)目前降維可視化方法進(jìn)行對(duì)比和分析發(fā)現(xiàn),由于數(shù)據(jù)的復(fù)雜性與多樣性,以及現(xiàn)有降維可視化算法各自的優(yōu)缺點(diǎn),沒(méi)有一種降維可視化算法適用于所有的數(shù)據(jù)集。從可視化角度來(lái)看,目前已有的降維可視化算法主要存在以下三個(gè)局限性: (1)將高維數(shù)據(jù)投影至二維空間后,二維空間樣本點(diǎn)的分布或保持了高維數(shù)據(jù)的全局特性,或保持了高維數(shù)據(jù)的局部特性; (2)由于度量空間的限制,將降維可視化結(jié)果呈現(xiàn)在單一的二維映射圖中,則不能準(zhǔn)確地呈現(xiàn)大部分真實(shí)數(shù)據(jù)的結(jié)構(gòu)和關(guān)系,如生物醫(yī)學(xué)中的疾病表型數(shù)據(jù)。因?yàn)椴煌募膊】赡艹尸F(xiàn)出相同的表型,而相同的表型則有可能對(duì)應(yīng)著不同的疾病,經(jīng)降維可視化處理之后,二維空間中樣本點(diǎn)的分布關(guān)系并不能全面且完整地呈現(xiàn)出疾病與表型之間的關(guān)系;(3)大部分降維可視化算法對(duì)于數(shù)據(jù)間相似性的度量,主要基于數(shù)據(jù)間的距離。當(dāng)處理海量高維數(shù)據(jù)時(shí),計(jì)算樣本點(diǎn)之間距離的效率會(huì)非常低。圍繞上述三個(gè)局限性,本文從非線性降維方法中的流形學(xué)習(xí)方法為出發(fā)點(diǎn),即假設(shè)樣本點(diǎn)是均勻分布高維空間的低維流形曲面上。利用圖結(jié)構(gòu)對(duì)數(shù)據(jù)中的幾何結(jié)構(gòu)進(jìn)行建模,將基于幾何技術(shù)的可視化方法有機(jī)的結(jié)合在一起,針對(duì)不同數(shù)據(jù)集的特性,提出三種降維可視化方法,并以不同特性的生物醫(yī)學(xué)數(shù)據(jù)為例,將生物醫(yī)學(xué)高維數(shù)據(jù)直接投影到二維可視化空間,使用戶沒(méi)有與數(shù)據(jù)相關(guān)專業(yè)背景的前提下,也能參與到降維可視化的過(guò)程中,發(fā)掘數(shù)據(jù)清晰的結(jié)構(gòu)與模式,為進(jìn)一步深入研究數(shù)據(jù)提供可視化依據(jù)。本文研究?jī)?nèi)容與研究成果如下:(1)提出一種基于拉普拉斯正則化的隨機(jī)近鄰嵌入算法(LA2SNE).該算法利用拉普拉斯分布的胖尾特征,分別計(jì)算高維空間與低維空間樣本點(diǎn)之間的概率分布,取代傳統(tǒng)計(jì)算樣本點(diǎn)之間歐氏距離的方法,從而避免樣本點(diǎn)在二維投影空間過(guò)度重疊。利用對(duì)稱Kullback-Leibler散度最小化高維數(shù)據(jù)分布與低維數(shù)據(jù)分布之間的差異,從而使低維可視化空間中的樣本點(diǎn)的分布能夠更好地保持高維數(shù)據(jù)的全局結(jié)構(gòu)。通過(guò)構(gòu)建高維空間拉普拉斯矩陣作為正則化項(xiàng),通過(guò)調(diào)節(jié)懲罰系數(shù),使可視化空間數(shù)據(jù)分布的內(nèi)部結(jié)構(gòu)更加分明,相同的點(diǎn)聚類效果更加明顯。將該方法分別應(yīng)用在模擬數(shù)據(jù)瑞士卷(Swissroll)和人類微生物組數(shù)據(jù)上,并對(duì)可視化結(jié)果進(jìn)行量化分析,其結(jié)果證明所提出的LA2SNE方法對(duì)于模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)都能夠有很好的可視化結(jié)果。(2)提出一種基于流形正則化的多映射圖的可視化方法(L-mm t-SNE),將傳統(tǒng)的單一映射圖可視化結(jié)果投影到多個(gè)映射圖中。該方法解決了傳統(tǒng)度量空間所不能解決的“共現(xiàn)”問(wèn)題,對(duì)于“疾病——表型”數(shù)據(jù)集,不同的疾病所呈現(xiàn)出的癥狀可能非常相似,因此L-mm t-SNE引入流形正則化項(xiàng),使得數(shù)據(jù)集中局部相似的點(diǎn)更加緊湊,不相似的點(diǎn)則分布到不同的映射圖中。并且樣本點(diǎn)權(quán)重大的更傾向于聚類在一個(gè)映射圖,從而減少了映射圖的數(shù)量。實(shí)驗(yàn)結(jié)果表明,L-mm t-SNE可以利用較少的二維映射圖可視化具有“共現(xiàn)"特征的數(shù)據(jù)集,其可視化結(jié)果具有很好的解釋。(3)提出一種快速降維可視化方法。該方法首先利用雙流形正則化的非負(fù)矩陣分解對(duì)數(shù)據(jù)進(jìn)行預(yù)降維,降維后的子空間保持了原始空間中數(shù)據(jù)的主要特征,接著利用VP樹方法,通過(guò)查找“最優(yōu)點(diǎn)”,對(duì)數(shù)據(jù)集進(jìn)行近鄰點(diǎn)的搜索;然后根據(jù)概率距離計(jì)算近鄰點(diǎn)之間的相似度;最后利用KL散度將子空間數(shù)據(jù)投影到可視化空間。與傳統(tǒng)可視化方法相比,本文所提出的方法對(duì)海量微生物組高維數(shù)據(jù)的可視化結(jié)果能夠很好地表達(dá)原始數(shù)據(jù)的結(jié)構(gòu),在降低可視化時(shí)間復(fù)雜度上具有顯著的效果。
[Abstract]:......
【學(xué)位授予單位】:武漢大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.41

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 賀玲;蔡益朝;楊征;;高維數(shù)據(jù)空間的一種網(wǎng)格劃分方法[J];計(jì)算機(jī)工程與應(yīng)用;2011年05期

2 李郁林;;高維數(shù)據(jù)分析中的降維研究[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2012年17期

3 何進(jìn)榮;丁立新;胡慶輝;李照奎;;高維數(shù)據(jù)空間的性質(zhì)及度量選擇[J];計(jì)算機(jī)科學(xué);2014年03期

4 劉洪波,王秀坤,趙晶;高維數(shù)據(jù)空間金字塔技術(shù)研究[J];計(jì)算機(jī)工程與應(yīng)用;2003年16期

5 沈萍;;高維數(shù)據(jù)挖掘技術(shù)研究[J];電腦知識(shí)與技術(shù);2009年06期

6 謝楓平;;聚類分析中的高維數(shù)據(jù)降維方法研究[J];閩西職業(yè)技術(shù)學(xué)院學(xué)報(bào);2009年04期

7 余元輝;鄧瑩;;一種新的高維數(shù)據(jù)聚類自適應(yīng)算法的研究[J];沈陽(yáng)化工大學(xué)學(xué)報(bào);2010年02期

8 王寅峰;劉昊;狄盛;胡昊宇;;一種支持高維數(shù)據(jù)查詢的并行索引機(jī)制[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年S1期

9 周勇;盧曉偉;程春田;;非規(guī)則流中高維數(shù)據(jù)流典型相關(guān)性分析并行計(jì)算方法[J];軟件學(xué)報(bào);2012年05期

10 王素芳;;基于組件的高維數(shù)據(jù)降維方法研究[J];電腦與電信;2012年10期

相關(guān)會(huì)議論文 前6條

1 周煜人;彭輝;桂衛(wèi)華;;基于映射的高維數(shù)據(jù)聚類方法[A];04'中國(guó)企業(yè)自動(dòng)化和信息化建設(shè)論壇暨中南六省區(qū)自動(dòng)化學(xué)會(huì)學(xué)術(shù)年會(huì)專輯[C];2004年

2 梁俊杰;楊澤新;馮玉才;;大規(guī)模高維數(shù)據(jù)庫(kù)索引結(jié)構(gòu)[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2006年

3 陳冠華;馬秀莉;楊冬青;唐世渭;帥猛;;面向高維數(shù)據(jù)的低冗余Top-k異常點(diǎn)發(fā)現(xiàn)方法[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(A輯)[C];2009年

4 劉運(yùn)濤;鮑玉斌;吳丹;冷芳玲;孫煥良;于戈;;CBFrag-Cubing:一種基于壓縮位圖的高維數(shù)據(jù)立方創(chuàng)建算法(英文)[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2005年

5 劉文慧;;PCA與PLS用于高維數(shù)據(jù)分類的比較性研究[A];2011年中國(guó)衛(wèi)生統(tǒng)計(jì)學(xué)年會(huì)會(huì)議論文集[C];2011年

6 劉喜蘭;馮德益;王公恕;朱成喜;馮雯;;臉譜分析在中進(jìn)期地震跟蹤預(yù)報(bào)中的應(yīng)用[A];中國(guó)地震學(xué)會(huì)第四次學(xué)術(shù)大會(huì)論文摘要集[C];1992年

相關(guān)重要報(bào)紙文章 前1條

1 本報(bào)記者 李雙藝;引領(lǐng)高維數(shù)據(jù)分析先河[N];吉林日?qǐng)?bào);2013年

相關(guān)博士學(xué)位論文 前10條

1 劉勝藍(lán);余弦度量下的高維數(shù)據(jù)降維及分類方法研究[D];大連理工大學(xué);2015年

2 黃曉輝;高維數(shù)據(jù)的若干聚類問(wèn)題及算法研究[D];哈爾濱工業(yè)大學(xué);2015年

3 楊崇;高維數(shù)據(jù)流上的K近鄰問(wèn)題研究[D];山東大學(xué);2016年

4 路梅;面向高維數(shù)據(jù)的特征學(xué)習(xí)理論與應(yīng)用研究[D];蘇州大學(xué);2016年

5 徐微微;高維數(shù)據(jù)降維可視化研究及其在生物醫(yī)學(xué)中的應(yīng)用[D];武漢大學(xué);2016年

6 楊風(fēng)召;高維數(shù)據(jù)挖掘中若干關(guān)鍵問(wèn)題的研究[D];復(fù)旦大學(xué);2003年

7 陳黎飛;高維數(shù)據(jù)的聚類方法研究與應(yīng)用[D];廈門大學(xué);2008年

8 吳慶耀;高維數(shù)據(jù)的若干分類問(wèn)題及算法研究[D];哈爾濱工業(yè)大學(xué);2013年

9 樓巍;面向大數(shù)據(jù)的高維數(shù)據(jù)挖掘技術(shù)研究[D];上海大學(xué);2013年

10 黃健美;高維數(shù)據(jù)索引及其查詢處理技術(shù)研究[D];東北大學(xué);2009年

相關(guān)碩士學(xué)位論文 前10條

1 沈江炎;基于軟子空間的高維數(shù)據(jù)樹形索引研究[D];昆明理工大學(xué);2015年

2 侯小麗;高維數(shù)據(jù)聚類中的神經(jīng)網(wǎng)絡(luò)降維方法研究[D];蘭州大學(xué);2015年

3 趙俊琴;基于Lasso的高維數(shù)據(jù)線性回歸模型統(tǒng)計(jì)推斷方法比較[D];山西醫(yī)科大學(xué);2015年

4 何熒;高維數(shù)據(jù)下的特征選擇與聚類方法研究[D];西南大學(xué);2015年

5 胡昌杰;基于Autoencoder的高維數(shù)據(jù)降維方法研究[D];蘭州大學(xué);2015年

6 楊代君;基于進(jìn)化算法的高維數(shù)據(jù)聚類研究[D];西安電子科技大學(xué);2014年

7 王宏霞;交通高維數(shù)據(jù)邏輯整合與降解研究[D];重慶交通大學(xué);2015年

8 楊庭庭;基于信息熵的高維數(shù)據(jù)流聚類及其應(yīng)用研究[D];重慶交通大學(xué);2015年

9 孫喜利;高維數(shù)據(jù)的降維及聚類方法研究[D];蘭州大學(xué);2016年

10 吳佳妮;基于SVM的質(zhì)譜細(xì)胞儀高維數(shù)據(jù)分析在AML早期診斷方面的應(yīng)用研究[D];山東大學(xué);2016年

,

本文編號(hào):2327489

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2327489.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f89c3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com