基于隨機(jī)投影維度規(guī)約方法的研究
本文選題:隨機(jī)投影 切入點(diǎn):維度規(guī)約 出處:《哈爾濱工業(yè)大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
【摘要】:維度規(guī)約技術(shù)在大數(shù)據(jù)分析中扮演著重要的角色。傳統(tǒng)的維度規(guī)約技術(shù),比如主成分分析(Principle Component Analysis,PCA),線性判別分析(Linear Discriminant Analysis,LDA)已經(jīng)在過(guò)去的幾十年中被廣泛研究。然而,隨著數(shù)據(jù)維度的增加,這些傳統(tǒng)維度規(guī)約方法的計(jì)算負(fù)載也急劇增長(zhǎng),令人望而卻步。這推動(dòng)了隨機(jī)投影(Random Projection,RP)技術(shù)的發(fā)展。隨機(jī)投影可以在短時(shí)間內(nèi)將高維空間的數(shù)據(jù)映射到低維空間。然而,隨機(jī)投影在生成變換矩陣時(shí)并沒(méi)有考慮數(shù)據(jù)本身的固有結(jié)構(gòu),因此常常會(huì)導(dǎo)致相對(duì)較高的誤差。在過(guò)去的幾年中,很多基于隨機(jī)投影的方法被提出以解決這個(gè)問(wèn)題。我們總結(jié)了基于隨機(jī)投影的方法在不同領(lǐng)域中的應(yīng)用,旨在幫助研究者們?cè)诟髯蕴囟ǖ难芯款I(lǐng)域中選擇適合自己的方法。并且,我們歸納了這些改進(jìn)隨機(jī)投影的策略,指出了他們優(yōu)缺點(diǎn),希望為研究者們?cè)谖磥?lái)改進(jìn)隨機(jī)投影的工作提供參考。實(shí)驗(yàn)結(jié)果表明,傳統(tǒng)的特征抽取方法(如線性判別分析和Bag of Words等)和其他特定領(lǐng)域的特征抽取方法都可以顯著改進(jìn)隨機(jī)投影的性能。隨著基因芯片數(shù)據(jù)容量的飛速增長(zhǎng),數(shù)據(jù)處理時(shí)的計(jì)算負(fù)載已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了實(shí)時(shí)處理的計(jì)算能力。為了改進(jìn)隨機(jī)投影在基因表達(dá)譜數(shù)據(jù)上的性能,我們嘗試將主成分分析,線性判別分析和特征選擇(Feature Selection,FS)引入至隨機(jī)投影中。我們?cè)?個(gè)基因表達(dá)譜數(shù)據(jù)集上比較了所提出算法的分類精度和運(yùn)行時(shí)間。在基因芯片數(shù)據(jù)的幫助下,醫(yī)學(xué)工作者可以為病例提供更精確的診療方案。過(guò)去的研究表明,基因表達(dá)相似的病例屬于相同的亞型,因此可以采用相似的診療方案。因此,我們開(kāi)發(fā)了一個(gè)輕量級(jí)的Web應(yīng)用,通過(guò)一系列的機(jī)器學(xué)習(xí)算法幫助醫(yī)學(xué)工作者發(fā)現(xiàn)相似的病例。在這個(gè)Web應(yīng)用中,我們將基于隨機(jī)投影的相關(guān)算法應(yīng)用至基因表達(dá)譜數(shù)據(jù)上以降低聚類算法的計(jì)算負(fù)載。
[Abstract]:Dimension specification plays an important role in big data analysis. Traditional dimensionality specification techniques, such as principle Component Analysis (PCA), Linear Discriminant Analysis (LDAA), have been widely studied in the past decades. As the data dimension increases, the computational load of these traditional dimension specification methods increases dramatically. It's prohibitive. This is driving the development of Random projection RPs. Random projection can map high-dimensional data to low-dimensional space in a short period of time. However, Random projection does not take into account the inherent structure of the data itself when generating the transformation matrix, so it often leads to relatively high errors. Many methods based on random projection have been proposed to solve this problem. The aim is to help researchers choose their own methods in their specific fields of study. Furthermore, we summarize these strategies for improving random projection, and point out their advantages and disadvantages. We hope to provide a reference for the researchers to improve the random projection in the future. The experimental results show that. Traditional feature extraction methods (such as linear discriminant analysis and Bag of Words) and other feature extraction methods in specific fields can significantly improve the performance of random projection. In order to improve the performance of random projection on gene expression profile data, we try to analyze the principal component. Linear discriminant analysis (LDA) and feature selection (FSs) are introduced into random projection. The classification accuracy and running time of the proposed algorithm are compared on three gene expression data sets. Past studies have shown that cases with similar gene expression belong to the same subtype and can therefore be treated with similar protocols. We've developed a lightweight Web application that uses a series of machine learning algorithms to help medical workers find similar cases. We apply the correlation algorithm based on random projection to the gene expression profile data to reduce the computational load of the clustering algorithm.
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:R319;TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前4條
1 季成葉;7—12歲兒童營(yíng)養(yǎng)狀況的線性判別分析[J];中國(guó)優(yōu)生優(yōu)育;1992年02期
2 王金甲;胡備;;腦機(jī)接口的廣義核線性判別分析方法研究[J];中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào);2012年01期
3 司宏宗;劉勛;王濤;格鵬飛;Park Albert;;小學(xué)生近視的基因表達(dá)式編程與線性判別分析[J];國(guó)際眼科雜志;2009年01期
4 康麗芳;梁桂兆;舒茂;楊善彬;李志良;;氨基酸0D-3D信息得分矢量用于人免疫缺陷病毒蛋白酶裂解位點(diǎn)預(yù)測(cè)及特異性分析[J];中國(guó)科學(xué)(B輯:化學(xué));2008年07期
相關(guān)會(huì)議論文 前1條
1 歐陽(yáng)梅蘭;張志敏;陳晨;劉鑫波;梁逸曾;;稀疏線性判別分析法在代謝組學(xué)數(shù)據(jù)研究中的應(yīng)用[A];中國(guó)化學(xué)會(huì)第29屆學(xué)術(shù)年會(huì)摘要集——第19分會(huì):化學(xué)信息學(xué)與化學(xué)計(jì)量學(xué)[C];2014年
相關(guān)博士學(xué)位論文 前5條
1 任忠國(guó);基于γ特征譜的對(duì)象相似性識(shí)別技術(shù)研究[D];蘭州大學(xué);2015年
2 江修保;子空間學(xué)習(xí)若干問(wèn)題研究及其應(yīng)用[D];華中科技大學(xué);2016年
3 原凱;基于投影積分的有源配電系統(tǒng)動(dòng)態(tài)仿真方法研究[D];天津大學(xué);2016年
4 林宇生;鑒別特征抽取方法及其在人臉識(shí)別中的應(yīng)用研究[D];南京理工大學(xué);2008年
5 王建國(guó);特征抽取方法研究及其在人臉識(shí)別中的應(yīng)用[D];南京理工大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 王金貝;基于奇異值分解的不相關(guān)線性判別分析的通解與性質(zhì)[D];鄭州大學(xué);2015年
2 林軒;幾種分類問(wèn)題的研究[D];吉林大學(xué);2015年
3 孔昭陽(yáng);基于GPU的并行線性判別分析算法研究[D];哈爾濱工業(yè)大學(xué);2014年
4 張晶;非歐框架下的線性判別分析[D];遼寧師范大學(xué);2015年
5 喬娜娜;基于生物光子學(xué)小麥隱蔽性害蟲檢測(cè)機(jī)理及分類研究[D];河南工業(yè)大學(xué);2016年
6 杜輝;基于二維圖像的人臉識(shí)別研究[D];江蘇大學(xué);2016年
7 劉超;非迭代三維線性判別分析及其在人臉識(shí)別中的應(yīng)用[D];云南財(cái)經(jīng)大學(xué);2016年
8 霍中花;非重疊監(jiān)控場(chǎng)景下行人再識(shí)別關(guān)鍵技術(shù)研究[D];江南大學(xué);2016年
9 苗碩;基于L2,1范數(shù)和L1范數(shù)的魯棒判別特征提取算法研究[D];西安電子科技大學(xué);2015年
10 李衛(wèi)平;判別準(zhǔn)則優(yōu)化的LDA研究[D];浙江大學(xué);2017年
,本文編號(hào):1594956
本文鏈接:http://sikaile.net/yixuelunwen/swyx/1594956.html