基于數(shù)據(jù)降維的機(jī)器學(xué)習(xí)分類應(yīng)用研究
本文關(guān)鍵詞: 數(shù)據(jù)降維 機(jī)器學(xué)習(xí) 分類問題 手寫數(shù)字識(shí)別 出處:《吉林大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
【摘要】:在當(dāng)今社會(huì),信息技術(shù)的進(jìn)步使得數(shù)據(jù)獲取成本不斷降低,隨著海量數(shù)據(jù)的不斷涌現(xiàn),數(shù)據(jù)的維度也不斷攀升。一般來說數(shù)據(jù)的維度越高,計(jì)算復(fù)雜度越大,數(shù)據(jù)中的噪聲與冗余特征產(chǎn)生的負(fù)面影響越嚴(yán)重。因此,如何降低數(shù)據(jù)的維度,提高數(shù)據(jù)分類精度,已經(jīng)成為機(jī)器學(xué)習(xí)領(lǐng)域的重要問題。本文圍繞數(shù)據(jù)降維對(duì)機(jī)器學(xué)習(xí)分類效果所產(chǎn)生的影響這一問題展開研究。首先構(gòu)建降維分類的分析架構(gòu),利用非線性降維局部線性嵌入(LLE)和線性降維主成分分析(PCA)這2種不同的降維方法與梯度提升決策樹(GBDT)、隨機(jī)森林(Random Forest)、支持向量機(jī)(SVM)、K近鄰(KNN)、Logistic回歸分類(Logistic Regression)共5種機(jī)器學(xué)習(xí)分類方法進(jìn)行了組合。然后利用手寫數(shù)字識(shí)別數(shù)據(jù)集,對(duì)這5種分類方法在不同降維方法下所產(chǎn)生的不同維度數(shù)據(jù)集上的分類表現(xiàn)進(jìn)行了分析。分析表明,利用合適的降維方法進(jìn)行降維分類可以有效的提升分類的準(zhǔn)確率;非線性降維方法的降維分類效果普遍好于線性降維;不同機(jī)器學(xué)習(xí)分類算法對(duì)于維度的敏感度有著顯著的差異;降維分類可以在保持分類精度的同時(shí)大大減少模型訓(xùn)練的時(shí)間。
[Abstract]:In today's society, with the development of information technology, the cost of data acquisition is continuously reduced. With the continuous emergence of massive data, the dimension of data is also rising. Generally speaking, the higher the dimension of data, the greater the computational complexity. The negative effects of noise and redundant features in data are more serious. Therefore, how to reduce the dimension of data and improve the accuracy of data classification. It has become an important problem in the field of machine learning. This paper focuses on the impact of data dimensionality reduction on the classification effect of machine learning. Firstly, the analysis framework of dimensionality reduction classification is constructed. Two different dimensionality reduction methods and gradient lifting decision tree (GBDTT) are proposed by using nonlinear dimensionally reduced local linear embedding (LLEE) and linear dimensionally reduced principal component analysis (PCAA). Random Forestland, support Vector Machine (SVM). Five machine learning classification methods were combined by Logistic regression classification and Logistic regression. Then handwritten numerals were used to recognize the data sets. The classification performance of these five classification methods on different dimension data sets produced by different dimensionality reduction methods is analyzed. Using proper dimensionality reduction method can effectively improve the accuracy of classification. The effect of nonlinear dimensionality reduction method is generally better than that of linear dimensionality reduction method. There are significant differences in the sensitivity of different machine learning classification algorithms to the dimensions. Dimension reduction classification can greatly reduce the time of model training while maintaining classification accuracy.
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP181
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 夏潤(rùn)海,王開顏;機(jī)器學(xué)習(xí)與智能決策支持系統(tǒng)[J];濰坊學(xué)院學(xué)報(bào);2003年02期
2 張明玉,倪志偉;基于機(jī)器學(xué)習(xí)的智能決策支持系統(tǒng)[J];淮南師范學(xué)院學(xué)報(bào);2005年03期
3 楊凌霄;武建平;;機(jī)器學(xué)習(xí)方法在人臉檢測(cè)中的應(yīng)用[J];計(jì)算機(jī)與數(shù)字工程;2008年03期
4 ;第十一屆中國機(jī)器學(xué)習(xí)會(huì)議[J];智能系統(tǒng)學(xué)報(bào);2008年02期
5 ;第14屆中國機(jī)器學(xué)習(xí)會(huì)議[J];智能系統(tǒng)學(xué)報(bào);2012年06期
6 費(fèi)宗銘;呂建;王志堅(jiān);陳道蓄;徐家福;;機(jī)器學(xué)習(xí)[J];計(jì)算機(jī)科學(xué);1991年01期
7 趙沁平;魏華;王軍玲;;機(jī)器學(xué)習(xí)技術(shù)與機(jī)器學(xué)習(xí)系統(tǒng)[J];計(jì)算機(jī)科學(xué);1993年05期
8 姚敏;機(jī)器學(xué)習(xí)及其發(fā)展方向[J];計(jì)算機(jī)時(shí)代;1994年04期
9 ;第31屆機(jī)器學(xué)習(xí)國際會(huì)議(英文)[J];智能系統(tǒng)學(xué)報(bào);2014年01期
10 黃海濱;機(jī)器學(xué)習(xí)及其主要策略[J];河池師范高等?茖W(xué)校學(xué)報(bào)(自然科學(xué)版);2000年04期
相關(guān)會(huì)議論文 前10條
1 王玨;;歸納機(jī)器學(xué)習(xí)[A];2001年中國智能自動(dòng)化會(huì)議論文集(上冊(cè))[C];2001年
2 王昊;李銀波;紀(jì)志梁;;利用機(jī)器學(xué)習(xí)方法預(yù)測(cè)嚴(yán)重藥物不良反應(yīng)-呼吸困難[A];中國化學(xué)會(huì)第28屆學(xué)術(shù)年會(huì)第13分會(huì)場(chǎng)摘要集[C];2012年
3 吳滄浦;;智能系統(tǒng)與機(jī)器學(xué)習(xí)的新領(lǐng)域[A];西部大開發(fā) 科教先行與可持續(xù)發(fā)展——中國科協(xié)2000年學(xué)術(shù)年會(huì)文集[C];2000年
4 周晴杰;徐立鴻;吳啟迪;;機(jī)器學(xué)習(xí)串級(jí)結(jié)構(gòu)的初步探討[A];1998年中國控制會(huì)議論文集[C];1998年
5 李剛;郭崇慧;林鴻飛;楊志豪;唐煥文;;基于詞典法和機(jī)器學(xué)習(xí)法相結(jié)合的蛋白質(zhì)名識(shí)別[A];大連理工大學(xué)生物醫(yī)學(xué)工程學(xué)術(shù)論文集(第2卷)[C];2005年
6 徐禮勝;李乃民;王寬全;張冬雨;耿斌;姜曉睿;陳超海;羅貴存;;機(jī)器學(xué)習(xí)在中醫(yī)計(jì)算機(jī)診斷識(shí)別系統(tǒng)中的應(yīng)用思考[A];第一屆全國中西醫(yī)結(jié)合診斷學(xué)術(shù)會(huì)議論文選集[C];2006年
7 蔡健平;林世平;;基于機(jī)器學(xué)習(xí)的詞語和句子極性分析[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
8 黃金鐵;李景銀;周建常;;對(duì)高爐爐況評(píng)價(jià)模型參數(shù)的機(jī)器學(xué)習(xí)——一個(gè)三類線性模式分類器的實(shí)現(xiàn)[A];1995中國控制與決策學(xué)術(shù)年會(huì)論文集[C];1995年
9 程國建;蔡磊;潘華賢;;核向量機(jī)在大規(guī)模機(jī)器學(xué)習(xí)中的應(yīng)用[A];第十一屆中國青年信息與管理學(xué)者大會(huì)論文集[C];2009年
10 張鈸;張鈴;;統(tǒng)計(jì)學(xué)習(xí)理論及其應(yīng)用[A];2001年中國智能自動(dòng)化會(huì)議論文集(上冊(cè))[C];2001年
相關(guān)重要報(bào)紙文章 前10條
1 黎驪/文 [美] Tom M.Mitchell 著;機(jī)器學(xué)習(xí)與智能化社會(huì)[N];中國郵政報(bào);2003年
2 IBM大數(shù)據(jù)專家 James Kobielus 范范 編譯;機(jī)器學(xué)習(xí)已成為大數(shù)據(jù)基石[N];網(wǎng)絡(luò)世界;2014年
3 本報(bào)記者 房琳琳;合久必分:分布式“機(jī)器學(xué)習(xí)”應(yīng)運(yùn)而生[N];科技日?qǐng)?bào);2014年
4 雨辰;機(jī)器學(xué)習(xí)類圖書為什么火爆[N];中華讀書報(bào);2014年
5 百度公司技術(shù)副總監(jiān) 多媒體部負(fù)責(zé)人 余凱;深度學(xué)習(xí)與多媒體搜索技術(shù)演進(jìn)[N];中國信息化周報(bào);2013年
6 本報(bào)記者 余建斌;機(jī)器學(xué)習(xí)與互聯(lián)網(wǎng)搜索[N];人民日?qǐng)?bào);2011年
7 本報(bào)記者 張曄邋通訊員 李瑋;周志華:永不墨守成規(guī)[N];科技日?qǐng)?bào);2008年
8 記者 彭德倩;機(jī)器學(xué)習(xí)精度提升近6個(gè)百分點(diǎn)[N];解放日?qǐng)?bào);2006年
9 本報(bào)記者 閔杰;大數(shù)據(jù)熱 高端人才缺[N];中國電子報(bào);2013年
10 沈建苗 編譯;如何成為大數(shù)據(jù)科學(xué)家[N];計(jì)算機(jī)世界;2013年
相關(guān)博士學(xué)位論文 前10條
1 董春茹;機(jī)器學(xué)習(xí)中的權(quán)重學(xué)習(xí)與差分演化[D];華南理工大學(xué);2015年
2 姚明臣;機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中的若干問題研究[D];大連理工大學(xué);2016年
3 Maxim Pecionchin;[D];對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué);2016年
4 杜宇;基于深度機(jī)器學(xué)習(xí)的體態(tài)與手勢(shì)感知計(jì)算關(guān)鍵技術(shù)研究[D];浙江大學(xué);2017年
5 鐘錦紅;群智學(xué)習(xí)若干問題研究[D];中國科學(xué)技術(shù)大學(xué);2017年
6 趙東;基于群智能優(yōu)化的機(jī)器學(xué)習(xí)方法研究及應(yīng)用[D];吉林大學(xué);2017年
7 趙玉鵬;機(jī)器學(xué)習(xí)的哲學(xué)探索[D];大連理工大學(xué);2010年
8 胡巍;面向格結(jié)構(gòu)的機(jī)器學(xué)習(xí)[D];上海交通大學(xué);2009年
9 張義榮;基于機(jī)器學(xué)習(xí)的入侵檢測(cè)技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2005年
10 錢線;快速精確的結(jié)構(gòu)化機(jī)器學(xué)習(xí)方法研究[D];復(fù)旦大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 毛海斌;基于半監(jiān)督機(jī)器學(xué)習(xí)的情感分類領(lǐng)域適應(yīng)問題研究[D];南京理工大學(xué);2015年
2 安軍輝;基于微博數(shù)據(jù)的微博用戶性別判斷研究[D];華中師范大學(xué);2015年
3 陳召陽;基于機(jī)器學(xué)習(xí)的改性麥槽吸附重金屬構(gòu)效關(guān)系模型研究[D];江西理工大學(xué);2014年
4 王成;基于半監(jiān)督機(jī)器學(xué)習(xí)的文本情感分析技術(shù)[D];南京理工大學(xué);2015年
5 孫科;基于Spark的機(jī)器學(xué)習(xí)應(yīng)用框架研究與實(shí)現(xiàn)[D];上海交通大學(xué);2015年
6 劉江龍;基于機(jī)器學(xué)習(xí)的射頻指紋定位方法研究[D];電子科技大學(xué);2015年
7 張蕾;基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)輿情采集技術(shù)研究與設(shè)計(jì)[D];電子科技大學(xué);2014年
8 施宇;基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的木馬檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
9 施應(yīng)敏;基于機(jī)器學(xué)習(xí)的Femtocell信道頻譜與功率資源分配算法的研究[D];南京郵電大學(xué);2015年
10 張柯;基于機(jī)器學(xué)習(xí)的錯(cuò)誤定位方法研究[D];南京航空航天大學(xué);2015年
,本文編號(hào):1464085
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1464085.html