分類中的變量選擇方法及應(yīng)用
本文選題:空氣質(zhì)量 + 測量誤差 ; 參考:《華中科技大學(xué)》2015年碩士論文
【摘要】:隨著信息大爆炸時代的到來,信息量在不斷的呈幾何分布地增長。但是,在實(shí)際問題的解決當(dāng)中,由于龐大的信息量,可能會造成重要信息被眾多次要的信息所掩埋,造成對具體問題的錯誤認(rèn)識以及理解,因此這些龐大的信息量就需要被處理,找出主要的信息,來構(gòu)建具體的模型對具體問題進(jìn)行分析理解。而這一過程,也就是針對具體問題進(jìn)行變量選擇的過程。變量選擇會有利于具體問題的研究,而對于在統(tǒng)計(jì)學(xué)中有深遠(yuǎn)意義的分類問題,更需要在分類前對變量進(jìn)行選擇。本文采用了UCI數(shù)據(jù)集中的威斯康辛州的乳腺癌數(shù)據(jù)以及蘭州2014.1-2015.3一年的空氣監(jiān)測數(shù)據(jù)進(jìn)行研究,找出這兩個問題中的主要影響變量。目前最前沿的變量選擇方法,都是利用變量系數(shù)的懲罰似然函數(shù),并解出其最優(yōu)參數(shù)估計(jì)值,即實(shí)現(xiàn)變量系數(shù)的壓縮,以實(shí)現(xiàn)變量選擇,而本文則是從測量誤差入手,認(rèn)為觀測值是有測量誤差的,構(gòu)建關(guān)于測量精度的似然函數(shù),再利用Lasso方法中通過解優(yōu)化問題,實(shí)現(xiàn)變量系數(shù)的壓縮的原理,將觀測值的測量精度進(jìn)行壓縮,而其中為零的測量精度所對應(yīng)的變量的測量誤差方差無窮大,從而對應(yīng)變量的誤差波動較大,也就使得該變量在模型中失去了價(jià)值,被選出模型,從而實(shí)現(xiàn)變量選擇。本文特別的是在非參數(shù)分類中來用此新的變量選擇方法,而且在前一個實(shí)例中與現(xiàn)有的變量選擇方法進(jìn)行比較,發(fā)現(xiàn)兩種方法下的變量構(gòu)建的分類器,新方法下的分類器效果更優(yōu),即分類誤差更小。而新方法在蘭州空氣質(zhì)量數(shù)據(jù)中的應(yīng)用,也進(jìn)一步體現(xiàn)出了新方法的優(yōu)越性,很清晰地給出了蘭州去年空氣中的主要污染物。
[Abstract]:With the arrival of the era of Big Bang Theory, the amount of information continues to grow in geometric distribution. However, in the solution of practical problems, due to the huge amount of information, important information may be buried by numerous secondary information, resulting in erroneous understanding and understanding of specific problems. Therefore, this huge amount of information needs to be processed, to find out the main information, to build specific models to analyze and understand the specific problems. This process is the process of variable selection for specific problems. Variable selection is beneficial to the study of specific problems, but for the classification problems with far-reaching significance in statistics, it is more necessary to select variables before classification. In this paper, the data of breast cancer in Wisconsin from UCI data set and air monitoring data of Lanzhou in 2014.1-2015.3 were used to find out the main influence variables of these two problems. At present, the most advanced method of variable selection is to use the penalty likelihood function of variable coefficient, and to solve its optimal parameter estimation value, that is, to realize the compression of variable coefficient to realize variable selection. It is considered that the observed value has measurement error. The likelihood function about measurement accuracy is constructed. The principle of variable coefficient compression is realized by solving the optimization problem in Lasso method, and the measurement precision of observation value is compressed. The measurement error variance of the variable corresponding to the zero measurement accuracy is infinite, which makes the variable lose its value in the model and select the model, thus realizing the variable selection. In this paper, the new variable selection method is used in nonparametric classification, and compared with the existing variable selection method in the previous example, the classifier constructed by the two methods is found. The effect of the new method is better, that is, the classification error is smaller. The application of the new method in Lanzhou air quality data shows the superiority of the new method, and the main pollutants in Lanzhou air last year are clearly given.
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:O212
【參考文獻(xiàn)】
相關(guān)期刊論文 前8條
1 張檑;李宏光;;基于KKT條件選擇被控變量的自優(yōu)化控制方法[J];北京化工大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年S1期
2 蘇巖;;多元分布擬合優(yōu)度檢驗(yàn)研究進(jìn)展[J];保定學(xué)院學(xué)報(bào);2011年03期
3 王大榮;張忠占;;線性回歸模型中變量選擇方法綜述[J];數(shù)理統(tǒng)計(jì)與管理;2010年04期
4 李澤中;白勇;;核密度估計(jì)在分類問題中帶寬參數(shù)的優(yōu)化研究[J];計(jì)算機(jī)科學(xué);2009年06期
5 王見勇;;凸性與廣義凸性綜述(1)[J];常熟理工學(xué)院學(xué)報(bào);2007年10期
6 麻凱;陳塑寰;;結(jié)構(gòu)優(yōu)化中的海森矩陣的近似迭代方法[J];吉林大學(xué)學(xué)報(bào)(工學(xué)版);2006年S1期
7 安瑋,李宏,徐暉,孫仲康;模式識別中的透射變換與仿射變換[J];系統(tǒng)工程與電子技術(shù);1999年01期
8 陳敬鋒;;回歸自變量的選擇:Cp準(zhǔn)則所有變量子集的回歸[J];八一農(nóng)學(xué)院學(xué)報(bào);1990年01期
相關(guān)博士學(xué)位論文 前5條
1 袁晶;貝葉斯方法在變量選擇問題中的應(yīng)用[D];山東大學(xué);2013年
2 趙為華;變系數(shù)模型變量選擇的穩(wěn)健方法[D];華東師范大學(xué);2013年
3 李騰飛;似然自適應(yīng)懲罰變量選擇方法研究[D];復(fù)旦大學(xué);2012年
4 項(xiàng)燕彪;高維數(shù)據(jù)的統(tǒng)計(jì)推斷[D];浙江大學(xué);2011年
5 任允文;基于處罰經(jīng)驗(yàn)似然和跳懲罰最小二乘的變量選擇[D];復(fù)旦大學(xué);2010年
相關(guān)碩士學(xué)位論文 前7條
1 楊海;SVM核參數(shù)優(yōu)化研究與應(yīng)用[D];浙江大學(xué);2014年
2 周巍;L1范數(shù)最小化算法及應(yīng)用[D];華南理工大學(xué);2013年
3 王銳;多種變量選擇方法在ARMA階數(shù)確定中的比較[D];山東大學(xué);2013年
4 馬文浩;各種L_q懲罰在變量選擇中的應(yīng)用及其比較[D];山東大學(xué);2012年
5 柯鄭林;Lasso及其相關(guān)方法在多元線性回歸模型中的應(yīng)用[D];北京交通大學(xué);2011年
6 邱瀟鈺;核函數(shù)的參數(shù)選擇[D];山東師范大學(xué);2008年
7 聞斌;通過交叉驗(yàn)證準(zhǔn)則選擇線性模型[D];東南大學(xué);2006年
,本文編號:2031341
本文鏈接:http://sikaile.net/kejilunwen/yysx/2031341.html