高維分類問題的Logistic回歸懲罰經(jīng)驗(yàn)似然方法
發(fā)布時(shí)間:2017-09-09 12:41
本文關(guān)鍵詞:高維分類問題的Logistic回歸懲罰經(jīng)驗(yàn)似然方法
更多相關(guān)文章: 分類問題 高維數(shù)據(jù) Logistic回歸模型 懲罰經(jīng)驗(yàn)似然 SCAD
【摘要】:隨著互聯(lián)網(wǎng)和信息產(chǎn)業(yè)的快速發(fā)展、全球經(jīng)濟(jì)一體化格局的形成,以及中國經(jīng)濟(jì)的持續(xù)深入發(fā)展,全球數(shù)據(jù)量及數(shù)據(jù)維數(shù)出現(xiàn)爆炸式增長,人類社會(huì)進(jìn)入大數(shù)據(jù)時(shí)代。大數(shù)據(jù)對(duì)經(jīng)濟(jì)社會(huì)的發(fā)展產(chǎn)生越來越廣泛而深入的影響,成為現(xiàn)代經(jīng)濟(jì)活力的一個(gè)重要生產(chǎn)要素。在大數(shù)據(jù)背景下,高維數(shù)據(jù)扮演著重要角色,其廣泛存在于社會(huì)各領(lǐng)域,尤其是基因組學(xué)、遙感圖像處理、地理信息數(shù)據(jù)處理等領(lǐng)域。數(shù)據(jù)維數(shù)的增加,使得空間數(shù)據(jù)點(diǎn)變得更加孤立,參數(shù)空間的全局優(yōu)化越來越困難,原始數(shù)據(jù)結(jié)構(gòu)更復(fù)雜、隱蔽性更強(qiáng),給統(tǒng)計(jì)推斷帶來維數(shù)災(zāi)禍。在這種情形下,區(qū)分有用的信息和無用的“垃圾”逐漸成為一大難題。為了篩選出有用信息,首先需要對(duì)所有信息進(jìn)行分類。因此,高維數(shù)據(jù)的分類問題成為科學(xué)研究的一個(gè)重要問題,其具有重要的理論意義和廣泛的應(yīng)用價(jià)值,且極富挑戰(zhàn)性。 對(duì)分類問題的研究可從統(tǒng)計(jì)分析與機(jī)器學(xué)習(xí)兩個(gè)領(lǐng)域分別進(jìn)行分析,常用的分類方法包括線性判別分析、Fisher判別分析、K最近鄰分類、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)方法等。上述分類方法都是基于數(shù)據(jù)本身的,沒有考慮數(shù)據(jù)的結(jié)構(gòu)。Logistic回歸模型分類方法是統(tǒng)計(jì)分析領(lǐng)域基于具體模型的分類方法,其在解決分類問題上非常有效。與其它分類方法相比有很多優(yōu)點(diǎn):一方面,與數(shù)據(jù)驅(qū)動(dòng)的分類方法相比,該方法除了可以得到觀測數(shù)據(jù)屬于每一類別的概率,還能夠?qū)Y(jié)果進(jìn)行解釋,得到類別的影響因素;另一方面,與其它線性模型分類方法相比,該方法不需要任何關(guān)于樣本的先驗(yàn)知識(shí)和分布假設(shè),對(duì)自變量類型也不做要求,其結(jié)果易于解釋。因此,Logistic回歸模型分析作為一種有效的數(shù)據(jù)分類方法廣泛應(yīng)用于各種領(lǐng)域,如生物醫(yī)學(xué),犯罪學(xué),,生態(tài)工程,健康學(xué),語言學(xué)和野生動(dòng)物學(xué)等方面。Logistic回歸模型用于分類問題時(shí),還存在參數(shù)估計(jì)的問題。當(dāng)數(shù)據(jù)分布未知時(shí),用經(jīng)驗(yàn)似然方法對(duì)Logistic回歸模型的參數(shù)進(jìn)行估計(jì)具有一定的優(yōu)勢。 基于以上背景,本文應(yīng)用Logistic回歸模型對(duì)高維數(shù)據(jù)分類問題進(jìn)行研究,主要研究內(nèi)容有:對(duì)高維數(shù)據(jù)分類問題建立Logistic回歸模型;提出高維數(shù)據(jù)下基于Logistic回歸模型的懲罰經(jīng)驗(yàn)似然方法;證明了Logistic回歸模型懲罰經(jīng)驗(yàn)似然估計(jì)的大樣本性質(zhì);給出分布假定正確和分布假定錯(cuò)誤情形下高維分類問題的數(shù)值模擬例子,證明了Logistic回歸模型的懲罰經(jīng)驗(yàn)似然估計(jì)的優(yōu)良性以及在解決分類問題上的有效性;將高維分類問題的Logistic回歸模型的懲罰經(jīng)驗(yàn)似然方法應(yīng)用于具體實(shí)例的分析中,說明了本文所提出的Logistic回歸模型的懲罰經(jīng)驗(yàn)似然方法能較好地改進(jìn)分類的效果。 本文按以下結(jié)構(gòu)進(jìn)行組織: 第一章介紹了在大數(shù)據(jù)時(shí)代,研究基于Logistic回歸模型的分類問題的背景和重要意義,并對(duì)高維分類問題、Logistic回歸模型、懲罰經(jīng)驗(yàn)似然方法等統(tǒng)計(jì)方法的研究成果進(jìn)行了綜述。 第二章是本文理論部分的主體。構(gòu)造了Logistic回歸模型的懲罰經(jīng)驗(yàn)似然函數(shù);提出了高維數(shù)據(jù)下基于Logistic回歸模型的懲罰經(jīng)驗(yàn)似然方法;Logistic回歸模型的懲罰經(jīng)驗(yàn)似然估計(jì)方法選擇的是局部二次近似算法,且確定了用調(diào)整的BIC準(zhǔn)則作為正則參數(shù)的選擇方法;并且證明了通過上述方法所得模型參數(shù)估計(jì)值具有0racle性質(zhì),并得到了其大樣本性質(zhì)。 第三章是模擬計(jì)算部分。通過分布假定正確和分布假定錯(cuò)誤情形下高維分類問題的數(shù)值模擬例子,從參數(shù)估計(jì)的精度、模型的擬合優(yōu)度以及分類的準(zhǔn)確率三方面,與已有方法相比,說明所提出的Logistic回歸模型的懲罰經(jīng)驗(yàn)似然估計(jì)的優(yōu)良性以及在解決分類問題上的有效性。 第四章是實(shí)例分析,分別研究了冠心病數(shù)據(jù)和乳腺腫瘤數(shù)據(jù)這兩個(gè)實(shí)例,應(yīng)用高維分類問題的Logistic回歸模型的懲罰經(jīng)驗(yàn)似然方法進(jìn)行分析,通過與線性判別分類方法、最近壓縮中心方法、Logistic回歸模型的懲罰似然方法的比較,說明了本文所提出的Logistic回歸模型的懲罰經(jīng)驗(yàn)似然方法在分類中具有良好的性質(zhì)。
【關(guān)鍵詞】:分類問題 高維數(shù)據(jù) Logistic回歸模型 懲罰經(jīng)驗(yàn)似然 SCAD
【學(xué)位授予單位】:浙江財(cái)經(jīng)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:C81
【目錄】:
- 摘要5-7
- ABSTRACT7-10
- 第1章 緒論10-21
- 1.1 研究背景及意義10-12
- 1.2 文獻(xiàn)綜述12-18
- 1.3 本文研究內(nèi)容與結(jié)構(gòu)18-19
- 1.4 本文主要?jiǎng)?chuàng)新點(diǎn)19-21
- 第2章 高維分類問題的 Logistic 回歸懲罰經(jīng)驗(yàn)似然方法21-37
- 2.1 模型建立21-25
- 2.2 模型估計(jì)的算法25-27
- 2.3 懲罰經(jīng)驗(yàn)似然方法的大樣本性質(zhì)27-37
- 第3章 模擬計(jì)算37-42
- 3.1 分布假定正確的情形37-40
- 3.2 分布假定錯(cuò)誤的情形40-42
- 第4章 實(shí)例分析42-48
- 4.1 冠心病實(shí)例42-45
- 4.2 乳腺腫瘤實(shí)例45-48
- 第5章 總結(jié)和展望48-49
- 參考文獻(xiàn)49-54
- 附錄54-55
- 致謝55-56
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前7條
1 王承官,吳從p
本文編號(hào):820509
本文鏈接:http://sikaile.net/shekelunwen/shgj/820509.html
最近更新
教材專著