基于機(jī)器學(xué)習(xí)的多氣象相態(tài)反演方法研究
發(fā)布時(shí)間:2021-03-31 03:40
氣象與人類(lèi)衣食住行密不可分,觀測(cè)氣象相態(tài)有利于促進(jìn)國(guó)民發(fā)展。目前氣象要素預(yù)報(bào)算法的主要手段是數(shù)值預(yù)報(bào)。其實(shí)質(zhì)就是通過(guò)利用高性能電腦對(duì)大氣運(yùn)動(dòng)的偏微分方程進(jìn)行計(jì)算,根據(jù)某一區(qū)域的氣候背景和天氣演變規(guī)律,推算該區(qū)域幾個(gè)小時(shí)后,幾天后,甚至是幾周后的環(huán)流形勢(shì),并進(jìn)行一個(gè)定性或者定量的預(yù)報(bào)。然而氣象要素預(yù)報(bào)現(xiàn)階段也存在一定問(wèn)題。本論文以機(jī)器學(xué)習(xí)作為主要算法,力求在多氣象相態(tài)判別問(wèn)題上有所突破。首先根據(jù)所獲得的氣象數(shù)據(jù)分析其特點(diǎn),了解氣象學(xué)知識(shí),結(jié)合專(zhuān)業(yè)人員知識(shí)經(jīng)驗(yàn),選取所需要的氣象要素?cái)?shù)據(jù)并處理為有效數(shù)據(jù)集。然后設(shè)計(jì)適用于多氣象相態(tài)分類(lèi)模型,判別未來(lái)某一時(shí)間段內(nèi)某氣象要素的預(yù)測(cè)結(jié)果。主要工作如下:1.收集整理了一套適用于機(jī)器學(xué)習(xí)訓(xùn)練的氣象相態(tài)數(shù)據(jù)集。首先收集中國(guó)區(qū)域范圍1996年至2015年的地面填圖氣象要素?cái)?shù)據(jù)和溫度對(duì)數(shù)壓力數(shù)據(jù),并進(jìn)行匹配,接著剔除異常缺失數(shù)據(jù)以及兩份數(shù)據(jù)集不匹配部分。最后與氣象專(zhuān)業(yè)人員溝通后舍棄對(duì)分類(lèi)判別結(jié)果不起作用的氣象要素,降低數(shù)據(jù)維度,最終得到38種氣象要素作為數(shù)據(jù)源。2.提出了新的氣象相態(tài)分類(lèi)模型,此模型結(jié)合了支持向量機(jī)算法、粒子群優(yōu)化算法以及梯度均衡機(jī)制。支持向...
【文章來(lái)源】:湖南師范大學(xué)湖南省 211工程院校
【文章頁(yè)數(shù)】:53 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
SVM算法思路圖
碩士學(xué)位論文82.2.2決策樹(shù)算法理論基礎(chǔ)決策樹(shù)算法[18]在20世紀(jì)60年代被提出并一直運(yùn)用、發(fā)展至今,是近階段經(jīng)常被使用的一種數(shù)據(jù)挖掘算法。該算法是一種逼近離散函數(shù)值的典型分類(lèi)方法,通過(guò)加入一系列的規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。該算法主要包含有選擇特征、生成決策樹(shù)以及剪枝三個(gè)模塊?傆[決策樹(shù)算法的諸多典型算法,ID3算法以及在ID3算法的基礎(chǔ)上完善、改進(jìn)的C4.5及CART算法較為常見(jiàn)。圖2-2為決策樹(shù)算法思路圖中,其步驟為:1.將樣本數(shù)據(jù)中所有的特征屬性看成一個(gè)一個(gè)的節(jié)點(diǎn)2.對(duì)所有特征屬性計(jì)算它們的基尼系數(shù),取基尼系數(shù)值最小的屬性為決策樹(shù)的根節(jié)點(diǎn)屬性,將數(shù)據(jù)劃分為不同的子節(jié)點(diǎn)3.遞歸所有特征屬性,在選取第一個(gè)屬性的基礎(chǔ)上,重新選取一個(gè)新的屬性繼續(xù)劃分,直到把所有特征屬性都劃分完決策樹(shù)算法構(gòu)建的停止條件:1.當(dāng)子節(jié)點(diǎn)中只有一種類(lèi)型的時(shí)候停止構(gòu)建決策樹(shù)。2.當(dāng)前節(jié)點(diǎn)樣本數(shù)量少于所需最小樣本數(shù),或大于最大葉節(jié)點(diǎn)數(shù)。圖2-2決策樹(shù)算法思路圖2.2.3邏輯回歸算法理論基礎(chǔ)邏輯回歸算法[19]是一種經(jīng)典的二分類(lèi)算法。該算法原理是線性回歸,優(yōu)點(diǎn)在于能較好的尋找“危險(xiǎn)因素”,F(xiàn)階段在大數(shù)據(jù)運(yùn)用、醫(yī)療救治等方面應(yīng)用相對(duì)廣泛。該算法在原理上利用已知量推測(cè)未知量。如二進(jìn)制零或者一,對(duì)或者錯(cuò),有或者無(wú)等,預(yù)測(cè)一個(gè)0-1之間的數(shù)值,來(lái)推論與數(shù)值相對(duì)應(yīng)的預(yù)測(cè)結(jié)果。邏輯回歸的算法步驟如下:(1)選擇預(yù)測(cè)函數(shù)。選擇的預(yù)測(cè)函數(shù)是具備預(yù)測(cè)結(jié)果的分類(lèi)函數(shù)。(2)構(gòu)造損失函數(shù)。構(gòu)造的該函數(shù)綜合選擇預(yù)測(cè)函數(shù)與訓(xùn)練類(lèi)別的“損失”。(3)損失函數(shù)數(shù)值越小,表明該算法預(yù)測(cè)的結(jié)果越精準(zhǔn)。邏輯回歸算法有很多優(yōu)點(diǎn),如簡(jiǎn)單、高效、可解釋性高,不同特征權(quán)重可直接明了查看對(duì)結(jié)果影響;訓(xùn)練速度快;占用內(nèi)存小等。但是也存在
基于機(jī)器學(xué)習(xí)的多氣象相態(tài)反演方法研究9率不是很高;很難處理數(shù)據(jù)不平衡問(wèn)題,對(duì)正負(fù)樣本的區(qū)分能力不強(qiáng)。2.3處理樣本不平衡方法樣本不平衡是指樣本中給定數(shù)據(jù)集的數(shù)據(jù)多少存在差異,且差異樣本存在較大的比例。樣本的不平衡會(huì)導(dǎo)致在提取樣本規(guī)律以及在確定模型的準(zhǔn)確率上出現(xiàn)一定程度的誤差。對(duì)于多氣象相態(tài)分類(lèi)器來(lái)說(shuō),簡(jiǎn)單樣本的數(shù)量非常大,他們產(chǎn)生的累計(jì)貢獻(xiàn)在模型更新中占主導(dǎo)作用,而這部分樣本本身就能被模型很好地分類(lèi),所以這部分的參數(shù)更新并不會(huì)改善模型的判斷能力,這會(huì)導(dǎo)致整個(gè)訓(xùn)練變得低效。近年來(lái)不少研究者針對(duì)樣本不均衡問(wèn)題進(jìn)行深入了研究,目前比較典型的有在線困難樣本挖掘(OHEM)、基于對(duì)抗生成網(wǎng)絡(luò)的方式來(lái)生成困難樣本、FocalLoss、梯度均衡機(jī)制(GHM)。2.3.1在線困難樣本挖掘算法(OHEM)在線困難樣本挖掘算法[20](OHEM)是較好的處理樣本不平衡的算法之一。該算法于2016年,在三大世界頂級(jí)計(jì)算機(jī)視覺(jué)會(huì)議之一的國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議上發(fā)表,近幾年得到了較好的發(fā)展。該算法的核心原理就是自動(dòng)篩選困難樣本(即不平衡樣本)。在算法實(shí)際操作中,將原來(lái)的一個(gè)ROINetwork擴(kuò)充為兩個(gè)。這兩個(gè)共享參數(shù)。前一個(gè)ROINetwork計(jì)算損失,只具備向前操作;后面一個(gè)ROINetwork輸入樣本回傳梯度,前后向操作均可。該算法在目標(biāo)檢測(cè)框架中被大量使用,如FastRCNN。在線挖掘算法流程圖如圖2-3所示。該算法的優(yōu)點(diǎn):1針對(duì)數(shù)據(jù)類(lèi)別不平衡問(wèn)題的解決更加簡(jiǎn)潔、高效。2數(shù)據(jù)類(lèi)別越大,算法的優(yōu)越性越突出。該算法的缺點(diǎn):對(duì)簡(jiǎn)單樣本的判別能力不高。圖2-3在線困難挖掘算法流程圖
本文編號(hào):3110714
【文章來(lái)源】:湖南師范大學(xué)湖南省 211工程院校
【文章頁(yè)數(shù)】:53 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
SVM算法思路圖
碩士學(xué)位論文82.2.2決策樹(shù)算法理論基礎(chǔ)決策樹(shù)算法[18]在20世紀(jì)60年代被提出并一直運(yùn)用、發(fā)展至今,是近階段經(jīng)常被使用的一種數(shù)據(jù)挖掘算法。該算法是一種逼近離散函數(shù)值的典型分類(lèi)方法,通過(guò)加入一系列的規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。該算法主要包含有選擇特征、生成決策樹(shù)以及剪枝三個(gè)模塊?傆[決策樹(shù)算法的諸多典型算法,ID3算法以及在ID3算法的基礎(chǔ)上完善、改進(jìn)的C4.5及CART算法較為常見(jiàn)。圖2-2為決策樹(shù)算法思路圖中,其步驟為:1.將樣本數(shù)據(jù)中所有的特征屬性看成一個(gè)一個(gè)的節(jié)點(diǎn)2.對(duì)所有特征屬性計(jì)算它們的基尼系數(shù),取基尼系數(shù)值最小的屬性為決策樹(shù)的根節(jié)點(diǎn)屬性,將數(shù)據(jù)劃分為不同的子節(jié)點(diǎn)3.遞歸所有特征屬性,在選取第一個(gè)屬性的基礎(chǔ)上,重新選取一個(gè)新的屬性繼續(xù)劃分,直到把所有特征屬性都劃分完決策樹(shù)算法構(gòu)建的停止條件:1.當(dāng)子節(jié)點(diǎn)中只有一種類(lèi)型的時(shí)候停止構(gòu)建決策樹(shù)。2.當(dāng)前節(jié)點(diǎn)樣本數(shù)量少于所需最小樣本數(shù),或大于最大葉節(jié)點(diǎn)數(shù)。圖2-2決策樹(shù)算法思路圖2.2.3邏輯回歸算法理論基礎(chǔ)邏輯回歸算法[19]是一種經(jīng)典的二分類(lèi)算法。該算法原理是線性回歸,優(yōu)點(diǎn)在于能較好的尋找“危險(xiǎn)因素”,F(xiàn)階段在大數(shù)據(jù)運(yùn)用、醫(yī)療救治等方面應(yīng)用相對(duì)廣泛。該算法在原理上利用已知量推測(cè)未知量。如二進(jìn)制零或者一,對(duì)或者錯(cuò),有或者無(wú)等,預(yù)測(cè)一個(gè)0-1之間的數(shù)值,來(lái)推論與數(shù)值相對(duì)應(yīng)的預(yù)測(cè)結(jié)果。邏輯回歸的算法步驟如下:(1)選擇預(yù)測(cè)函數(shù)。選擇的預(yù)測(cè)函數(shù)是具備預(yù)測(cè)結(jié)果的分類(lèi)函數(shù)。(2)構(gòu)造損失函數(shù)。構(gòu)造的該函數(shù)綜合選擇預(yù)測(cè)函數(shù)與訓(xùn)練類(lèi)別的“損失”。(3)損失函數(shù)數(shù)值越小,表明該算法預(yù)測(cè)的結(jié)果越精準(zhǔn)。邏輯回歸算法有很多優(yōu)點(diǎn),如簡(jiǎn)單、高效、可解釋性高,不同特征權(quán)重可直接明了查看對(duì)結(jié)果影響;訓(xùn)練速度快;占用內(nèi)存小等。但是也存在
基于機(jī)器學(xué)習(xí)的多氣象相態(tài)反演方法研究9率不是很高;很難處理數(shù)據(jù)不平衡問(wèn)題,對(duì)正負(fù)樣本的區(qū)分能力不強(qiáng)。2.3處理樣本不平衡方法樣本不平衡是指樣本中給定數(shù)據(jù)集的數(shù)據(jù)多少存在差異,且差異樣本存在較大的比例。樣本的不平衡會(huì)導(dǎo)致在提取樣本規(guī)律以及在確定模型的準(zhǔn)確率上出現(xiàn)一定程度的誤差。對(duì)于多氣象相態(tài)分類(lèi)器來(lái)說(shuō),簡(jiǎn)單樣本的數(shù)量非常大,他們產(chǎn)生的累計(jì)貢獻(xiàn)在模型更新中占主導(dǎo)作用,而這部分樣本本身就能被模型很好地分類(lèi),所以這部分的參數(shù)更新并不會(huì)改善模型的判斷能力,這會(huì)導(dǎo)致整個(gè)訓(xùn)練變得低效。近年來(lái)不少研究者針對(duì)樣本不均衡問(wèn)題進(jìn)行深入了研究,目前比較典型的有在線困難樣本挖掘(OHEM)、基于對(duì)抗生成網(wǎng)絡(luò)的方式來(lái)生成困難樣本、FocalLoss、梯度均衡機(jī)制(GHM)。2.3.1在線困難樣本挖掘算法(OHEM)在線困難樣本挖掘算法[20](OHEM)是較好的處理樣本不平衡的算法之一。該算法于2016年,在三大世界頂級(jí)計(jì)算機(jī)視覺(jué)會(huì)議之一的國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議上發(fā)表,近幾年得到了較好的發(fā)展。該算法的核心原理就是自動(dòng)篩選困難樣本(即不平衡樣本)。在算法實(shí)際操作中,將原來(lái)的一個(gè)ROINetwork擴(kuò)充為兩個(gè)。這兩個(gè)共享參數(shù)。前一個(gè)ROINetwork計(jì)算損失,只具備向前操作;后面一個(gè)ROINetwork輸入樣本回傳梯度,前后向操作均可。該算法在目標(biāo)檢測(cè)框架中被大量使用,如FastRCNN。在線挖掘算法流程圖如圖2-3所示。該算法的優(yōu)點(diǎn):1針對(duì)數(shù)據(jù)類(lèi)別不平衡問(wèn)題的解決更加簡(jiǎn)潔、高效。2數(shù)據(jù)類(lèi)別越大,算法的優(yōu)越性越突出。該算法的缺點(diǎn):對(duì)簡(jiǎn)單樣本的判別能力不高。圖2-3在線困難挖掘算法流程圖
本文編號(hào):3110714
本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/3110714.html
最近更新
教材專(zhuān)著