基于機器學習算法提升降水區(qū)反演效果研究
發(fā)布時間:2020-10-19 12:54
為了提升基于同步衛(wèi)星反演的高時空分辨率降水資料的準確性,本文基于東亞地區(qū)的逐小時葵花-8靜止衛(wèi)星數(shù)據(jù)和數(shù)字高程地形高度數(shù)據(jù),采用兩種機器學習方法,梯度提升決策樹(GBDT)和隨機森林(RF)來提升東亞地區(qū)夏季的24-h降水區(qū)衛(wèi)星反演效果。GBDT和RF方法能夠有效處理高維數(shù)據(jù)的非線性問題,并且受到過擬合問題影響很少。新的方法使用幾種物理相關的變量作為特征,包括云頂高度,云頂溫度,云水路徑,云相態(tài),水汽,亮溫時間變化和地形起伏。該方法通過以下幾個步驟來實現(xiàn)。首先對于模型參數(shù)進行了實驗,選出ETS評分最大的模型參數(shù)及特征組合。然后,GBDT和RF模型通過訓練集訓練后得到雨區(qū)估計模型。最后,評估了觀測樣本和模型估計在測試集上的一致性和偏差。結(jié)果表明,GBDT模型在三個時段(白天、黃昏、夜晚)的ETS評分分別為0.42、0.30和0.32。其中云水路徑和云相特征對于模型的貢獻最多。RF模型的在三個時段(白天、黃昏、夜晚)的ETS評分分別為0.42、0.29和0.31。同時,在和兩個概率相關的方法對比后,根據(jù)多個統(tǒng)計指標檢驗,基于GBDT和RF的模型在三個時段總體上提升ETS評分分別為16%,42%和28%,同時提升命中率上8%,-12%,13%,降低虛警率 15%,25%,12%。
【學位單位】:南京信息工程大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:P407
【部分圖文】:
?13C?E??圖1.雨量計觀測站分布圖??地面觀測的雨量計資料來自CIMISS的2500多個國家氣象站資料(分布如圖1所??示)。資料通過歷史極值和臨近站點的差值進行了質(zhì)量控制處理[521。由于觀測設備的限??制,觀測降水量小于0.1mm不能被記錄,因而被認為無降水。??第7貞??
2.3.3?RF的優(yōu)缺點??隨機森林通過構(gòu)建不同的訓練集來差異化每個樹的結(jié)果,使得整體平均的結(jié)果對于??高噪聲數(shù)據(jù)有高度穩(wěn)定性。而構(gòu)建這種差異性的關鍵在于優(yōu)化各節(jié)點特征子集數(shù)量。每??棵樹通過不同的總樣本子集來構(gòu)建。在每次節(jié)點分割時可供選擇的特征又不同,因而增??加了每棵樹之間的差異。如果每次分割的特征相同,那么這些樹脂件具有高相關性[57]。??因而每個節(jié)點隨機供選擇的特征子集數(shù)是模型優(yōu)化的要點,因而增加了模型對于高噪聲??數(shù)據(jù)的魯棒性。研究顯示,隨機森林方法對于高噪聲數(shù)據(jù)不敏感網(wǎng)⑷]。而且其算法的訓??練較快,可以得到特征變量的重要性排序。??雖然RF擁有很多優(yōu)點,但是算法的缺點也值得注意。RF的.個特點是缺乏解釋性。??由于整體預測是由多個決策樹構(gòu)成,不能用笮?的決策樹表示整個決策過程,即某個決??策+能直接通過樹結(jié)構(gòu)判斷根據(jù)何種特征來判斷的。另外,對P所有樹的結(jié)果的平均??味著算法結(jié)果+能超出訓練樣中目變量的,。??
第三章模型物理變量的選擇第三章模型物理變量的選擇??通常對于雨區(qū)的識別需要選取和降水相關的變量作為分類的依據(jù)。GBDT也需要征點來進行雨區(qū)的識別。在本研宄中,目標變量為降水和非降水。降水樣本表而非降水樣本表示為0。對于降水相關的變量,選取與降水過程有關的物理變基于圖像灰度的統(tǒng)計特征量,包括了熱帶深對流過程和中緯度層云降水過程。量主要包括云頂高度(CTH),云頂溫度(CTT),云水路徑(CWP),云相(CP(WV),時間變率(TC)和地形起伏(OV)。所有特征量及具體表示方式展1。??
【參考文獻】
本文編號:2847225
【學位單位】:南京信息工程大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:P407
【部分圖文】:
?13C?E??圖1.雨量計觀測站分布圖??地面觀測的雨量計資料來自CIMISS的2500多個國家氣象站資料(分布如圖1所??示)。資料通過歷史極值和臨近站點的差值進行了質(zhì)量控制處理[521。由于觀測設備的限??制,觀測降水量小于0.1mm不能被記錄,因而被認為無降水。??第7貞??
2.3.3?RF的優(yōu)缺點??隨機森林通過構(gòu)建不同的訓練集來差異化每個樹的結(jié)果,使得整體平均的結(jié)果對于??高噪聲數(shù)據(jù)有高度穩(wěn)定性。而構(gòu)建這種差異性的關鍵在于優(yōu)化各節(jié)點特征子集數(shù)量。每??棵樹通過不同的總樣本子集來構(gòu)建。在每次節(jié)點分割時可供選擇的特征又不同,因而增??加了每棵樹之間的差異。如果每次分割的特征相同,那么這些樹脂件具有高相關性[57]。??因而每個節(jié)點隨機供選擇的特征子集數(shù)是模型優(yōu)化的要點,因而增加了模型對于高噪聲??數(shù)據(jù)的魯棒性。研究顯示,隨機森林方法對于高噪聲數(shù)據(jù)不敏感網(wǎng)⑷]。而且其算法的訓??練較快,可以得到特征變量的重要性排序。??雖然RF擁有很多優(yōu)點,但是算法的缺點也值得注意。RF的.個特點是缺乏解釋性。??由于整體預測是由多個決策樹構(gòu)成,不能用笮?的決策樹表示整個決策過程,即某個決??策+能直接通過樹結(jié)構(gòu)判斷根據(jù)何種特征來判斷的。另外,對P所有樹的結(jié)果的平均??味著算法結(jié)果+能超出訓練樣中目變量的,。??
第三章模型物理變量的選擇第三章模型物理變量的選擇??通常對于雨區(qū)的識別需要選取和降水相關的變量作為分類的依據(jù)。GBDT也需要征點來進行雨區(qū)的識別。在本研宄中,目標變量為降水和非降水。降水樣本表而非降水樣本表示為0。對于降水相關的變量,選取與降水過程有關的物理變基于圖像灰度的統(tǒng)計特征量,包括了熱帶深對流過程和中緯度層云降水過程。量主要包括云頂高度(CTH),云頂溫度(CTT),云水路徑(CWP),云相(CP(WV),時間變率(TC)和地形起伏(OV)。所有特征量及具體表示方式展1。??
【參考文獻】
相關期刊論文 前1條
1 吳泓;袁成松;錢瑋;王博妮;;氣象監(jiān)測中降水資料的質(zhì)量控制[J];氣象科學;2012年06期
本文編號:2847225
本文鏈接:http://sikaile.net/projectlw/qxxlw/2847225.html