數(shù)據(jù)挖掘在昆明氣象數(shù)據(jù)分析中的應(yīng)用
發(fā)布時間:2020-05-26 09:49
【摘要】:過去幾十年,氣象部門積累了大量的氣象資料,然而面對如此龐大的數(shù)據(jù)資料,如何有效地利用這些數(shù)據(jù)是該領(lǐng)域的工作者面臨的一個難題。顯然,用人工的方法幾乎不可能處理這樣大規(guī)模的數(shù)據(jù),而借助計算機(jī)的幫助,我們可以利用數(shù)據(jù)挖掘技術(shù)來挖掘出有價值的信息。 本文首先對數(shù)據(jù)進(jìn)行了預(yù)處理,包括異常值、缺失值的分析和處理,還將數(shù)據(jù)按月匯總,并對月均數(shù)據(jù)進(jìn)行了探索性分析的嘗試,以期發(fā)現(xiàn)主要指標(biāo)的變化規(guī)律。然后采用決策樹中的CART算法對月平均氣溫為連續(xù)型的數(shù)據(jù)集進(jìn)行預(yù)測和驗證,同時還對等寬分箱法和K-means聚類離散化月平均氣溫的方法分別用CART算法和C5.0算法做了預(yù)測和比較分析,發(fā)現(xiàn)經(jīng)K-means離散化后的C5.0算法的準(zhǔn)確率較高,在訓(xùn)練集上達(dá)到97.49%,在驗證集上達(dá)到91.67%。 其次,還用了兩種神經(jīng)網(wǎng)絡(luò)(分別是MLP神經(jīng)網(wǎng)絡(luò)和RBF神經(jīng)網(wǎng)絡(luò))模型對兩種離散化月平均氣溫的方法都做了預(yù)測,發(fā)現(xiàn)MLP要好于RBF,訓(xùn)練集上準(zhǔn)確率達(dá)到98.47%,驗證集上高達(dá)100%,除此之外,還將決策樹模型與MLP神經(jīng)網(wǎng)絡(luò)模型在連續(xù)型目標(biāo)變量的基礎(chǔ)上進(jìn)行了預(yù)測并作了對比分析,發(fā)現(xiàn)MLP在各方面的指標(biāo)都要優(yōu)于CART決策樹,如絕對平均誤差、最小誤差、標(biāo)準(zhǔn)差、誤差平方和等等。說明了神經(jīng)網(wǎng)絡(luò)在預(yù)測連續(xù)型目標(biāo)變量和離散型目標(biāo)變量的可行性和有效性,特別是MLP神經(jīng)網(wǎng)絡(luò),在對氣溫預(yù)測時,準(zhǔn)確率更高。
【圖文】:
、 4."圖2-1數(shù)據(jù)挖掘的主要過程簡單流程圖. (1)數(shù)據(jù)準(zhǔn)備:主要包括業(yè)務(wù)問題的定義、數(shù)據(jù)的搜集,了解數(shù)據(jù)的一些背景知識,,為后面數(shù)據(jù)的預(yù)處理做準(zhǔn)備;(2)預(yù)處理:數(shù)據(jù)的預(yù)處理主要包括數(shù)據(jù)類型的轉(zhuǎn)換、噪聲數(shù)據(jù)及缺失數(shù)據(jù)的處理、數(shù)據(jù)降維,連續(xù)屬性的離散化等等,為后面的數(shù)據(jù)挖掘做好準(zhǔn)備工作;(3)模型設(shè)計:這個階段主要是對下一步的數(shù)據(jù)挖掘算法建立模型,模型的建立要結(jié)合業(yè)務(wù)背景、實用性、效率等多個方面來進(jìn)行;(4)數(shù)據(jù)挖掘:這個是知識發(fā)現(xiàn)的一個重要步驟,利用算法和建立出來的模型,發(fā)現(xiàn)或者提取信息(知識)的特征或者模式;(5)模式評估:為了對得到較好的特征或模式,就需要對其進(jìn)行評價,即有一定的評估標(biāo)準(zhǔn)對模式進(jìn)行蹄選。4
首先將剩余的10個字段中的6個日均指標(biāo)按月匯總,再按年匯總,以下分別是1951-2013年均氣溫(O.rC)的趨勢圖(如圖3-1),195丨-2013年20-20時平均降水量趨勢圖(如圖3-2)。170 165 fTTrfrfb;! ;fxTFN力 ^ ... ‘ 、150 ——一7f 7 嚴(yán)、""""J14S Z_ 140 ^ —135 . : ■ i :…i ? . .-.....i.…:;:! 1...:....1...- :..:..1 .i -..1.. .:.....: : 1.. : :. : : : : ; i ::: !^mLnr^a^^mi.nrvcr?rHroLnr^o^rHrotnr>.CT>*HmLnr^a^T-jmu^r^cn*HoouoLnLnLnLni?D^^i^ov£>p^r^r^rvrvoooocooooocDcn<Ti0^o^ooooo*-HTHT—I tH *—I *H *—1 tH *H *H rH t-S tH *H rH rH rH rH *—I *-H rH I tH tH (N (N CN CvJ fN fN年均氣溫(0.1攝氏度)圖3-1昆明市1951-2(U3年平均氣溫趨勢圖圖3-1反映了昆明市從195]年有氣象記錄以來昆明每年的平均氣溫的變化情況,從1991年以后年均氣溫有很明顯的上升趨勢,1992年至今的年均氣溫基本維持在15r以上,這與全球的氣溫逐步升高的趨勢是一致的,氣溫的快速升高會給大自然無法計量的危害,這在一定程度上警示著我們?nèi)祟愒诮?jīng)濟(jì)發(fā)展的同時不能以犧牲氣候為代價
【學(xué)位授予單位】:云南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:P413;TP311.13
本文編號:2681660
【圖文】:
、 4."圖2-1數(shù)據(jù)挖掘的主要過程簡單流程圖. (1)數(shù)據(jù)準(zhǔn)備:主要包括業(yè)務(wù)問題的定義、數(shù)據(jù)的搜集,了解數(shù)據(jù)的一些背景知識,,為后面數(shù)據(jù)的預(yù)處理做準(zhǔn)備;(2)預(yù)處理:數(shù)據(jù)的預(yù)處理主要包括數(shù)據(jù)類型的轉(zhuǎn)換、噪聲數(shù)據(jù)及缺失數(shù)據(jù)的處理、數(shù)據(jù)降維,連續(xù)屬性的離散化等等,為后面的數(shù)據(jù)挖掘做好準(zhǔn)備工作;(3)模型設(shè)計:這個階段主要是對下一步的數(shù)據(jù)挖掘算法建立模型,模型的建立要結(jié)合業(yè)務(wù)背景、實用性、效率等多個方面來進(jìn)行;(4)數(shù)據(jù)挖掘:這個是知識發(fā)現(xiàn)的一個重要步驟,利用算法和建立出來的模型,發(fā)現(xiàn)或者提取信息(知識)的特征或者模式;(5)模式評估:為了對得到較好的特征或模式,就需要對其進(jìn)行評價,即有一定的評估標(biāo)準(zhǔn)對模式進(jìn)行蹄選。4
首先將剩余的10個字段中的6個日均指標(biāo)按月匯總,再按年匯總,以下分別是1951-2013年均氣溫(O.rC)的趨勢圖(如圖3-1),195丨-2013年20-20時平均降水量趨勢圖(如圖3-2)。170 165 fTTrfrfb;! ;fxTFN力 ^ ... ‘ 、150 ——一7f 7 嚴(yán)、""""J14S Z_ 140 ^ —135 . : ■ i :…i ? . .-.....i.…:;:! 1...:....1...- :..:..1 .i -..1.. .:.....: : 1.. : :. : : : : ; i ::: !^mLnr^a^^mi.nrvcr?rHroLnr^o^rHrotnr>.CT>*HmLnr^a^T-jmu^r^cn*HoouoLnLnLnLni?D^^i^ov£>p^r^r^rvrvoooocooooocDcn<Ti0^o^ooooo*-HTHT—I tH *—I *H *—1 tH *H *H rH t-S tH *H rH rH rH rH *—I *-H rH I tH tH (N (N CN CvJ fN fN年均氣溫(0.1攝氏度)圖3-1昆明市1951-2(U3年平均氣溫趨勢圖圖3-1反映了昆明市從195]年有氣象記錄以來昆明每年的平均氣溫的變化情況,從1991年以后年均氣溫有很明顯的上升趨勢,1992年至今的年均氣溫基本維持在15r以上,這與全球的氣溫逐步升高的趨勢是一致的,氣溫的快速升高會給大自然無法計量的危害,這在一定程度上警示著我們?nèi)祟愒诮?jīng)濟(jì)發(fā)展的同時不能以犧牲氣候為代價
【學(xué)位授予單位】:云南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:P413;TP311.13
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前4條
1 王立偉;;數(shù)據(jù)挖掘研究現(xiàn)狀綜述[J];圖書與情報;2008年05期
2 孔銳,張國宣,施澤生,郭立;基于核的K-均值聚類[J];計算機(jī)工程;2004年11期
3 楊天霞;王治和;王華;王凌云;;聚類初始中心點選取研究[J];南京師大學(xué)報(自然科學(xué)版);2010年04期
4 謝炯光,曾琮,紀(jì)忠萍;中國近30年來氣象統(tǒng)計預(yù)報進(jìn)展[J];氣象科技;2003年02期
本文編號:2681660
本文鏈接:http://sikaile.net/projectlw/qxxlw/2681660.html
最近更新
教材專著