基于Hadoop的K-means遙感影像分類算法的研究
發(fā)布時間:2020-01-27 18:44
【摘要】:K-Means算法是一種數(shù)據(jù)挖掘分析方法,由于其簡單高效的優(yōu)點,并且在缺乏先驗知識的情況下,可將具有相似光譜特征的對象聚集在一起,因此在遙感圖像分類中得到廣泛應(yīng)用。但對于海量遙感影像的分類,傳統(tǒng)并行計算框架MPI對硬件基礎(chǔ)設(shè)施性能要求較高,且編程復(fù)雜,具有較大的應(yīng)用局限性。因此具有高效性、高擴展性以及高容錯性等優(yōu)勢的Hadoop分布式系統(tǒng)平臺,在解決海量數(shù)據(jù)的存儲與計算問題方面得到了廣泛的應(yīng)用。但由于遙感影像數(shù)據(jù)格式的特殊性,目前基于Hadoop云平臺實現(xiàn)K-means算法對遙感影像數(shù)據(jù)的分類處理都需要對其進行數(shù)據(jù)格式轉(zhuǎn)換,將其轉(zhuǎn)換為CLILAB格式像素點的文本文件,造成Map和Reduce數(shù)目分配過多,出現(xiàn)網(wǎng)絡(luò)傳輸耗時過多和內(nèi)存分配不足的問題。因此如何對海量遙感數(shù)據(jù)進行有效組織、快速讀取以及高效分類處理成為當前遙感領(lǐng)域研究的熱點。本文利用Hadoop云平臺強大的存儲和計算能力,結(jié)合GDAL(柵格空間開源數(shù)據(jù)庫)快速讀取柵格圖像能力,實現(xiàn)在Hadoop云平臺上利用K-means算法直接對遙感影像數(shù)據(jù)進行分類處理,在保證分類精度的前提下,提高在Hadoop平臺上利用K-means算法對海量遙感影像數(shù)據(jù)的分類效率。本文主要研究內(nèi)容包括以下幾個方面:(1)設(shè)計遙感影像的輸入輸出格式:由于Hadoop內(nèi)置的數(shù)據(jù)輸入輸出格式不能實現(xiàn)對遙感影像數(shù)據(jù)的傳輸,本文繼承Hadoop提供的數(shù)據(jù)輸入輸出格式的基類,在不破壞遙感影像數(shù)據(jù)結(jié)構(gòu)的情況下,實現(xiàn)在Hadoop上對遙感影像數(shù)據(jù)的輸入和輸出,保證遙感影像數(shù)據(jù)信息的完整性。(2)提出基于Hadoop平臺的遙感影像數(shù)據(jù)組織方式并采用相應(yīng)的數(shù)據(jù)存取方法:結(jié)合HDFS和HBase各自的優(yōu)點,將影像文件存儲在HDFS,元數(shù)據(jù)信息存儲在HBase,并采用相對應(yīng)的基于特定分割粒度的遙感影像數(shù)據(jù)的存取方法,有效提高了云平臺上對海量影像數(shù)據(jù)的存取效率。(3)提出基于Hadoop的K-means遙感影像分類算法:結(jié)合MapReduce分布式計算框架的編程模型以及GDAL對影像數(shù)據(jù)的快速讀寫能力,并對影響K-means算法分類的三個基本因素進行詳細的分析,實現(xiàn)了K-means算法在Hadoop平臺上直接對遙感影像數(shù)據(jù)的分類處理。利用搭建的Hadoop平臺對不同數(shù)據(jù)量大小的影像數(shù)據(jù)進行了分類實驗,從分類精度和平臺性能兩方面進行了分析。實驗結(jié)果表明:本文方法分類結(jié)果的精度比ENVI軟件K-means算法的處理結(jié)果有所提高,并與在Hadoop平臺上利用K-means算法對轉(zhuǎn)換后影像數(shù)據(jù)的分類處理結(jié)果相比提高了平臺的運算能力以及計算效率。
【圖文】:
7圖 2.1 Hadoop 生態(tài)系統(tǒng)圖由于 Hadoop 系統(tǒng)對大規(guī)模數(shù)據(jù)分布式處理和存儲能力,以及系統(tǒng)的兼容性和性,,并且近幾年業(yè)界和應(yīng)用行業(yè)在 Hadoop 開發(fā)和應(yīng)用上已經(jīng)進行了大量的投入了包含各種豐富工具軟件的完整生態(tài)系統(tǒng),同時 Hadoop 社區(qū)也會對新一代系統(tǒng)
圖 2.2 HDFS 數(shù)據(jù)寫入過程2、數(shù)據(jù)讀取過程1)首先 client 調(diào)用 FileSystem 對象的 open()函數(shù),獲得對應(yīng)數(shù)據(jù)的輸入流(圖步驟 1)。2)DistributedFileSystem 通過 RPC 遠程調(diào)用 NameNode 獲得此文件對應(yīng)的數(shù)據(jù)塊 DataNode 位置信息,包括各個副本的存儲位置,這些存儲位置按照 Hadoop 拓撲序,距離客戶端近的排在前面(圖 2.3 中的步驟 2)。3)前兩步會返回的 FSDataInputStream 對象會被封裝成 DFSInputStream 對象,nputStream可以方便的監(jiān)管NameNode和DataNode數(shù)據(jù)流?蛻舳苏{(diào)用read()方nputStream 會連接距離客戶端最近的 DataNode(圖 2.3 中的步驟 3)。4)通過對文件流反復(fù)調(diào)用 read()方法,數(shù)據(jù)不斷的傳送到 clien(t圖 2.3 中的步驟5)如果讀取第一塊的數(shù)據(jù)結(jié)束,DFSInputStream 就會斷開與第一塊的 DataNod,接著向下讀取。這些操作對客戶端來說是透明的,客戶端的角度看來只是在讀不斷的流(圖 2.3 中的步驟 5)。6)如果第一批數(shù)據(jù)塊都讀完了,DFSInputStream 就會通過 NameNode 找到下一
【學位授予單位】:江西理工大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:P237
【圖文】:
7圖 2.1 Hadoop 生態(tài)系統(tǒng)圖由于 Hadoop 系統(tǒng)對大規(guī)模數(shù)據(jù)分布式處理和存儲能力,以及系統(tǒng)的兼容性和性,,并且近幾年業(yè)界和應(yīng)用行業(yè)在 Hadoop 開發(fā)和應(yīng)用上已經(jīng)進行了大量的投入了包含各種豐富工具軟件的完整生態(tài)系統(tǒng),同時 Hadoop 社區(qū)也會對新一代系統(tǒng)
圖 2.2 HDFS 數(shù)據(jù)寫入過程2、數(shù)據(jù)讀取過程1)首先 client 調(diào)用 FileSystem 對象的 open()函數(shù),獲得對應(yīng)數(shù)據(jù)的輸入流(圖步驟 1)。2)DistributedFileSystem 通過 RPC 遠程調(diào)用 NameNode 獲得此文件對應(yīng)的數(shù)據(jù)塊 DataNode 位置信息,包括各個副本的存儲位置,這些存儲位置按照 Hadoop 拓撲序,距離客戶端近的排在前面(圖 2.3 中的步驟 2)。3)前兩步會返回的 FSDataInputStream 對象會被封裝成 DFSInputStream 對象,nputStream可以方便的監(jiān)管NameNode和DataNode數(shù)據(jù)流?蛻舳苏{(diào)用read()方nputStream 會連接距離客戶端最近的 DataNode(圖 2.3 中的步驟 3)。4)通過對文件流反復(fù)調(diào)用 read()方法,數(shù)據(jù)不斷的傳送到 clien(t圖 2.3 中的步驟5)如果讀取第一塊的數(shù)據(jù)結(jié)束,DFSInputStream 就會斷開與第一塊的 DataNod,接著向下讀取。這些操作對客戶端來說是透明的,客戶端的角度看來只是在讀不斷的流(圖 2.3 中的步驟 5)。6)如果第一批數(shù)據(jù)塊都讀完了,DFSInputStream 就會通過 NameNode 找到下一
【學位授予單位】:江西理工大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:P237
【相似文獻】
相關(guān)期刊論文 前10條
1 袁如金;張敏;李世偉;;基于華浩超算平臺遙感影像幾何校正研究——以資源一號02C數(shù)據(jù)為例[J];測繪與空間地理信息;2017年01期
2 馬慧云;吳曉京;趙國慶;姜丙波;;遙感影像反演的霧參數(shù)地區(qū)差異性分析[J];遙感信息;2017年03期
3 雒培磊;李國慶;曾怡;;一種改進的基于深度學習的遙感影像拼接方法[J];計算機工程與應(yīng)用;2017年20期
4 鄢詠折;范曉燕;;遙感影像變化監(jiān)測方法簡述[J];城市建設(shè)理論研究(電子版);2017年22期
5 蔡紅s
本文編號:2573717
本文鏈接:http://sikaile.net/kejilunwen/dizhicehuilunwen/2573717.html
最近更新
教材專著