基于Hadoop的K-means遙感影像分類算法的研究
發(fā)布時(shí)間:2020-01-27 18:44
【摘要】:K-Means算法是一種數(shù)據(jù)挖掘分析方法,由于其簡(jiǎn)單高效的優(yōu)點(diǎn),并且在缺乏先驗(yàn)知識(shí)的情況下,可將具有相似光譜特征的對(duì)象聚集在一起,因此在遙感圖像分類中得到廣泛應(yīng)用。但對(duì)于海量遙感影像的分類,傳統(tǒng)并行計(jì)算框架MPI對(duì)硬件基礎(chǔ)設(shè)施性能要求較高,且編程復(fù)雜,具有較大的應(yīng)用局限性。因此具有高效性、高擴(kuò)展性以及高容錯(cuò)性等優(yōu)勢(shì)的Hadoop分布式系統(tǒng)平臺(tái),在解決海量數(shù)據(jù)的存儲(chǔ)與計(jì)算問題方面得到了廣泛的應(yīng)用。但由于遙感影像數(shù)據(jù)格式的特殊性,目前基于Hadoop云平臺(tái)實(shí)現(xiàn)K-means算法對(duì)遙感影像數(shù)據(jù)的分類處理都需要對(duì)其進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換,將其轉(zhuǎn)換為CLILAB格式像素點(diǎn)的文本文件,造成Map和Reduce數(shù)目分配過多,出現(xiàn)網(wǎng)絡(luò)傳輸耗時(shí)過多和內(nèi)存分配不足的問題。因此如何對(duì)海量遙感數(shù)據(jù)進(jìn)行有效組織、快速讀取以及高效分類處理成為當(dāng)前遙感領(lǐng)域研究的熱點(diǎn)。本文利用Hadoop云平臺(tái)強(qiáng)大的存儲(chǔ)和計(jì)算能力,結(jié)合GDAL(柵格空間開源數(shù)據(jù)庫(kù))快速讀取柵格圖像能力,實(shí)現(xiàn)在Hadoop云平臺(tái)上利用K-means算法直接對(duì)遙感影像數(shù)據(jù)進(jìn)行分類處理,在保證分類精度的前提下,提高在Hadoop平臺(tái)上利用K-means算法對(duì)海量遙感影像數(shù)據(jù)的分類效率。本文主要研究?jī)?nèi)容包括以下幾個(gè)方面:(1)設(shè)計(jì)遙感影像的輸入輸出格式:由于Hadoop內(nèi)置的數(shù)據(jù)輸入輸出格式不能實(shí)現(xiàn)對(duì)遙感影像數(shù)據(jù)的傳輸,本文繼承Hadoop提供的數(shù)據(jù)輸入輸出格式的基類,在不破壞遙感影像數(shù)據(jù)結(jié)構(gòu)的情況下,實(shí)現(xiàn)在Hadoop上對(duì)遙感影像數(shù)據(jù)的輸入和輸出,保證遙感影像數(shù)據(jù)信息的完整性。(2)提出基于Hadoop平臺(tái)的遙感影像數(shù)據(jù)組織方式并采用相應(yīng)的數(shù)據(jù)存取方法:結(jié)合HDFS和HBase各自的優(yōu)點(diǎn),將影像文件存儲(chǔ)在HDFS,元數(shù)據(jù)信息存儲(chǔ)在HBase,并采用相對(duì)應(yīng)的基于特定分割粒度的遙感影像數(shù)據(jù)的存取方法,有效提高了云平臺(tái)上對(duì)海量影像數(shù)據(jù)的存取效率。(3)提出基于Hadoop的K-means遙感影像分類算法:結(jié)合MapReduce分布式計(jì)算框架的編程模型以及GDAL對(duì)影像數(shù)據(jù)的快速讀寫能力,并對(duì)影響K-means算法分類的三個(gè)基本因素進(jìn)行詳細(xì)的分析,實(shí)現(xiàn)了K-means算法在Hadoop平臺(tái)上直接對(duì)遙感影像數(shù)據(jù)的分類處理。利用搭建的Hadoop平臺(tái)對(duì)不同數(shù)據(jù)量大小的影像數(shù)據(jù)進(jìn)行了分類實(shí)驗(yàn),從分類精度和平臺(tái)性能兩方面進(jìn)行了分析。實(shí)驗(yàn)結(jié)果表明:本文方法分類結(jié)果的精度比ENVI軟件K-means算法的處理結(jié)果有所提高,并與在Hadoop平臺(tái)上利用K-means算法對(duì)轉(zhuǎn)換后影像數(shù)據(jù)的分類處理結(jié)果相比提高了平臺(tái)的運(yùn)算能力以及計(jì)算效率。
【圖文】:
7圖 2.1 Hadoop 生態(tài)系統(tǒng)圖由于 Hadoop 系統(tǒng)對(duì)大規(guī)模數(shù)據(jù)分布式處理和存儲(chǔ)能力,以及系統(tǒng)的兼容性和性,,并且近幾年業(yè)界和應(yīng)用行業(yè)在 Hadoop 開發(fā)和應(yīng)用上已經(jīng)進(jìn)行了大量的投入了包含各種豐富工具軟件的完整生態(tài)系統(tǒng),同時(shí) Hadoop 社區(qū)也會(huì)對(duì)新一代系統(tǒng)
圖 2.2 HDFS 數(shù)據(jù)寫入過程2、數(shù)據(jù)讀取過程1)首先 client 調(diào)用 FileSystem 對(duì)象的 open()函數(shù),獲得對(duì)應(yīng)數(shù)據(jù)的輸入流(圖步驟 1)。2)DistributedFileSystem 通過 RPC 遠(yuǎn)程調(diào)用 NameNode 獲得此文件對(duì)應(yīng)的數(shù)據(jù)塊 DataNode 位置信息,包括各個(gè)副本的存儲(chǔ)位置,這些存儲(chǔ)位置按照 Hadoop 拓?fù)湫颍嚯x客戶端近的排在前面(圖 2.3 中的步驟 2)。3)前兩步會(huì)返回的 FSDataInputStream 對(duì)象會(huì)被封裝成 DFSInputStream 對(duì)象,nputStream可以方便的監(jiān)管NameNode和DataNode數(shù)據(jù)流?蛻舳苏{(diào)用read()方nputStream 會(huì)連接距離客戶端最近的 DataNode(圖 2.3 中的步驟 3)。4)通過對(duì)文件流反復(fù)調(diào)用 read()方法,數(shù)據(jù)不斷的傳送到 clien(t圖 2.3 中的步驟5)如果讀取第一塊的數(shù)據(jù)結(jié)束,DFSInputStream 就會(huì)斷開與第一塊的 DataNod,接著向下讀取。這些操作對(duì)客戶端來說是透明的,客戶端的角度看來只是在讀不斷的流(圖 2.3 中的步驟 5)。6)如果第一批數(shù)據(jù)塊都讀完了,DFSInputStream 就會(huì)通過 NameNode 找到下一
【學(xué)位授予單位】:江西理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:P237
【圖文】:
7圖 2.1 Hadoop 生態(tài)系統(tǒng)圖由于 Hadoop 系統(tǒng)對(duì)大規(guī)模數(shù)據(jù)分布式處理和存儲(chǔ)能力,以及系統(tǒng)的兼容性和性,,并且近幾年業(yè)界和應(yīng)用行業(yè)在 Hadoop 開發(fā)和應(yīng)用上已經(jīng)進(jìn)行了大量的投入了包含各種豐富工具軟件的完整生態(tài)系統(tǒng),同時(shí) Hadoop 社區(qū)也會(huì)對(duì)新一代系統(tǒng)
圖 2.2 HDFS 數(shù)據(jù)寫入過程2、數(shù)據(jù)讀取過程1)首先 client 調(diào)用 FileSystem 對(duì)象的 open()函數(shù),獲得對(duì)應(yīng)數(shù)據(jù)的輸入流(圖步驟 1)。2)DistributedFileSystem 通過 RPC 遠(yuǎn)程調(diào)用 NameNode 獲得此文件對(duì)應(yīng)的數(shù)據(jù)塊 DataNode 位置信息,包括各個(gè)副本的存儲(chǔ)位置,這些存儲(chǔ)位置按照 Hadoop 拓?fù)湫颍嚯x客戶端近的排在前面(圖 2.3 中的步驟 2)。3)前兩步會(huì)返回的 FSDataInputStream 對(duì)象會(huì)被封裝成 DFSInputStream 對(duì)象,nputStream可以方便的監(jiān)管NameNode和DataNode數(shù)據(jù)流?蛻舳苏{(diào)用read()方nputStream 會(huì)連接距離客戶端最近的 DataNode(圖 2.3 中的步驟 3)。4)通過對(duì)文件流反復(fù)調(diào)用 read()方法,數(shù)據(jù)不斷的傳送到 clien(t圖 2.3 中的步驟5)如果讀取第一塊的數(shù)據(jù)結(jié)束,DFSInputStream 就會(huì)斷開與第一塊的 DataNod,接著向下讀取。這些操作對(duì)客戶端來說是透明的,客戶端的角度看來只是在讀不斷的流(圖 2.3 中的步驟 5)。6)如果第一批數(shù)據(jù)塊都讀完了,DFSInputStream 就會(huì)通過 NameNode 找到下一
【學(xué)位授予單位】:江西理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:P237
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 袁如金;張敏;李世偉;;基于華浩超算平臺(tái)遙感影像幾何校正研究——以資源一號(hào)02C數(shù)據(jù)為例[J];測(cè)繪與空間地理信息;2017年01期
2 馬慧云;吳曉京;趙國(guó)慶;姜丙波;;遙感影像反演的霧參數(shù)地區(qū)差異性分析[J];遙感信息;2017年03期
3 雒培磊;李國(guó)慶;曾怡;;一種改進(jìn)的基于深度學(xué)習(xí)的遙感影像拼接方法[J];計(jì)算機(jī)工程與應(yīng)用;2017年20期
4 鄢詠折;范曉燕;;遙感影像變化監(jiān)測(cè)方法簡(jiǎn)述[J];城市建設(shè)理論研究(電子版);2017年22期
5 蔡紅s
本文編號(hào):2573717
本文鏈接:http://sikaile.net/kejilunwen/dizhicehuilunwen/2573717.html
最近更新
教材專著