天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于HBase的海量圖片存儲(chǔ)與快速檢索技術(shù)研究

發(fā)布時(shí)間:2022-01-19 16:01
  Web2.0時(shí)代的到來使得越來越多的圖片需要被存儲(chǔ)到數(shù)據(jù)庫中,海量的圖片信息、非結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)、頻繁的讀寫操作都為數(shù)據(jù)存儲(chǔ)提供了難度。如何高效的存儲(chǔ)海量圖片數(shù)據(jù)是一個(gè)值得關(guān)注的話題,大數(shù)據(jù)的出現(xiàn)為我們解決海量圖片存儲(chǔ)提供了新的思路。論文針對(duì)人臉海量圖片的特點(diǎn)和存儲(chǔ)需求以及對(duì)分布式存儲(chǔ)框架的對(duì)比,提出了基于HBase的海量圖片解決方案,并采用了Master/Slaver分布式存儲(chǔ)結(jié)構(gòu)。為了提高圖片數(shù)據(jù)的可靠性,構(gòu)建HA高可用架構(gòu)提高系統(tǒng)的可靠性和容錯(cuò)性。在圖片存儲(chǔ)方面,為了提高海量圖片的插入效率,針對(duì)不同的圖片來源設(shè)計(jì)不同的表和入庫方式。針對(duì)其中的大規(guī)模人臉抓拍數(shù)據(jù)以及非結(jié)構(gòu)化的人物信息設(shè)計(jì)了分布式存儲(chǔ)主鍵,成功的解決HBase在高并發(fā)情況數(shù)據(jù)不平衡的問題,提高了region各區(qū)域的負(fù)載均衡。由于人臉圖片是小文件類型,過多會(huì)影響集群的存取效率,因此本文在Hadoop中現(xiàn)有的解決方案上進(jìn)行優(yōu)化,提出一種新的解決方案,首先提取人臉圖片中的特征值,再利用k-means算法將相似度高的圖片小文件合并到大文件中,提高Hadoop中block塊的利用率。在文本檢索方面,由于HBase缺乏二級(jí)索引,... 

【文章來源】:長江大學(xué)湖北省

【文章頁數(shù)】:71 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于HBase的海量圖片存儲(chǔ)與快速檢索技術(shù)研究


MapReduce體系結(jié)構(gòu)

過程圖,過程圖,過程


6圖2-1MapReduce體系結(jié)構(gòu)Figure2-1MapReducearchitectureMap和Reduce是MapReduce處理海量數(shù)據(jù)的核心技術(shù),是由主節(jié)點(diǎn)進(jìn)行主動(dòng)的分解結(jié)果。Map階段主要是將任務(wù)分成小塊,即把復(fù)雜的任務(wù)分解成為若干個(gè)簡單的小塊任務(wù)進(jìn)行,這些任務(wù)通過主節(jié)點(diǎn)直接分配給子節(jié)點(diǎn)進(jìn)行計(jì)算,每個(gè)任務(wù)和任務(wù)之間并沒有相關(guān)的關(guān)系。MapReduce框架要先對(duì)大量的數(shù)據(jù)進(jìn)行拆分排序,然后將結(jié)果和后一階段合并輸出。Reduce階段會(huì)對(duì)Map階段送來的任務(wù)進(jìn)行分析,合并,最后處理數(shù)據(jù)。Map過程以及Reduce的過程都是接受的鍵值對(duì)形式,但是不同過程中的鍵值對(duì)的值以及意義都不一定一樣。且從Map段的接收數(shù)據(jù)到輸出數(shù)據(jù)的過程中都是通過鍵值對(duì)傳遞,每個(gè)過程都要為鍵值對(duì)進(jìn)行復(fù)雜的處理過程,但是最后輸出的Key和Value的值不一定和前面的Key,Value的值是一致的。下面詳細(xì)展示了數(shù)據(jù)的傳遞過程:圖2-2MapReduce過程圖Figure2-2MapReduceprocessdiagram

架構(gòu)圖,文件,主節(jié)點(diǎn),存儲(chǔ)系統(tǒng)


7(2)HDFSHDFS[16]來源于Google的論文GoogleFileSystem(GFS),是Hadoop平臺(tái)具備分布式存儲(chǔ)的核心基矗為了能夠高效存儲(chǔ)大文件集,HDFS繼承了其他文件系統(tǒng)中的block塊結(jié)構(gòu),將這些大文件分割成為一個(gè)個(gè)block塊大小的文件存儲(chǔ)在Hadoop的節(jié)點(diǎn)中,并默認(rèn)保存著3個(gè)副本。在hadoop1.x中block塊大小為設(shè)置為64M,而新版本中block塊大小變成128M,當(dāng)存儲(chǔ)的文件小于塊大小的時(shí)候并不會(huì)占用整個(gè)block的空間。HDFS文件存儲(chǔ)系統(tǒng)在Hadoop集群中的構(gòu)建上密不可分,是一個(gè)主/從體系的結(jié)構(gòu),主要起著存儲(chǔ)海量數(shù)據(jù)的作用,即能夠存儲(chǔ)“超大文件”,能夠達(dá)到PB級(jí)別。HDFS是屬于一次寫入,可以進(jìn)行多次讀取的方式(流式讀取),并不支持已寫入數(shù)據(jù)的更新操作,但是能夠允許在文件尾部能夠添加新的數(shù)據(jù),同時(shí)也就意味著這些大量數(shù)據(jù)集一旦產(chǎn)生過后,就會(huì)被分發(fā)存儲(chǔ)到不同的存儲(chǔ)節(jié)點(diǎn)上,來應(yīng)對(duì)不同情況的數(shù)據(jù)處理。HDFS分布式文件存儲(chǔ)系統(tǒng)主要是由NameNode,SecondaryNameNode和DataNode這三個(gè)部分組成的,主節(jié)點(diǎn)靠NameNode,SecondaryNameNode處理數(shù)據(jù),DataNode在從節(jié)點(diǎn)中接收分配的任務(wù),如下面圖是HDFS的架構(gòu)圖。圖2-3HDFS架構(gòu)圖Figure2-3HDFSarchitecturediagramDataNode在主節(jié)點(diǎn)中主要是用來管理一系列數(shù)據(jù),并且記錄這些文件以及文件內(nèi)部中的數(shù)據(jù)信息,為了節(jié)約內(nèi)存,DataNode并沒有存儲(chǔ)這些信息。這些信息

【參考文獻(xiàn)】:
期刊論文
[1]基于Elasticsearch的HBase大數(shù)據(jù)二級(jí)索引方案[J]. 李傳冰.  電腦知識(shí)與技術(shù). 2020(04)
[2]聚類中心初始值選擇方法綜述[J]. 鄧旭冉,超木日力格,郭靜.  中國電子科學(xué)研究院學(xué)報(bào). 2019(04)
[3]基于海量數(shù)據(jù)的HBase寫入性能測(cè)試與優(yōu)化[J]. 青欣,文偉軍,金星,姜鎮(zhèn).  電腦知識(shí)與技術(shù). 2019(06)
[4]ZooKeeper的開發(fā)和應(yīng)用[J]. 陳冬梅,常廣炎.  電腦編程技巧與維護(hù). 2017(21)
[5]基于HBase+ ElasticSearch的海量交通數(shù)據(jù)實(shí)時(shí)存取方案設(shè)計(jì)[J]. 董長青,任女爾,張慶余,田玉靖.  大數(shù)據(jù). 2017(01)
[6]基于Redis實(shí)現(xiàn)HBase二級(jí)索引的方法[J]. 崔丹,史金鑫.  軟件. 2016(11)
[7]面向HBase的大規(guī)模數(shù)據(jù)加載研究[J]. 賀正紅,周婭,文締堯,吳清霞.  計(jì)算機(jī)系統(tǒng)應(yīng)用. 2016(06)
[8]基于HBase的小文件高效存儲(chǔ)方法[J]. 熊安萍,熊風(fēng)波.  重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(01)
[9]SQL-DFS:一種基于HDFS的海量小文件存儲(chǔ)系統(tǒng)[J]. 馬志強(qiáng),楊雙濤,閆瑞,張澤廣.  北京工業(yè)大學(xué)學(xué)報(bào). 2016(01)
[10]Hadoop高可用解決方案研究[J]. 黃強(qiáng),沈奇威,李煒.  電信技術(shù). 2015(11)

碩士論文
[1]Hadoop平臺(tái)下基于LSH的圖像索引系統(tǒng)的研究與實(shí)現(xiàn)[D]. 王永榮.南京郵電大學(xué) 2019
[2]Hadoop集群中小文件的存取優(yōu)化研究[D]. 馬振.新疆大學(xué) 2019
[3]大容量實(shí)時(shí)人臉檢索系統(tǒng)及其任務(wù)調(diào)度算法的研究與實(shí)現(xiàn)[D]. 王晨曦.北京郵電大學(xué) 2019
[4]基于HBase的大數(shù)據(jù)存儲(chǔ)優(yōu)化設(shè)計(jì)與性能分析[D]. 溫振蕙.中北大學(xué) 2019
[5]基于Redis的分布式緩存系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 章鋮.東南大學(xué) 2018
[6]基于側(cè)掃聲吶圖像的水下組合導(dǎo)航算法研究[D]. 李凱.國防科技大學(xué) 2017
[7]基于HBase的交通流數(shù)據(jù)實(shí)時(shí)存儲(chǔ)與查詢優(yōu)化方案的設(shè)計(jì)與實(shí)現(xiàn)[D]. 瞿龍俊.江蘇大學(xué) 2017
[8]基于協(xié)處理器機(jī)制的HBase檢索速度改進(jìn)研究[D]. 夏超俊.湖南大學(xué) 2015
[9]基于Hadoop的海量圖片云存儲(chǔ)系統(tǒng)研究與設(shè)計(jì)[D]. 張衛(wèi)東.中國海洋大學(xué) 2014
[10]基于HBase的海量數(shù)據(jù)實(shí)時(shí)查詢系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 卓海藝.北京郵電大學(xué) 2013



本文編號(hào):3597151

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3597151.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶197a3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com