面向搜索引擎的分布式文件系統(tǒng)性能分析
本文關(guān)鍵詞:面向搜索引擎的分布式文件系統(tǒng)性能分析,由筆耕文化傳播整理發(fā)布。
華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版)
第39卷第4期2011年4月
JournalofSouthChinaUniversityofTechnology
(NaturalScienceEdition)
V01.39
April
N0.4201I
文章編號(hào):1000-565X(2011)04.0007.08
面向搜索引擎的分布式文件系統(tǒng)性能分析木
董守斌趙鐵柱
(華南理工大學(xué)廣東省計(jì)算機(jī)網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室,廣東廣州510640)
摘要:搜索引擎是一種數(shù)據(jù)密集型應(yīng)用,其性能極大依賴于底層文件系統(tǒng)的性能.文中主要討論分布式文件系統(tǒng)在搜索引擎應(yīng)用環(huán)境下的性能評(píng)估和性能優(yōu)化問(wèn)題.首先概述了分布式文件系統(tǒng)的性能影響因素及相關(guān)研究進(jìn)展;在此基礎(chǔ)上提出基于Hadoop的開放架構(gòu),系統(tǒng)地評(píng)估HDFS和Lustre在搜索引擎應(yīng)用場(chǎng)景下的性能;最后針對(duì)實(shí)驗(yàn)評(píng)估發(fā)現(xiàn)的HDFS在寫性能及小文件數(shù)據(jù)處理方面的不足,提出改進(jìn)方案,為搜索引擎的分布式文件系統(tǒng)優(yōu)化提供參考.
關(guān)鍵詞:搜索引擎;分布式文件系統(tǒng);HDFS文件系統(tǒng);Lustre文件系統(tǒng);性能分析;
性能優(yōu)化
中圖分類號(hào):TP393
doi:10.3969/j.issn.1000-565X.2011.04.002
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,計(jì)算、傳輸和存儲(chǔ)三大IT基礎(chǔ)技術(shù)都得到了飛速的發(fā)展.但相對(duì)于計(jì)算(數(shù)據(jù)處理)和傳輸而言,,存儲(chǔ)技術(shù)發(fā)展緩慢.海量數(shù)據(jù)的存儲(chǔ)和檢索已成為制約互聯(lián)網(wǎng)發(fā)展和分布式應(yīng)用的關(guān)鍵問(wèn)題.搜索引擎是數(shù)據(jù)密集型的應(yīng)用,其系統(tǒng)性能極大地依賴于底層的文件系統(tǒng).如果單純依賴操作系統(tǒng)提供的文件系統(tǒng)基本功能,搜索引擎系統(tǒng)將無(wú)法獲得理想的性能.因此,搜索引擎均采用分布式文件系統(tǒng)來(lái)解決這個(gè)問(wèn)題.分布式文件系統(tǒng)具有高吞吐量、高I/0帶寬和可擴(kuò)展等特點(diǎn),它可以將多個(gè)節(jié)點(diǎn)上的硬盤組織成為全局的存儲(chǔ)系統(tǒng),提供聚合的存儲(chǔ)容量和I/O帶寬,并易于隨系統(tǒng)規(guī)模擴(kuò)大而擴(kuò)展.
20世紀(jì)80年代網(wǎng)絡(luò)文件系統(tǒng)NFS(Network
File
搜索引擎對(duì)數(shù)據(jù)存取有特殊的需求,搜索引擎專用的分布式文件系統(tǒng)應(yīng)需而生.GFS(Googhtern)‘‘-21和HDFS(Hadoop
DistributedFile
FileSys-
System)‘33
等均是專用于滿足搜索引擎應(yīng)用需求的分布式文件系統(tǒng).但這些專用的搜索引擎分布式文件系統(tǒng)是否在支持搜索引擎以及類似應(yīng)用時(shí)比通用型的分布式文件系統(tǒng)具有更好的性能,目前尚無(wú)定論.文中以HDFS和Lustre這兩個(gè)具有代表性的分布式文件系統(tǒng)為基礎(chǔ),展開面向搜索引擎應(yīng)用的分布式文件系統(tǒng)的性能評(píng)估和性能優(yōu)化的研究.1
影響分布式文件系統(tǒng)性能的因素
分布式文件系統(tǒng)由于能有效解決高性能計(jì)算系
統(tǒng)的海量數(shù)據(jù)存儲(chǔ)和L/O瓶頸問(wèn)題,成為目前存儲(chǔ)學(xué)界的研究熱點(diǎn).分布式文件系統(tǒng)應(yīng)用于多機(jī)環(huán)境的網(wǎng)絡(luò)文件系統(tǒng),單個(gè)文件的數(shù)據(jù)采用分條(Stripe)等形式存放于不同的I/O節(jié)點(diǎn)之上,支持多機(jī)多個(gè)進(jìn)程的并發(fā)存取,同時(shí)支持元數(shù)據(jù)和數(shù)據(jù)的分布存放,并提供單一的目錄空間.分布式文件系統(tǒng)的設(shè)計(jì)
System)的出現(xiàn)使得分布式文件系統(tǒng)逐漸發(fā)展
并應(yīng)用到各個(gè)領(lǐng)域.目前分布式文件系統(tǒng)在體系結(jié)構(gòu)、系統(tǒng)規(guī)模、性能、可擴(kuò)展性、可用性等方面均經(jīng)歷了較大的變化.主流的分布式文件系統(tǒng)如Lustre等已應(yīng)用在高性能計(jì)算和云計(jì)算等相關(guān)領(lǐng)域.但由于
收稿日期:2011-01.08
¥基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61070092);國(guó)家發(fā)改委CNGI項(xiàng)目(CNGl2008-109/122)
作者簡(jiǎn)介:董守斌(1967-),女,教授,博士生導(dǎo)師,主要從事高性能計(jì)算、信息檢索、下一代互聯(lián)網(wǎng)等的研究.E-mail:sbdong@
scut.edu.cn
萬(wàn)方數(shù)據(jù)
本文關(guān)鍵詞:面向搜索引擎的分布式文件系統(tǒng)性能分析,由筆耕文化傳播整理發(fā)布。
本文編號(hào):182515
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/182515.html