搜索引擎中分布式文件系統(tǒng)的研究與優(yōu)化
本文關(guān)鍵詞:搜索引擎中分布式文件系統(tǒng)的研究與優(yōu)化,由筆耕文化傳播整理發(fā)布。
《華南理工大學(xué)》 2010年
搜索引擎中分布式文件系統(tǒng)的研究與優(yōu)化
黃翀民
【摘要】: 隨著Internet上信息量的激增,搜索引擎已成為用戶查找網(wǎng)上信息必不可少檢索工具。目前搜索引擎的各種技術(shù)在不斷地進(jìn)步,出現(xiàn)了如Google,Baidu,Yahoo等優(yōu)秀的搜索引擎,由于網(wǎng)絡(luò)信息呈爆炸式的增長(zhǎng),用戶對(duì)于搜索引擎的依賴程度越來(lái)越大,這給搜索引擎技術(shù)的發(fā)展帶來(lái)了機(jī)遇,也使搜索引擎技術(shù)遇到了前所未有的挑戰(zhàn)。 搜索引擎本身涉及到多方面的技術(shù),其中底層的分布式文件系統(tǒng)就是至關(guān)重要的一環(huán)。因此本課題著力于對(duì)搜索引擎的分布式文件系統(tǒng)展開研究,希望通過(guò)提升分布式文件系統(tǒng)的性能,最終使上層的搜索引擎應(yīng)用能夠具有更高的性能。 本文以實(shí)驗(yàn)室目前正在運(yùn)行的搜索引擎底層的HDFS文件系統(tǒng)為對(duì)象,深入研究其架構(gòu)和數(shù)據(jù)組織方式,以及讀寫操作的詳細(xì)流程,參考其它優(yōu)秀的分布式文件系統(tǒng)的設(shè)計(jì),通過(guò)引入一些優(yōu)秀的機(jī)制,提高HDFS文件系統(tǒng)的性能。 首先對(duì)HDFS中數(shù)據(jù)節(jié)點(diǎn)選擇存儲(chǔ)空間的問題上,分析了它默認(rèn)算法的弊端。由于沒有對(duì)系統(tǒng)環(huán)境的一個(gè)認(rèn)知,簡(jiǎn)單的Round-Robin算法比較容易造成數(shù)據(jù)的不均衡和數(shù)據(jù)讀寫的阻塞,本文設(shè)計(jì)了一種兼顧磁盤容量和磁盤負(fù)載的算法,通過(guò)獲取當(dāng)前系統(tǒng)的一些狀態(tài)信息,并根據(jù)這些信息來(lái)做出有利于系統(tǒng)性能的選擇。 針對(duì)HDFS中數(shù)據(jù)寫操作的流程,通過(guò)分析HDFS的實(shí)現(xiàn),發(fā)現(xiàn)其磁盤操作如把網(wǎng)絡(luò)數(shù)據(jù)流的操作和磁盤的操作在數(shù)據(jù)包層面進(jìn)行串行的執(zhí)行,在一定程度上影響了數(shù)據(jù)節(jié)點(diǎn)處理數(shù)據(jù)的效率。本文提出了一種并行的數(shù)據(jù)處理模式。通過(guò)一個(gè)DiskWriter線程來(lái)進(jìn)行所有的磁盤操作,并用一個(gè)隊(duì)列來(lái)緩存網(wǎng)絡(luò)的數(shù)據(jù)包,能夠很好的提高數(shù)據(jù)節(jié)點(diǎn)處理數(shù)據(jù)的效率,從而提升系統(tǒng)的性能。 本文設(shè)計(jì)了幾個(gè)實(shí)驗(yàn)來(lái)對(duì)比改進(jìn)前后HDFS的性能對(duì)比。通過(guò)實(shí)驗(yàn)得出的數(shù)據(jù),可以看出改進(jìn)后的HDFS在這三個(gè)測(cè)試中都表現(xiàn)出了更好的性能,從而證明了本文的改進(jìn)方法是有效的。
【關(guān)鍵詞】:
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2010
【分類號(hào)】:TP391.3
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購(gòu)買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 ;李彥宏論搜索引擎三個(gè)定律[J];新電子;2001年02期
2 相春雷;;2009年中國(guó)搜索引擎市場(chǎng)趨勢(shì)分析[J];軟件世界;2010年02期
3 ;揭秘搜索引擎收錄網(wǎng)站的秘密[J];計(jì)算機(jī)與網(wǎng)絡(luò);2010年Z1期
4 李析;廖志恒;;云計(jì)算的關(guān)鍵技術(shù)及發(fā)展現(xiàn)狀[J];九江職業(yè)技術(shù)學(xué)院學(xué)報(bào);2011年02期
5 馬玥;;王小川:絕境之外[J];中國(guó)經(jīng)濟(jì)和信息化;2011年12期
6 魏蕾如;;基于搜索引擎的網(wǎng)絡(luò)中文信息檢索工具評(píng)價(jià)[J];數(shù)字技術(shù)與應(yīng)用;2011年06期
7 ;創(chuàng)新工業(yè)搜索引擎[J];中國(guó)制造業(yè)信息化;2011年12期
8 胡風(fēng)華;王磊;;基于知識(shí)庫(kù)系統(tǒng)的智能搜索引擎研究[J];中國(guó)新技術(shù)新產(chǎn)品;2011年18期
9 方亞會(huì);;Google失敗后快速切換搜索引擎[J];電腦迷;2011年11期
10 ;成長(zhǎng)中的谷歌[J];IT時(shí)代周刊;2011年18期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 彭軻;廖聞劍;;淺析搜索引擎[A];中國(guó)通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年
2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國(guó)中醫(yī)藥信息研究會(huì)第二屆理事大會(huì)暨學(xué)術(shù)交流會(huì)議論文匯編[C];2003年
3 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁(yè)爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年
5 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計(jì)算機(jī)學(xué)會(huì)2008年年會(huì)論文集[C];2008年
6 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國(guó)開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年
7 倪俊峰;;基于黃頁(yè)搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2005年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2005年
8 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2010年
9 陳援非;何哲;朱珍民;;基于普適計(jì)算的個(gè)性化搜索技術(shù)[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2006)——第2屆中國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC'06)論文集[C];2006年
10 楊萌;李春麗;朱明;;網(wǎng)絡(luò)搜索技術(shù)下的編輯工作[A];學(xué)報(bào)編輯論叢(第十一集)[C];2003年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 主持人 陳建棟;[N];光明日?qǐng)?bào);2005年
2 本報(bào)記者 陳建棟;[N];光明日?qǐng)?bào);2005年
3 曾正樂;[N];經(jīng)濟(jì)日?qǐng)?bào);2005年
4 本報(bào)記者 秦海波;[N];經(jīng)濟(jì)日?qǐng)?bào);2005年
5 FN記者 柳立;[N];金融時(shí)報(bào);2005年
6 閆輝;[N];計(jì)算機(jī)世界;2005年
7 本報(bào)記者 李劍;[N];通信信息報(bào);2005年
8 華夏;[N];江蘇科技報(bào);2008年
9 記者 毛濤濤;[N];北京商報(bào);2008年
10 笑愉;[N];中國(guó)稅務(wù)報(bào);2008年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 趙鐵柱;分布式文件系統(tǒng)性能建模及應(yīng)用研究[D];華南理工大學(xué);2011年
2 岑榮偉;基于用戶行為分析的搜索引擎評(píng)價(jià)研究[D];清華大學(xué);2010年
3 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
4 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年
5 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年
6 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年
7 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年
8 王镠璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評(píng)估研究[D];吉林大學(xué);2010年
9 李莎莎;面向搜索引擎的自然語(yǔ)言處理關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
10 白玉琪;空間信息搜索引擎研究[D];中國(guó)科學(xué)院研究生院(遙感應(yīng)用研究所);2003年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 薛云;Internet上元搜索引擎的研究與設(shè)計(jì)[D];太原理工大學(xué);2003年
2 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年
3 李海豐;基于Lucene的企業(yè)文檔搜索引擎研究與應(yīng)用[D];中南林業(yè)科技大學(xué);2009年
4 趙善明;基于Lucene的主題搜索引擎研究[D];西安電子科技大學(xué);2008年
5 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實(shí)現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年
6 董晨;基于模糊聚類的個(gè)性化搜索引擎的研究[D];福州大學(xué);2005年
7 封俊;基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn)[D];太原理工大學(xué);2010年
8 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實(shí)現(xiàn)[D];華南理工大學(xué);2010年
9 王春芹;搜索引擎主題相關(guān)性研究[D];中山大學(xué);2010年
10 張盛蕾;基于Java的浙江紡織服裝學(xué)院校園網(wǎng)搜索引擎[D];電子科技大學(xué);2010年
本文關(guān)鍵詞:搜索引擎中分布式文件系統(tǒng)的研究與優(yōu)化,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):58110
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/58110.html