搜索引擎中分布式文件系統(tǒng)的研究與優(yōu)化
本文關(guān)鍵詞:搜索引擎中分布式文件系統(tǒng)的研究與優(yōu)化,由筆耕文化傳播整理發(fā)布。
《華南理工大學(xué)》 2010年
搜索引擎中分布式文件系統(tǒng)的研究與優(yōu)化
黃翀民
【摘要】: 隨著Internet上信息量的激增,搜索引擎已成為用戶查找網(wǎng)上信息必不可少檢索工具。目前搜索引擎的各種技術(shù)在不斷地進步,出現(xiàn)了如Google,Baidu,Yahoo等優(yōu)秀的搜索引擎,由于網(wǎng)絡(luò)信息呈爆炸式的增長,用戶對于搜索引擎的依賴程度越來越大,這給搜索引擎技術(shù)的發(fā)展帶來了機遇,也使搜索引擎技術(shù)遇到了前所未有的挑戰(zhàn)。 搜索引擎本身涉及到多方面的技術(shù),其中底層的分布式文件系統(tǒng)就是至關(guān)重要的一環(huán)。因此本課題著力于對搜索引擎的分布式文件系統(tǒng)展開研究,希望通過提升分布式文件系統(tǒng)的性能,最終使上層的搜索引擎應(yīng)用能夠具有更高的性能。 本文以實驗室目前正在運行的搜索引擎底層的HDFS文件系統(tǒng)為對象,深入研究其架構(gòu)和數(shù)據(jù)組織方式,以及讀寫操作的詳細流程,參考其它優(yōu)秀的分布式文件系統(tǒng)的設(shè)計,通過引入一些優(yōu)秀的機制,提高HDFS文件系統(tǒng)的性能。 首先對HDFS中數(shù)據(jù)節(jié)點選擇存儲空間的問題上,分析了它默認(rèn)算法的弊端。由于沒有對系統(tǒng)環(huán)境的一個認(rèn)知,簡單的Round-Robin算法比較容易造成數(shù)據(jù)的不均衡和數(shù)據(jù)讀寫的阻塞,本文設(shè)計了一種兼顧磁盤容量和磁盤負(fù)載的算法,通過獲取當(dāng)前系統(tǒng)的一些狀態(tài)信息,并根據(jù)這些信息來做出有利于系統(tǒng)性能的選擇。 針對HDFS中數(shù)據(jù)寫操作的流程,通過分析HDFS的實現(xiàn),發(fā)現(xiàn)其磁盤操作如把網(wǎng)絡(luò)數(shù)據(jù)流的操作和磁盤的操作在數(shù)據(jù)包層面進行串行的執(zhí)行,在一定程度上影響了數(shù)據(jù)節(jié)點處理數(shù)據(jù)的效率。本文提出了一種并行的數(shù)據(jù)處理模式。通過一個DiskWriter線程來進行所有的磁盤操作,并用一個隊列來緩存網(wǎng)絡(luò)的數(shù)據(jù)包,能夠很好的提高數(shù)據(jù)節(jié)點處理數(shù)據(jù)的效率,從而提升系統(tǒng)的性能。 本文設(shè)計了幾個實驗來對比改進前后HDFS的性能對比。通過實驗得出的數(shù)據(jù),可以看出改進后的HDFS在這三個測試中都表現(xiàn)出了更好的性能,從而證明了本文的改進方法是有效的。
【關(guān)鍵詞】:
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2010
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 ;李彥宏論搜索引擎三個定律[J];新電子;2001年02期
2 相春雷;;2009年中國搜索引擎市場趨勢分析[J];軟件世界;2010年02期
3 ;揭秘搜索引擎收錄網(wǎng)站的秘密[J];計算機與網(wǎng)絡(luò);2010年Z1期
4 李析;廖志恒;;云計算的關(guān)鍵技術(shù)及發(fā)展現(xiàn)狀[J];九江職業(yè)技術(shù)學(xué)院學(xué)報;2011年02期
5 馬玥;;王小川:絕境之外[J];中國經(jīng)濟和信息化;2011年12期
6 魏蕾如;;基于搜索引擎的網(wǎng)絡(luò)中文信息檢索工具評價[J];數(shù)字技術(shù)與應(yīng)用;2011年06期
7 ;創(chuàng)新工業(yè)搜索引擎[J];中國制造業(yè)信息化;2011年12期
8 胡風(fēng)華;王磊;;基于知識庫系統(tǒng)的智能搜索引擎研究[J];中國新技術(shù)新產(chǎn)品;2011年18期
9 方亞會;;Google失敗后快速切換搜索引擎[J];電腦迷;2011年11期
10 ;成長中的谷歌[J];IT時代周刊;2011年18期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年
2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學(xué)術(shù)交流會議論文匯編[C];2003年
3 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年
4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年
5 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計算機學(xué)會2008年年會論文集[C];2008年
6 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國開放式分布與并行計算學(xué)術(shù)會議論文集[C];2005年
7 倪俊峰;;基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計與實現(xiàn)[A];2005年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2005年
8 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2010年
9 陳援非;何哲;朱珍民;;基于普適計算的個性化搜索技術(shù)[A];第二屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第2屆中國普適計算學(xué)術(shù)會議(PCC'06)論文集[C];2006年
10 楊萌;李春麗;朱明;;網(wǎng)絡(luò)搜索技術(shù)下的編輯工作[A];學(xué)報編輯論叢(第十一集)[C];2003年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 主持人 陳建棟;[N];光明日報;2005年
2 本報記者 陳建棟;[N];光明日報;2005年
3 曾正樂;[N];經(jīng)濟日報;2005年
4 本報記者 秦海波;[N];經(jīng)濟日報;2005年
5 FN記者 柳立;[N];金融時報;2005年
6 閆輝;[N];計算機世界;2005年
7 本報記者 李劍;[N];通信信息報;2005年
8 華夏;[N];江蘇科技報;2008年
9 記者 毛濤濤;[N];北京商報;2008年
10 笑愉;[N];中國稅務(wù)報;2008年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 趙鐵柱;分布式文件系統(tǒng)性能建模及應(yīng)用研究[D];華南理工大學(xué);2011年
2 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學(xué);2010年
3 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
4 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年
5 劉佐達;分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年
6 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學(xué);2011年
7 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年
8 王镠璞;基于用戶體驗的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評估研究[D];吉林大學(xué);2010年
9 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
10 白玉琪;空間信息搜索引擎研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2003年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 薛云;Internet上元搜索引擎的研究與設(shè)計[D];太原理工大學(xué);2003年
2 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年
3 李海豐;基于Lucene的企業(yè)文檔搜索引擎研究與應(yīng)用[D];中南林業(yè)科技大學(xué);2009年
4 趙善明;基于Lucene的主題搜索引擎研究[D];西安電子科技大學(xué);2008年
5 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年
6 董晨;基于模糊聚類的個性化搜索引擎的研究[D];福州大學(xué);2005年
7 封俊;基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學(xué);2010年
8 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實現(xiàn)[D];華南理工大學(xué);2010年
9 王春芹;搜索引擎主題相關(guān)性研究[D];中山大學(xué);2010年
10 張盛蕾;基于Java的浙江紡織服裝學(xué)院校園網(wǎng)搜索引擎[D];電子科技大學(xué);2010年
本文關(guān)鍵詞:搜索引擎中分布式文件系統(tǒng)的研究與優(yōu)化,,由筆耕文化傳播整理發(fā)布。
本文編號:58110
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/58110.html