天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

搜索引擎中分布式文件系統(tǒng)的研究與優(yōu)化

發(fā)布時間:2016-06-16 21:09

  本文關(guān)鍵詞:搜索引擎中分布式文件系統(tǒng)的研究與優(yōu)化,由筆耕文化傳播整理發(fā)布。


《華南理工大學(xué)》 2010年

搜索引擎中分布式文件系統(tǒng)的研究與優(yōu)化

黃翀民  

【摘要】: 隨著Internet上信息量的激增,搜索引擎已成為用戶查找網(wǎng)上信息必不可少檢索工具。目前搜索引擎的各種技術(shù)在不斷地進步,出現(xiàn)了如Google,Baidu,Yahoo等優(yōu)秀的搜索引擎,由于網(wǎng)絡(luò)信息呈爆炸式的增長,用戶對于搜索引擎的依賴程度越來越大,這給搜索引擎技術(shù)的發(fā)展帶來了機遇,也使搜索引擎技術(shù)遇到了前所未有的挑戰(zhàn)。 搜索引擎本身涉及到多方面的技術(shù),其中底層的分布式文件系統(tǒng)就是至關(guān)重要的一環(huán)。因此本課題著力于對搜索引擎的分布式文件系統(tǒng)展開研究,希望通過提升分布式文件系統(tǒng)的性能,最終使上層的搜索引擎應(yīng)用能夠具有更高的性能。 本文以實驗室目前正在運行的搜索引擎底層的HDFS文件系統(tǒng)為對象,深入研究其架構(gòu)和數(shù)據(jù)組織方式,以及讀寫操作的詳細流程,參考其它優(yōu)秀的分布式文件系統(tǒng)的設(shè)計,通過引入一些優(yōu)秀的機制,提高HDFS文件系統(tǒng)的性能。 首先對HDFS中數(shù)據(jù)節(jié)點選擇存儲空間的問題上,分析了它默認(rèn)算法的弊端。由于沒有對系統(tǒng)環(huán)境的一個認(rèn)知,簡單的Round-Robin算法比較容易造成數(shù)據(jù)的不均衡和數(shù)據(jù)讀寫的阻塞,本文設(shè)計了一種兼顧磁盤容量和磁盤負(fù)載的算法,通過獲取當(dāng)前系統(tǒng)的一些狀態(tài)信息,并根據(jù)這些信息來做出有利于系統(tǒng)性能的選擇。 針對HDFS中數(shù)據(jù)寫操作的流程,通過分析HDFS的實現(xiàn),發(fā)現(xiàn)其磁盤操作如把網(wǎng)絡(luò)數(shù)據(jù)流的操作和磁盤的操作在數(shù)據(jù)包層面進行串行的執(zhí)行,在一定程度上影響了數(shù)據(jù)節(jié)點處理數(shù)據(jù)的效率。本文提出了一種并行的數(shù)據(jù)處理模式。通過一個DiskWriter線程來進行所有的磁盤操作,并用一個隊列來緩存網(wǎng)絡(luò)的數(shù)據(jù)包,能夠很好的提高數(shù)據(jù)節(jié)點處理數(shù)據(jù)的效率,從而提升系統(tǒng)的性能。 本文設(shè)計了幾個實驗來對比改進前后HDFS的性能對比。通過實驗得出的數(shù)據(jù),可以看出改進后的HDFS在這三個測試中都表現(xiàn)出了更好的性能,從而證明了本文的改進方法是有效的。

【關(guān)鍵詞】:
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2010
【分類號】:TP391.3
【目錄】:

  • 摘要5-6
  • Abstract6-10
  • 第一章 引言10-16
  • 1.1 研究的背景和意義10-11
  • 1.2 分布式文件系統(tǒng)11-14
  • 1.2.1 分布式文件系統(tǒng)類型11
  • 1.2.2 分布式文件系統(tǒng)的發(fā)展11-13
  • 1.2.3 主流分布式文件系統(tǒng)13-14
  • 1.3 木棉搜索引擎現(xiàn)狀14
  • 1.4 本文的工作內(nèi)容14-15
  • 1.5 本文的結(jié)構(gòu)15-16
  • 第二章 分布式文件系統(tǒng)相關(guān)技術(shù)研究16-34
  • 2.1 分布式文件系統(tǒng)基本結(jié)構(gòu)16-17
  • 2.1.1 元數(shù)據(jù)管理16-17
  • 2.1.2 分布式文件系統(tǒng)緩存17
  • 2.1.3 分布式文件系統(tǒng)數(shù)據(jù)冗余17
  • 2.2 Google文件系統(tǒng)17-22
  • 2.2.1 GFS的體系結(jié)構(gòu)18-20
  • 2.2.2 GFS元數(shù)據(jù)管理20
  • 2.2.3 GFS的系統(tǒng)交互20-22
  • 2.2.4 GFS的容錯設(shè)計和診斷工具22
  • 2.3 Lustre文件系統(tǒng)22-27
  • 2.3.1 Lustre介紹22
  • 2.3.2 Lustre的體系結(jié)構(gòu)22-25
  • 2.3.3 Lustre的文件存儲方式25-27
  • 2.4 Hadoop27-32
  • 2.4.1 Hadoop分布式計算框架27-28
  • 2.4.2 Hadoop分布式文件系統(tǒng)28-32
  • 2.5 本章小結(jié)32-34
  • 第三章 HDFS的核心實現(xiàn)和性能分析34-46
  • 3.1 系統(tǒng)的實現(xiàn)目標(biāo)34
  • 3.2 HDFS的數(shù)據(jù)組織方式34-38
  • 3.2.1 本地數(shù)據(jù)塊組織34-35
  • 3.2.2 HDFS中數(shù)據(jù)組織層次35-38
  • 3.3 HDFS的讀寫過程分析38-43
  • 3.3.1 HDFS讀數(shù)據(jù)塊39-41
  • 3.3.2 HDFS寫數(shù)據(jù)塊41-43
  • 3.4 HDFS性能分析43-45
  • 3.4.1 本地寫數(shù)據(jù)的磁盤選擇43-44
  • 3.4.2 對寫數(shù)據(jù)塊的一些分析44-45
  • 3.5 本章小結(jié)45-46
  • 第四章 對HDFS的改進與實現(xiàn)46-59
  • 4.1 搜索引擎中的分布式文件系統(tǒng)46
  • 4.2 HDFS中寫數(shù)據(jù)策略46-50
  • 4.2.1 Radom算法的優(yōu)略47-48
  • 4.2.2 基于磁盤負(fù)載和磁盤空間的綜合算法48-49
  • 4.2.3 算法的實現(xiàn)方式49-50
  • 4.3 HDFS寫數(shù)據(jù)塊流程優(yōu)化50-57
  • 4.3.1 數(shù)據(jù)節(jié)點處理數(shù)據(jù)塊的方式50-55
  • 4.3.2 并行數(shù)據(jù)處理方式55
  • 4.3.3 并行算法的實現(xiàn)55-57
  • 4.4 本章小結(jié)57-59
  • 第五章 系統(tǒng)測試及分析59-66
  • 5.1 測試環(huán)境59-60
  • 5.1.1 硬件環(huán)境59
  • 5.1.2 軟件環(huán)境59-60
  • 5.2 測試方法及參數(shù)配置60-63
  • 5.2.1 測試內(nèi)容60-62
  • 5.2.2 測試配置62-63
  • 5.3 測試結(jié)果及分析63-65
  • 5.4 本章小結(jié)65-66
  • 結(jié)論66-68
  • 參考文獻68-72
  • 致謝72
  • 下載全文 更多同類文獻

    CAJ全文下載

    (如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)

    CAJViewer閱讀器支持CAJ、PDF文件格式


    【相似文獻】

    中國期刊全文數(shù)據(jù)庫 前10條

    1 ;李彥宏論搜索引擎三個定律[J];新電子;2001年02期

    2 相春雷;;2009年中國搜索引擎市場趨勢分析[J];軟件世界;2010年02期

    3 ;揭秘搜索引擎收錄網(wǎng)站的秘密[J];計算機與網(wǎng)絡(luò);2010年Z1期

    4 李析;廖志恒;;云計算的關(guān)鍵技術(shù)及發(fā)展現(xiàn)狀[J];九江職業(yè)技術(shù)學(xué)院學(xué)報;2011年02期

    5 馬玥;;王小川:絕境之外[J];中國經(jīng)濟和信息化;2011年12期

    6 魏蕾如;;基于搜索引擎的網(wǎng)絡(luò)中文信息檢索工具評價[J];數(shù)字技術(shù)與應(yīng)用;2011年06期

    7 ;創(chuàng)新工業(yè)搜索引擎[J];中國制造業(yè)信息化;2011年12期

    8 胡風(fēng)華;王磊;;基于知識庫系統(tǒng)的智能搜索引擎研究[J];中國新技術(shù)新產(chǎn)品;2011年18期

    9 方亞會;;Google失敗后快速切換搜索引擎[J];電腦迷;2011年11期

    10 ;成長中的谷歌[J];IT時代周刊;2011年18期

    中國重要會議論文全文數(shù)據(jù)庫 前10條

    1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年

    2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學(xué)術(shù)交流會議論文匯編[C];2003年

    3 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年

    4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年

    5 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計算機學(xué)會2008年年會論文集[C];2008年

    6 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國開放式分布與并行計算學(xué)術(shù)會議論文集[C];2005年

    7 倪俊峰;;基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計與實現(xiàn)[A];2005年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2005年

    8 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2010年

    9 陳援非;何哲;朱珍民;;基于普適計算的個性化搜索技術(shù)[A];第二屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第2屆中國普適計算學(xué)術(shù)會議(PCC'06)論文集[C];2006年

    10 楊萌;李春麗;朱明;;網(wǎng)絡(luò)搜索技術(shù)下的編輯工作[A];學(xué)報編輯論叢(第十一集)[C];2003年

    中國重要報紙全文數(shù)據(jù)庫 前10條

    1 主持人 陳建棟;[N];光明日報;2005年

    2 本報記者 陳建棟;[N];光明日報;2005年

    3 曾正樂;[N];經(jīng)濟日報;2005年

    4 本報記者 秦海波;[N];經(jīng)濟日報;2005年

    5 FN記者 柳立;[N];金融時報;2005年

    6 閆輝;[N];計算機世界;2005年

    7 本報記者 李劍;[N];通信信息報;2005年

    8 華夏;[N];江蘇科技報;2008年

    9 記者 毛濤濤;[N];北京商報;2008年

    10 笑愉;[N];中國稅務(wù)報;2008年

    中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

    1 趙鐵柱;分布式文件系統(tǒng)性能建模及應(yīng)用研究[D];華南理工大學(xué);2011年

    2 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學(xué);2010年

    3 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年

    4 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年

    5 劉佐達;分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年

    6 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學(xué);2011年

    7 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年

    8 王镠璞;基于用戶體驗的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評估研究[D];吉林大學(xué);2010年

    9 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年

    10 白玉琪;空間信息搜索引擎研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2003年

    中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

    1 薛云;Internet上元搜索引擎的研究與設(shè)計[D];太原理工大學(xué);2003年

    2 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年

    3 李海豐;基于Lucene的企業(yè)文檔搜索引擎研究與應(yīng)用[D];中南林業(yè)科技大學(xué);2009年

    4 趙善明;基于Lucene的主題搜索引擎研究[D];西安電子科技大學(xué);2008年

    5 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年

    6 董晨;基于模糊聚類的個性化搜索引擎的研究[D];福州大學(xué);2005年

    7 封俊;基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學(xué);2010年

    8 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實現(xiàn)[D];華南理工大學(xué);2010年

    9 王春芹;搜索引擎主題相關(guān)性研究[D];中山大學(xué);2010年

    10 張盛蕾;基于Java的浙江紡織服裝學(xué)院校園網(wǎng)搜索引擎[D];電子科技大學(xué);2010年


      本文關(guān)鍵詞:搜索引擎中分布式文件系統(tǒng)的研究與優(yōu)化,,由筆耕文化傳播整理發(fā)布。



    本文編號:58110

    資料下載
    論文發(fā)表

    本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/58110.html


    Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

    版權(quán)申明:資料由用戶7675b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com