天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

搜索引擎中分布式文件系統(tǒng)的研究與優(yōu)化

發(fā)布時(shí)間:2016-06-16 21:09

  本文關(guān)鍵詞:搜索引擎中分布式文件系統(tǒng)的研究與優(yōu)化,由筆耕文化傳播整理發(fā)布。


《華南理工大學(xué)》 2010年

搜索引擎中分布式文件系統(tǒng)的研究與優(yōu)化

黃翀民  

【摘要】: 隨著Internet上信息量的激增,搜索引擎已成為用戶查找網(wǎng)上信息必不可少檢索工具。目前搜索引擎的各種技術(shù)在不斷地進(jìn)步,出現(xiàn)了如Google,Baidu,Yahoo等優(yōu)秀的搜索引擎,由于網(wǎng)絡(luò)信息呈爆炸式的增長(zhǎng),用戶對(duì)于搜索引擎的依賴程度越來(lái)越大,這給搜索引擎技術(shù)的發(fā)展帶來(lái)了機(jī)遇,也使搜索引擎技術(shù)遇到了前所未有的挑戰(zhàn)。 搜索引擎本身涉及到多方面的技術(shù),其中底層的分布式文件系統(tǒng)就是至關(guān)重要的一環(huán)。因此本課題著力于對(duì)搜索引擎的分布式文件系統(tǒng)展開研究,希望通過(guò)提升分布式文件系統(tǒng)的性能,最終使上層的搜索引擎應(yīng)用能夠具有更高的性能。 本文以實(shí)驗(yàn)室目前正在運(yùn)行的搜索引擎底層的HDFS文件系統(tǒng)為對(duì)象,深入研究其架構(gòu)和數(shù)據(jù)組織方式,以及讀寫操作的詳細(xì)流程,參考其它優(yōu)秀的分布式文件系統(tǒng)的設(shè)計(jì),通過(guò)引入一些優(yōu)秀的機(jī)制,提高HDFS文件系統(tǒng)的性能。 首先對(duì)HDFS中數(shù)據(jù)節(jié)點(diǎn)選擇存儲(chǔ)空間的問題上,分析了它默認(rèn)算法的弊端。由于沒有對(duì)系統(tǒng)環(huán)境的一個(gè)認(rèn)知,簡(jiǎn)單的Round-Robin算法比較容易造成數(shù)據(jù)的不均衡和數(shù)據(jù)讀寫的阻塞,本文設(shè)計(jì)了一種兼顧磁盤容量和磁盤負(fù)載的算法,通過(guò)獲取當(dāng)前系統(tǒng)的一些狀態(tài)信息,并根據(jù)這些信息來(lái)做出有利于系統(tǒng)性能的選擇。 針對(duì)HDFS中數(shù)據(jù)寫操作的流程,通過(guò)分析HDFS的實(shí)現(xiàn),發(fā)現(xiàn)其磁盤操作如把網(wǎng)絡(luò)數(shù)據(jù)流的操作和磁盤的操作在數(shù)據(jù)包層面進(jìn)行串行的執(zhí)行,在一定程度上影響了數(shù)據(jù)節(jié)點(diǎn)處理數(shù)據(jù)的效率。本文提出了一種并行的數(shù)據(jù)處理模式。通過(guò)一個(gè)DiskWriter線程來(lái)進(jìn)行所有的磁盤操作,并用一個(gè)隊(duì)列來(lái)緩存網(wǎng)絡(luò)的數(shù)據(jù)包,能夠很好的提高數(shù)據(jù)節(jié)點(diǎn)處理數(shù)據(jù)的效率,從而提升系統(tǒng)的性能。 本文設(shè)計(jì)了幾個(gè)實(shí)驗(yàn)來(lái)對(duì)比改進(jìn)前后HDFS的性能對(duì)比。通過(guò)實(shí)驗(yàn)得出的數(shù)據(jù),可以看出改進(jìn)后的HDFS在這三個(gè)測(cè)試中都表現(xiàn)出了更好的性能,從而證明了本文的改進(jìn)方法是有效的。

【關(guān)鍵詞】:
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2010
【分類號(hào)】:TP391.3
【目錄】:

  • 摘要5-6
  • Abstract6-10
  • 第一章 引言10-16
  • 1.1 研究的背景和意義10-11
  • 1.2 分布式文件系統(tǒng)11-14
  • 1.2.1 分布式文件系統(tǒng)類型11
  • 1.2.2 分布式文件系統(tǒng)的發(fā)展11-13
  • 1.2.3 主流分布式文件系統(tǒng)13-14
  • 1.3 木棉搜索引擎現(xiàn)狀14
  • 1.4 本文的工作內(nèi)容14-15
  • 1.5 本文的結(jié)構(gòu)15-16
  • 第二章 分布式文件系統(tǒng)相關(guān)技術(shù)研究16-34
  • 2.1 分布式文件系統(tǒng)基本結(jié)構(gòu)16-17
  • 2.1.1 元數(shù)據(jù)管理16-17
  • 2.1.2 分布式文件系統(tǒng)緩存17
  • 2.1.3 分布式文件系統(tǒng)數(shù)據(jù)冗余17
  • 2.2 Google文件系統(tǒng)17-22
  • 2.2.1 GFS的體系結(jié)構(gòu)18-20
  • 2.2.2 GFS元數(shù)據(jù)管理20
  • 2.2.3 GFS的系統(tǒng)交互20-22
  • 2.2.4 GFS的容錯(cuò)設(shè)計(jì)和診斷工具22
  • 2.3 Lustre文件系統(tǒng)22-27
  • 2.3.1 Lustre介紹22
  • 2.3.2 Lustre的體系結(jié)構(gòu)22-25
  • 2.3.3 Lustre的文件存儲(chǔ)方式25-27
  • 2.4 Hadoop27-32
  • 2.4.1 Hadoop分布式計(jì)算框架27-28
  • 2.4.2 Hadoop分布式文件系統(tǒng)28-32
  • 2.5 本章小結(jié)32-34
  • 第三章 HDFS的核心實(shí)現(xiàn)和性能分析34-46
  • 3.1 系統(tǒng)的實(shí)現(xiàn)目標(biāo)34
  • 3.2 HDFS的數(shù)據(jù)組織方式34-38
  • 3.2.1 本地?cái)?shù)據(jù)塊組織34-35
  • 3.2.2 HDFS中數(shù)據(jù)組織層次35-38
  • 3.3 HDFS的讀寫過(guò)程分析38-43
  • 3.3.1 HDFS讀數(shù)據(jù)塊39-41
  • 3.3.2 HDFS寫數(shù)據(jù)塊41-43
  • 3.4 HDFS性能分析43-45
  • 3.4.1 本地寫數(shù)據(jù)的磁盤選擇43-44
  • 3.4.2 對(duì)寫數(shù)據(jù)塊的一些分析44-45
  • 3.5 本章小結(jié)45-46
  • 第四章 對(duì)HDFS的改進(jìn)與實(shí)現(xiàn)46-59
  • 4.1 搜索引擎中的分布式文件系統(tǒng)46
  • 4.2 HDFS中寫數(shù)據(jù)策略46-50
  • 4.2.1 Radom算法的優(yōu)略47-48
  • 4.2.2 基于磁盤負(fù)載和磁盤空間的綜合算法48-49
  • 4.2.3 算法的實(shí)現(xiàn)方式49-50
  • 4.3 HDFS寫數(shù)據(jù)塊流程優(yōu)化50-57
  • 4.3.1 數(shù)據(jù)節(jié)點(diǎn)處理數(shù)據(jù)塊的方式50-55
  • 4.3.2 并行數(shù)據(jù)處理方式55
  • 4.3.3 并行算法的實(shí)現(xiàn)55-57
  • 4.4 本章小結(jié)57-59
  • 第五章 系統(tǒng)測(cè)試及分析59-66
  • 5.1 測(cè)試環(huán)境59-60
  • 5.1.1 硬件環(huán)境59
  • 5.1.2 軟件環(huán)境59-60
  • 5.2 測(cè)試方法及參數(shù)配置60-63
  • 5.2.1 測(cè)試內(nèi)容60-62
  • 5.2.2 測(cè)試配置62-63
  • 5.3 測(cè)試結(jié)果及分析63-65
  • 5.4 本章小結(jié)65-66
  • 結(jié)論66-68
  • 參考文獻(xiàn)68-72
  • 致謝72
  • 下載全文 更多同類文獻(xiàn)

    CAJ全文下載

    (如何獲取全文? 歡迎:購(gòu)買知網(wǎng)充值卡、在線充值、在線咨詢)

    CAJViewer閱讀器支持CAJ、PDF文件格式


    【相似文獻(xiàn)】

    中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

    1 ;李彥宏論搜索引擎三個(gè)定律[J];新電子;2001年02期

    2 相春雷;;2009年中國(guó)搜索引擎市場(chǎng)趨勢(shì)分析[J];軟件世界;2010年02期

    3 ;揭秘搜索引擎收錄網(wǎng)站的秘密[J];計(jì)算機(jī)與網(wǎng)絡(luò);2010年Z1期

    4 李析;廖志恒;;云計(jì)算的關(guān)鍵技術(shù)及發(fā)展現(xiàn)狀[J];九江職業(yè)技術(shù)學(xué)院學(xué)報(bào);2011年02期

    5 馬玥;;王小川:絕境之外[J];中國(guó)經(jīng)濟(jì)和信息化;2011年12期

    6 魏蕾如;;基于搜索引擎的網(wǎng)絡(luò)中文信息檢索工具評(píng)價(jià)[J];數(shù)字技術(shù)與應(yīng)用;2011年06期

    7 ;創(chuàng)新工業(yè)搜索引擎[J];中國(guó)制造業(yè)信息化;2011年12期

    8 胡風(fēng)華;王磊;;基于知識(shí)庫(kù)系統(tǒng)的智能搜索引擎研究[J];中國(guó)新技術(shù)新產(chǎn)品;2011年18期

    9 方亞會(huì);;Google失敗后快速切換搜索引擎[J];電腦迷;2011年11期

    10 ;成長(zhǎng)中的谷歌[J];IT時(shí)代周刊;2011年18期

    中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

    1 彭軻;廖聞劍;;淺析搜索引擎[A];中國(guó)通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年

    2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國(guó)中醫(yī)藥信息研究會(huì)第二屆理事大會(huì)暨學(xué)術(shù)交流會(huì)議論文匯編[C];2003年

    3 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年

    4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁(yè)爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

    5 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計(jì)算機(jī)學(xué)會(huì)2008年年會(huì)論文集[C];2008年

    6 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國(guó)開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年

    7 倪俊峰;;基于黃頁(yè)搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2005年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2005年

    8 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2010年

    9 陳援非;何哲;朱珍民;;基于普適計(jì)算的個(gè)性化搜索技術(shù)[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2006)——第2屆中國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC'06)論文集[C];2006年

    10 楊萌;李春麗;朱明;;網(wǎng)絡(luò)搜索技術(shù)下的編輯工作[A];學(xué)報(bào)編輯論叢(第十一集)[C];2003年

    中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

    1 主持人 陳建棟;[N];光明日?qǐng)?bào);2005年

    2 本報(bào)記者 陳建棟;[N];光明日?qǐng)?bào);2005年

    3 曾正樂;[N];經(jīng)濟(jì)日?qǐng)?bào);2005年

    4 本報(bào)記者 秦海波;[N];經(jīng)濟(jì)日?qǐng)?bào);2005年

    5 FN記者 柳立;[N];金融時(shí)報(bào);2005年

    6 閆輝;[N];計(jì)算機(jī)世界;2005年

    7 本報(bào)記者 李劍;[N];通信信息報(bào);2005年

    8 華夏;[N];江蘇科技報(bào);2008年

    9 記者 毛濤濤;[N];北京商報(bào);2008年

    10 笑愉;[N];中國(guó)稅務(wù)報(bào);2008年

    中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

    1 趙鐵柱;分布式文件系統(tǒng)性能建模及應(yīng)用研究[D];華南理工大學(xué);2011年

    2 岑榮偉;基于用戶行為分析的搜索引擎評(píng)價(jià)研究[D];清華大學(xué);2010年

    3 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年

    4 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年

    5 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年

    6 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年

    7 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年

    8 王镠璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評(píng)估研究[D];吉林大學(xué);2010年

    9 李莎莎;面向搜索引擎的自然語(yǔ)言處理關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年

    10 白玉琪;空間信息搜索引擎研究[D];中國(guó)科學(xué)院研究生院(遙感應(yīng)用研究所);2003年

    中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

    1 薛云;Internet上元搜索引擎的研究與設(shè)計(jì)[D];太原理工大學(xué);2003年

    2 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年

    3 李海豐;基于Lucene的企業(yè)文檔搜索引擎研究與應(yīng)用[D];中南林業(yè)科技大學(xué);2009年

    4 趙善明;基于Lucene的主題搜索引擎研究[D];西安電子科技大學(xué);2008年

    5 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實(shí)現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年

    6 董晨;基于模糊聚類的個(gè)性化搜索引擎的研究[D];福州大學(xué);2005年

    7 封俊;基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn)[D];太原理工大學(xué);2010年

    8 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實(shí)現(xiàn)[D];華南理工大學(xué);2010年

    9 王春芹;搜索引擎主題相關(guān)性研究[D];中山大學(xué);2010年

    10 張盛蕾;基于Java的浙江紡織服裝學(xué)院校園網(wǎng)搜索引擎[D];電子科技大學(xué);2010年


      本文關(guān)鍵詞:搜索引擎中分布式文件系統(tǒng)的研究與優(yōu)化,,由筆耕文化傳播整理發(fā)布。



    本文編號(hào):58110

    資料下載
    論文發(fā)表

    本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/58110.html


    Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

    版權(quán)申明:資料由用戶7675b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com