基于云計算的企業(yè)數據歸檔系統設計與實現
發(fā)布時間:2019-10-18 09:13
【摘要】:隨著互聯網技術的不斷發(fā)展,我們正處于一個信息爆炸式增長的時代。企業(yè)作為應用互聯網技術最廣泛的群體,其信息增長速度更是十分驚人。在如此龐大的數據中,尤其是以電子郵件和即時通訊消息為代表的半結構化數據和以各類電子文件為代表的非結構化數據的增長速度最快。而如何高效地管理這些數據,已經成為了企業(yè)信息化部門的一項重要課題。數據歸檔系統使企業(yè)可以在不丟失對數據的實時訪問能力的情況下將大量很少訪問的歷史數據從昂貴的主存儲中解放出來,轉存入相對廉價的設備中,有效地為企業(yè)降低了運營成本。另一方面,隨著美國的薩班斯法案、中國的《基金管理公司投資管理人員管理指導意見》等一系列關于企業(yè)信息管理的法案出臺,對企業(yè)有關商業(yè)數據的舉證、保護和存儲都提出了更高的要求。良好的歸檔系統能夠提供安全的數據保護和高效的數據檢索服務,使企業(yè)能夠應對各種舉證等法律要求。傳統歸檔系統往往采用分布式架構來處理企業(yè)的大量數據,這種做法存在部署復雜,系統可靠性下降等問題。隨著云計算技術的不斷發(fā)展,我們逐漸意識到和傳統歸檔系統相比,基于云計算的系統具有安全可靠、部署簡單、資源利用率高等特點,基于云計算的技術來進行信息歸檔,能夠顯著提高企業(yè)用戶數據歸檔的效率。本論文首先對數據歸檔系統及云計算在企業(yè)應用的現狀和問題進行了分析。并在此基礎上,提出了基于云計算的歸檔系統模型,將歸檔作為一種云服務對企業(yè)進行提供。然后,詳細闡述了分布式文件系統和歸檔系統的設計機制及架構,并進行了實驗和部署。最后,分析了整個系統的擴展性及一些不足之處,展望了未來的工作。
【圖文】:
圖2-1化doop任務流程示意圖逡逑Hadoop有許多元素構成。最底部是Hadoop邋Distr化uted邋File邋System化DFS),逡逑它存儲化do叩集群中所有存儲節(jié)點上的文件。圖2-1是化do叩的運行流程;逡逑冊FS(對于本文)的上一層是Map/Reduce引擎,該引擎由JobTrackers和逡逑TaskTrackers組成。Map邋/邋Reduce算法模型和冊FS是化doop的兩個核也組件。逡逑2.2邋Hadoop分布式文件系統逡逑冊FS采用Master/Slave架構,由一個管理節(jié)點(NameNode)和多個數據節(jié)逡逑點化ataNode)組成?。管理節(jié)點用于管理集群中的數據節(jié)點,并記錄文件系統中逡逑各個文件的基本信息和位置。數據節(jié)點則是真正存儲文件數據的節(jié)點。其底層實逡逑現是把一個大文件切割成多個數據塊并分散存儲于不同DataNode上,每個數據逡逑塊并不會只被存儲在一個DataNode上,為了達到容錯和提高吞吐量的目的,這逡逑些數據塊會被拷貝到多個DataNode中,具體的拷貝份數則是用戶可自行配置逡逑的。而每個文件的分割情況和數據塊的存儲位置,則是記錄在NameNode中,因逡逑此NameNode是郵FS集群中最重要的一個節(jié)點。對于用戶來說
r^f邐\( ̄\(\逡逑I邋I邋i邋I邋t邋S/邋t邋I逡逑CjCjCKj逡逑圖2-1化doop任務流程示意圖逡逑Hadoop有許多元素構成。最底部是Hadoop邋Distr化uted邋File邋System化DFS),逡逑它存儲化do叩集群中所有存儲節(jié)點上的文件。圖2-1是化do叩的運行流程;逡逑冊FS(對于本文)的上一層是Map/Reduce引擎,該引擎由JobTrackers和逡逑TaskTrackers組成。Map邋/邋Reduce算法模型和冊FS是化doop的兩個核也組件。逡逑2.2邋Hadoop分布式文件系統逡逑冊FS采用Master/Slave架構,由一個管理節(jié)點(NameNode)和多個數據節(jié)逡逑點化ataNode)組成?。管理節(jié)點用于管理集群中的數據節(jié)點,并記錄文件系統中逡逑各個文件的基本信息和位置。數據節(jié)點則是真正存儲文件數據的節(jié)點。其底層實逡逑現是把一個大文件切割成多個數據塊并分散存儲于不同DataNode上,每個數據逡逑塊并不會只被存儲在一個DataNode上,為了達到容錯和提高吞吐量的目的,這逡逑些數據塊會被拷貝到多個DataNode中,,具體的拷貝份數則是用戶可自行配置逡逑的。而每個文件的分割情況和數據塊的存儲位置
【學位授予單位】:復旦大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP333;TP311.13
本文編號:2551016
【圖文】:
圖2-1化doop任務流程示意圖逡逑Hadoop有許多元素構成。最底部是Hadoop邋Distr化uted邋File邋System化DFS),逡逑它存儲化do叩集群中所有存儲節(jié)點上的文件。圖2-1是化do叩的運行流程;逡逑冊FS(對于本文)的上一層是Map/Reduce引擎,該引擎由JobTrackers和逡逑TaskTrackers組成。Map邋/邋Reduce算法模型和冊FS是化doop的兩個核也組件。逡逑2.2邋Hadoop分布式文件系統逡逑冊FS采用Master/Slave架構,由一個管理節(jié)點(NameNode)和多個數據節(jié)逡逑點化ataNode)組成?。管理節(jié)點用于管理集群中的數據節(jié)點,并記錄文件系統中逡逑各個文件的基本信息和位置。數據節(jié)點則是真正存儲文件數據的節(jié)點。其底層實逡逑現是把一個大文件切割成多個數據塊并分散存儲于不同DataNode上,每個數據逡逑塊并不會只被存儲在一個DataNode上,為了達到容錯和提高吞吐量的目的,這逡逑些數據塊會被拷貝到多個DataNode中,具體的拷貝份數則是用戶可自行配置逡逑的。而每個文件的分割情況和數據塊的存儲位置,則是記錄在NameNode中,因逡逑此NameNode是郵FS集群中最重要的一個節(jié)點。對于用戶來說
r^f邐\( ̄\(\逡逑I邋I邋i邋I邋t邋S/邋t邋I逡逑CjCjCKj逡逑圖2-1化doop任務流程示意圖逡逑Hadoop有許多元素構成。最底部是Hadoop邋Distr化uted邋File邋System化DFS),逡逑它存儲化do叩集群中所有存儲節(jié)點上的文件。圖2-1是化do叩的運行流程;逡逑冊FS(對于本文)的上一層是Map/Reduce引擎,該引擎由JobTrackers和逡逑TaskTrackers組成。Map邋/邋Reduce算法模型和冊FS是化doop的兩個核也組件。逡逑2.2邋Hadoop分布式文件系統逡逑冊FS采用Master/Slave架構,由一個管理節(jié)點(NameNode)和多個數據節(jié)逡逑點化ataNode)組成?。管理節(jié)點用于管理集群中的數據節(jié)點,并記錄文件系統中逡逑各個文件的基本信息和位置。數據節(jié)點則是真正存儲文件數據的節(jié)點。其底層實逡逑現是把一個大文件切割成多個數據塊并分散存儲于不同DataNode上,每個數據逡逑塊并不會只被存儲在一個DataNode上,為了達到容錯和提高吞吐量的目的,這逡逑些數據塊會被拷貝到多個DataNode中,,具體的拷貝份數則是用戶可自行配置逡逑的。而每個文件的分割情況和數據塊的存儲位置
【學位授予單位】:復旦大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP333;TP311.13
【參考文獻】
相關期刊論文 前1條
1 劉越男;;聚焦數字時代歸檔的變遷[J];北京檔案;2007年07期
本文編號:2551016
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2551016.html