面向物流海量數(shù)據(jù)管理及應(yīng)用研究
本文關(guān)鍵詞:面向物流海量數(shù)據(jù)管理及應(yīng)用研究
更多相關(guān)文章: 海量數(shù)據(jù) 云存儲 分布式文件系統(tǒng) Hadoop 物流分析 K-Means
【摘要】:近年來,互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)得到了快速的發(fā)展,不斷增加的網(wǎng)上用戶數(shù)量也使得數(shù)據(jù)量不斷增加。單個機器的負載能力已經(jīng)不能很好的存儲現(xiàn)在的海量數(shù)據(jù),怎樣搭建規(guī)模大、效率高、可擴展性好的存儲系統(tǒng)尤為重要。云計算已經(jīng)成為當(dāng)前研究的熱點問題,云計算衍生出云存儲技術(shù),國內(nèi)外也開始對云存儲技術(shù)做了深入的研究。研究云計算和云存儲標準參考模型是基于Google File System的開源實現(xiàn)的Hadoop文件系統(tǒng)HDFS,但是HDFS架構(gòu)存在很多的缺點,,較為突出的是單個NameNode易造成整個集群性能瓶頸問題。本文主要在現(xiàn)有HDFS的研究基礎(chǔ)上,提出了一種基于MongoDB的多NameNode解決方案,該方案能很好的解決HDFS單一NameNode性能瓶頸問題。通過實驗表明,本方案能對HDFS集群的命名空間進行拓展。 與此同時隨著社會大物流的發(fā)展,企業(yè)如何從這些海量的信息中挖掘出有用的信息,己經(jīng)成為該領(lǐng)域研究的關(guān)鍵。云計算具有計算能力彈性化,存儲能力海量化,節(jié)約成本,提高效率方面等優(yōu)點,所以,云計算已經(jīng)成為能有效的處理數(shù)據(jù)挖掘技術(shù)所面臨難題的方法之一。本文首先從兩個方面分析MapReduce編程模型和Hadoop平臺,進而深入介紹了Mahout,并且詳細對Mahout內(nèi)部數(shù)據(jù)表示模型做了深入探討,采用K-Means算法,對K-Means算法進行并行化分析,詳盡的闡述了K-Means聚類在MapReduce編程中的實現(xiàn)和在Mahout中的應(yīng)用。文章最后,主要針對我國物流業(yè)具體情況,提出數(shù)據(jù)挖掘的并行和串行兩種模式,主要是針對K-Means算法在這兩種情況下解決海量數(shù)據(jù)挖掘問題時效率的比較,本文從不同距離度量方式,運行時間,迭代次數(shù)等方面評估了K-Means算法聚類結(jié)果,最后發(fā)現(xiàn)其效率差異,能對海量數(shù)據(jù)挖掘起到很好的指導(dǎo)實踐意義。 本文通過基于MongoDB的多NameNode的HDFS云存儲技術(shù)和基于MapReduce編程模型的K-Means算法并行云挖掘技術(shù)很好的處理了物流業(yè)海量數(shù)據(jù)信息的存儲和計算問題,通過調(diào)用HDFS存儲的海量數(shù)據(jù),上層Mahout進行海量數(shù)據(jù)信息并行化數(shù)據(jù)挖掘,挖掘出對于物流行業(yè)有用的信息。
【關(guān)鍵詞】:海量數(shù)據(jù) 云存儲 分布式文件系統(tǒng) Hadoop 物流分析 K-Means
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP333;TP311.13
【目錄】:
- 摘要4-5
- Abstract5-9
- 第一章 緒論9-12
- 1.1 課題背景9-11
- 1.2 文章主要內(nèi)容及章節(jié)安排11-12
- 第二章 相關(guān)技術(shù)的介紹12-30
- 2.1 云計算的概念12-14
- 2.1.1 云計算的分類12-13
- 2.1.2 云計算特點13-14
- 2.2 Hadoop 簡介14-18
- 2.2.1 Hadoop 歷史14-15
- 2.2.2 Hadoop 優(yōu)勢15
- 2.2.3 Hadoop 子項目15-16
- 2.2.4 Hadoop 框架模型16-18
- 2.2.5 Hadoop 應(yīng)用舉例18
- 2.3 Hadoop 關(guān)鍵技術(shù)18-29
- 2.3.1 Hadoop 分布式文件系統(tǒng)(HDFS)18-23
- 2.3.2 MapReduce 技術(shù)23-27
- 2.3.3 Mahout 技術(shù)27-29
- 2.4 本章小結(jié)29-30
- 第三章 海量物流數(shù)據(jù)存儲的設(shè)計和實現(xiàn)30-46
- 3.1 現(xiàn)有 HDFS 架構(gòu)不足30-31
- 3.2 MongoDB 技術(shù)簡介31-34
- 3.2.1 MongoDB 集群的架構(gòu)分析32-33
- 3.2.2 MongoDB 集群的分片機制33-34
- 3.3 可擴展的多 NameNode 節(jié)點優(yōu)化原理34-37
- 3.3.1 優(yōu)化難點34
- 3.3.2 基于 MongoDB 的解決方案34-37
- 3.4 多 NameNode 節(jié)點的優(yōu)化應(yīng)以 MongoDB 為基礎(chǔ)來實現(xiàn)37-43
- 3.5 實驗結(jié)果及相關(guān)分析43-45
- 3.6 本章小結(jié)45-46
- 第四章 物流海量數(shù)據(jù)挖掘子系統(tǒng)46-58
- 4.1 云數(shù)據(jù)挖掘子系統(tǒng)簡介46-47
- 4.2 數(shù)據(jù)挖掘概述47
- 4.3 文本聚類47-50
- 4.3.1 中文分詞49-50
- 4.3.2 文本表示模型50
- 4.4 物流海量數(shù)據(jù) K-Means 算法并行分析50-55
- 4.4.1 并行策略50-51
- 4.4.2 Mahout K-Means 結(jié)構(gòu)51-52
- 4.4.3 K-Means 聚類 MapReduce 實現(xiàn)52-55
- 4.5 并行挖掘與串行挖掘比較55-57
- 4.6 K-Means 算法應(yīng)用到物流行業(yè)57
- 4.7 本章小結(jié)57-58
- 第五章 平臺搭建及實驗58-68
- 5.1 Hadoop 平臺的搭建58-61
- 5.1.1 搭建 Hadoop 集群58
- 5.1.2 搭建 hadoop58-61
- 5.2 安裝 MongoDB 數(shù)據(jù)庫61-62
- 5.3 安裝 Mahout62-65
- 5.3.1 安裝 Maven62-64
- 5.3.2 Mahout 的下載及安裝64-65
- 5.4 實驗過程65-67
- 5.4.1 實驗一65-66
- 5.4.2 實驗二66-67
- 5.5 本章小結(jié)67-68
- 第六章 展望與總結(jié)68-70
- 6.1 總結(jié)68
- 6.2 展望68-70
- 參考文獻70-73
- 附錄 2 攻讀碩士學(xué)位期間撰寫的論文73-74
- 附錄 3 攻讀碩士學(xué)位期間申請的專利74-75
- 附錄 4 攻讀碩士學(xué)位期間參加的科研項目75-76
- 致謝76
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 ;中國科學(xué)院文獻情報中心“99”級研究生學(xué)位論文開題介紹[J];現(xiàn)代圖書情報技術(shù);2001年04期
2 師春苗,肖云;研究生創(chuàng)新不足的原因與對策[J];科技·人才·市場;2001年04期
3 鄭力,王松俊,朱鴿昀,高艷玲;情報學(xué)研究生學(xué)位論文選題發(fā)展趨勢研究[J];情報理論與實踐;2002年03期
4 ;本刊主辦院校研究生學(xué)位論文題錄[J];高;瘜W(xué)工程學(xué)報;2002年01期
5 ;本刊主辦院校研究生學(xué)位論文題錄[J];高;瘜W(xué)工程學(xué)報;2002年03期
6 ;本刊主辦院校研究生學(xué)位論文題錄[J];高校化學(xué)工程學(xué)報;2002年04期
7 ;本刊主辦院校研究生學(xué)位論文題錄[J];高;瘜W(xué)工程學(xué)報;2002年05期
8 王瑩;試談高校研究生學(xué)位論文著作權(quán)的保護問題[J];河北科技圖苑;2004年03期
9 張愛林;研究生學(xué)位論文的利用與檢索[J];圖書館學(xué)研究;2004年06期
10 ;本刊主辦院校研究生學(xué)位論文題錄[J];高校化學(xué)工程學(xué)報;2004年05期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 楊黎娟;秦榮;;淺談研究生學(xué)位論文檔案管理及開發(fā)利用[A];陜西省檔案學(xué)會第八次檔案學(xué)術(shù)討論會論文選輯[C];2004年
2 龔樂年;;芻議影響研究生業(yè)務(wù)培養(yǎng)質(zhì)量的幾個原因[A];第二屆全國高校電氣工程及其自動化專業(yè)教學(xué)改革研討會論文集(下冊)[C];2004年
3 蔡妙花;曹春;趙乃良;;優(yōu)化管理提升研究生培養(yǎng)質(zhì)量的探索和實踐[A];電子高等教育學(xué)會2008年學(xué)術(shù)年會論文集[C];2008年
4 蔡妙花;曹春;趙乃良;;優(yōu)化管理提升研究生培養(yǎng)質(zhì)量的探索和實踐[A];電子高等教育學(xué)會2007年學(xué)術(shù)年會論文集[C];2007年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 方延明;新世紀我們怎樣培養(yǎng)研究生[N];中國教育報;2001年
2 本版編輯邋陶雷 韓仁武 范吉昌;質(zhì)量在“較真”中提升[N];解放軍報;2008年
3 本報記者 李玉蘭;研究生學(xué)位論文“打假”的法律思考[N];光明日報;2009年
4 記者 程墨 通訊員 嚴莉莉 陳博;12道“金牌”倒逼研究生寫好論文[N];中國教育報;2013年
5 李世彬 蘇繼紅;培養(yǎng)研究生創(chuàng)新精神[N];光明日報;2006年
6 通訊員 楊茗;質(zhì)量是研究生教育的永恒主題[N];光明日報;2006年
7 文永紅;校企聯(lián)合培養(yǎng)研究生三方受益[N];科技日報;2006年
8 黃蔚邋實習(xí)生 包瑩;創(chuàng)新模式 鍛造精英[N];貴州日報;2008年
9 王中委邋劉勝江;開啟創(chuàng)新智慧之門[N];解放軍報;2008年
10 特約記者鄭水平;曙光油區(qū)建成首個“研究生培養(yǎng)創(chuàng)新基地”[N];中國石油報;2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 劉裕;高校教育服務(wù)公平評價及效應(yīng)研究[D];西南交通大學(xué);2008年
2 Muhammad Khurram Khan;[D];西南交通大學(xué);2006年
3 朱勇;MicroRNA-23a/27a/24-2在紅系分化中的功能及作用機制研究[D];北京協(xié)和醫(yī)學(xué)院;2014年
4 劉培順;判決PN機理論及其在入侵檢測中的應(yīng)用[D];西南交通大學(xué);2005年
5 李慧娟;維吾爾族婦女民間互助研究[D];蘭州大學(xué);2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 賈川;我國高?鐚W(xué)科研究生培養(yǎng)機制研究[D];國防科學(xué)技術(shù)大學(xué);2008年
2 吳巨慧;研究生創(chuàng)新能力培養(yǎng)的過程要素及整合的研究[D];浙江大學(xué);2003年
3 王娜;美國研究生資助研究[D];河北大學(xué);2008年
4 趙郁松;研究生創(chuàng)新能力培養(yǎng)的研究[D];重慶大學(xué);2006年
5 羅艷;研究生導(dǎo)師指導(dǎo)量研究[D];湖南大學(xué);2006年
6 劉威;創(chuàng)新型研究生培養(yǎng)的大學(xué)教育環(huán)境研究[D];中南大學(xué);2007年
7 劉敏;研究生培養(yǎng)體制對研究生創(chuàng)新能力培養(yǎng)的影響研究[D];湖南師范大學(xué);2007年
8 邵玲;研究生學(xué)習(xí)觀的個案研究[D];廣西師范大學(xué);2007年
9 李志平;中國農(nóng)業(yè)科學(xué)院研究生創(chuàng)新能力研究[D];中國農(nóng)業(yè)科學(xué)院;2006年
10 代志軍;我國體育院校籃球碩士研究生學(xué)位論文現(xiàn)狀及影響因素的研究[D];北京體育大學(xué);2006年
本文編號:576429
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/576429.html