基于Hadoop平臺(tái)的機(jī)器學(xué)習(xí)分類算法
發(fā)布時(shí)間:2021-03-09 11:19
分類算法作為機(jī)器學(xué)習(xí)領(lǐng)域中重要研究內(nèi)容,被廣泛地應(yīng)用于風(fēng)險(xiǎn)管理、用戶畫像、圖像識(shí)別等場景。在實(shí)際應(yīng)用中,K最近鄰算法、邏輯回歸算法、BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)算法是最常用的分類算法。然而,在面對海量數(shù)據(jù)沖擊時(shí),這三種分類算法對內(nèi)存、數(shù)據(jù)傳輸、數(shù)據(jù)存儲(chǔ)要求嚴(yán)苛。普通商用計(jì)算機(jī)設(shè)備已不能滿足海量數(shù)據(jù)處理分析需求。Hadoop平臺(tái)是一種分布式計(jì)算框架,以其優(yōu)異的性能成為海量數(shù)據(jù)批量、離線、非實(shí)時(shí)處理分析的最佳選擇。Hadoop平臺(tái)上MapReduce計(jì)算模型被用于改造提升傳統(tǒng)機(jī)器學(xué)習(xí)分類算法,使其能夠處理分析海量數(shù)據(jù)。Hadoop平臺(tái)上的HDFS(Hadoop Distributed File System)分布式文件系統(tǒng)為海量數(shù)據(jù)存儲(chǔ)提供解決方案。本文立足于設(shè)計(jì)、論證基于Hadoop平臺(tái)的機(jī)器學(xué)習(xí)分類算法,旨在解決海量數(shù)據(jù)處理分析需求,主要完成以下工作。(1)為解決現(xiàn)有算法中間數(shù)據(jù)傳輸量大的問題,優(yōu)化了基于Hadoop平臺(tái)的K最近鄰算法。優(yōu)化后的算法在Map階段,通過傳統(tǒng)K最近鄰算法得到測試樣例的初步類別預(yù)測,在Reduce階段,通過多數(shù)投票法得出測試樣例的最終類別預(yù)...
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:102 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
國內(nèi)外研究地理位置分布
Hadoop 平臺(tái)上,NameNode、DataNode 和 Client 是完成海量數(shù)據(jù)文件存成部分[20]。其中 NameNode 是 HDFS 分布式文件系統(tǒng)的管理單元,DataN件存儲(chǔ)單元,Client 是在 HDFS 分布式文件系統(tǒng)上讀寫文件的端口[20]。在式文件系統(tǒng)中數(shù)據(jù)文件的寫入和讀取過程如圖 2.2,圖 2.3 所示[23]。
HDFS 分布式文件系統(tǒng)中數(shù)據(jù)文件讀出據(jù)的處理分析模型 MapReduce 經(jīng)過諸多數(shù)學(xué)家、計(jì)立在數(shù)學(xué)和計(jì)算機(jī)科學(xué)的基礎(chǔ)之上。設(shè)計(jì)者通過大行化編程模型具有簡單、高效、可擴(kuò)展性強(qiáng)等特點(diǎn) MapReduce 編程接口,開發(fā)者通過編寫 Map 和 Re。Map 函數(shù)和 Reduce 函數(shù)輸入輸出數(shù)據(jù)文件的格設(shè)計(jì)為算法的實(shí)現(xiàn)帶來了諸多便利。Hadoop 平臺(tái)通訊的協(xié)調(diào)、任務(wù)的調(diào)度。MapReduce 計(jì)算模型 映射成新的鍵值對 ,然后把所有的 Ma再傳遞給定義的 Reduce 函數(shù)。其中具有相同鍵的 Combine 函數(shù)實(shí)現(xiàn)[20]。MapReduce 計(jì)算模型數(shù)據(jù)M (2-
【參考文獻(xiàn)】:
期刊論文
[1]可擴(kuò)展機(jī)器學(xué)習(xí)的并行與分布式優(yōu)化算法綜述[J]. 亢良伊,王建飛,劉杰,葉丹. 軟件學(xué)報(bào). 2018(01)
[2]改進(jìn)的Hadoop作業(yè)調(diào)度算法[J]. 馮興杰,賀陽. 計(jì)算機(jī)工程與應(yīng)用. 2017(12)
本文編號(hào):3072761
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:102 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
國內(nèi)外研究地理位置分布
Hadoop 平臺(tái)上,NameNode、DataNode 和 Client 是完成海量數(shù)據(jù)文件存成部分[20]。其中 NameNode 是 HDFS 分布式文件系統(tǒng)的管理單元,DataN件存儲(chǔ)單元,Client 是在 HDFS 分布式文件系統(tǒng)上讀寫文件的端口[20]。在式文件系統(tǒng)中數(shù)據(jù)文件的寫入和讀取過程如圖 2.2,圖 2.3 所示[23]。
HDFS 分布式文件系統(tǒng)中數(shù)據(jù)文件讀出據(jù)的處理分析模型 MapReduce 經(jīng)過諸多數(shù)學(xué)家、計(jì)立在數(shù)學(xué)和計(jì)算機(jī)科學(xué)的基礎(chǔ)之上。設(shè)計(jì)者通過大行化編程模型具有簡單、高效、可擴(kuò)展性強(qiáng)等特點(diǎn) MapReduce 編程接口,開發(fā)者通過編寫 Map 和 Re。Map 函數(shù)和 Reduce 函數(shù)輸入輸出數(shù)據(jù)文件的格設(shè)計(jì)為算法的實(shí)現(xiàn)帶來了諸多便利。Hadoop 平臺(tái)通訊的協(xié)調(diào)、任務(wù)的調(diào)度。MapReduce 計(jì)算模型 映射成新的鍵值對 ,然后把所有的 Ma再傳遞給定義的 Reduce 函數(shù)。其中具有相同鍵的 Combine 函數(shù)實(shí)現(xiàn)[20]。MapReduce 計(jì)算模型數(shù)據(jù)M (2-
【參考文獻(xiàn)】:
期刊論文
[1]可擴(kuò)展機(jī)器學(xué)習(xí)的并行與分布式優(yōu)化算法綜述[J]. 亢良伊,王建飛,劉杰,葉丹. 軟件學(xué)報(bào). 2018(01)
[2]改進(jìn)的Hadoop作業(yè)調(diào)度算法[J]. 馮興杰,賀陽. 計(jì)算機(jī)工程與應(yīng)用. 2017(12)
本文編號(hào):3072761
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3072761.html
最近更新
教材專著