面向大數(shù)據(jù)處理的分布式機(jī)器學(xué)習(xí)算法編排系統(tǒng)的研究與實(shí)現(xiàn)
本文選題:機(jī)器學(xué)習(xí) + 分布式; 參考:《北京郵電大學(xué)》2017年碩士論文
【摘要】:計(jì)算機(jī)技術(shù)與互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展迅猛,數(shù)據(jù)量呈爆炸式的增長(zhǎng),我們進(jìn)入了大數(shù)據(jù)時(shí)代。海量的數(shù)據(jù)中蘊(yùn)含著大量的知識(shí)價(jià)值,機(jī)器學(xué)習(xí)作為一種可以從海量數(shù)據(jù)中提取有用信息的關(guān)鍵技術(shù),它的學(xué)習(xí)成本和使用門檻都比較高。數(shù)據(jù)分析的業(yè)務(wù)人員需要具備統(tǒng)計(jì)學(xué)知識(shí)、數(shù)據(jù)建模能力、算法設(shè)計(jì)能力和編程能力,為了降低業(yè)務(wù)人員的使用門檻,我們需要一個(gè)通用性強(qiáng)、簡(jiǎn)單易用、性能優(yōu)異的針對(duì)大數(shù)據(jù)的分布式處理工具,實(shí)現(xiàn)對(duì)數(shù)據(jù)的分析。本論文設(shè)計(jì)和實(shí)現(xiàn)了 一個(gè)分布式機(jī)器學(xué)習(xí)算法編排系統(tǒng),該系統(tǒng)在分布式環(huán)境上給用戶提供簡(jiǎn)單易用的機(jī)器學(xué)習(xí)服務(wù),降低了機(jī)器學(xué)習(xí)算法的應(yīng)用門檻,讓用戶不用通過編寫程序的方式進(jìn)行數(shù)據(jù)分析和預(yù)測(cè),讓用戶通過Web界面的簡(jiǎn)單操作流暢直觀的完成數(shù)據(jù)導(dǎo)入、數(shù)據(jù)解析、模型訓(xùn)練、預(yù)測(cè)等操作,通過良好的Web界面交互為開發(fā)人員、業(yè)務(wù)分析師提供了交互式的機(jī)器學(xué)習(xí)服務(wù)。本系統(tǒng)以O(shè)penStack云平臺(tái)作為底層環(huán)境,提供了彈性可擴(kuò)展的計(jì)算資源和存儲(chǔ)資源,通過Hadoop在云平臺(tái)上搭建分布式集群,其中 YARN (Yet Another Resource Negotiator)框架提供了并行計(jì)算的能力,HDFS (Hadoop Distributed File System)保證了海量數(shù)據(jù)的存儲(chǔ),上層的Spark為需要迭代的機(jī)器學(xué)習(xí)算法提供了更高效的內(nèi)存計(jì)算能力。在機(jī)器學(xué)習(xí)算法方面,本系統(tǒng)在數(shù)據(jù)處理層實(shí)現(xiàn)了核心算法模塊,提供了機(jī)器學(xué)習(xí)領(lǐng)域分類、回歸、聚類等經(jīng)典算法。在算法編排方面,本系統(tǒng)在業(yè)務(wù)邏輯層實(shí)現(xiàn)了工作流管理模塊,提供了工作流編排的業(yè)務(wù)邏輯。在表現(xiàn)層通過交互組件模塊實(shí)現(xiàn)了用戶與網(wǎng)頁交互的全部接口。系統(tǒng)測(cè)試結(jié)果顯示本系統(tǒng)能保證所有功能穩(wěn)定運(yùn)行,實(shí)現(xiàn)簡(jiǎn)單友好的算法編排操作。同時(shí)本系統(tǒng)的算法性能也達(dá)到了預(yù)期性能要求。
[Abstract]:With the rapid development of computer technology and Internet industry and the explosive growth of data volume, we have entered the era of big data. As a key technology to extract useful information from massive data, machine learning, which contains a lot of knowledge value, has a high learning cost and a high threshold of use. The business personnel of data analysis need to have the knowledge of statistics, the ability of data modeling, the ability of algorithm design and the ability of programming. In order to reduce the threshold of use of business people, we need a universal, simple and easy to use. Excellent performance for big data distributed processing tools to achieve data analysis. In this paper, a distributed machine learning algorithm arrangement system is designed and implemented. The system provides users with a simple and easy-to-use machine learning service in distributed environment, and reduces the threshold of application of machine learning algorithm. So that users do not have to write a program for data analysis and prediction, let users through the simple operation of the Web interface smooth and intuitive completion of data import, data analysis, model training, prediction and other operations, Through good Web interface interaction for developers, business analysts provide interactive machine learning services. The system takes the OpenStack cloud platform as the underlying environment, provides flexible scalable computing resources and storage resources, and builds a distributed cluster on the cloud platform through Hadoop. The YARN / Yet Another Resource Negotiator) framework provides the ability of parallel computing. HDFS / Hadoop Distributed File System) guarantees the storage of massive data, and the upper Spark provides a more efficient memory computing capability for the machine learning algorithm that needs iteration. In the aspect of machine learning algorithm, the system implements the core algorithm module in the data processing layer, and provides classical algorithms such as machine learning domain classification, regression, clustering and so on. In the aspect of algorithm arrangement, the workflow management module is implemented in the business logic layer, and the business logic of workflow orchestration is provided. The interface between user and web page is realized by interactive component module in presentation layer. The system test results show that the system can ensure the stable operation of all functions and achieve a simple and friendly algorithm layout operation. At the same time, the algorithm performance of the system also meets the expected performance requirements.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP393.09;TP311.13;TP181
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王曉;;大數(shù)據(jù)環(huán)境下機(jī)器學(xué)習(xí)算法趨勢(shì)研究[J];哈爾濱師范大學(xué)自然科學(xué)學(xué)報(bào);2013年04期
2 辛憲會(huì);葉秋果;滕惠忠;郭思海;李軍;張靚;韓曉宏;;小樣本機(jī)器學(xué)習(xí)算法的特性分析與應(yīng)用[J];海洋測(cè)繪;2007年03期
3 何清;李寧;羅文娟;史忠植;;大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J];模式識(shí)別與人工智能;2014年04期
4 王繼成;基于認(rèn)知模擬的自適應(yīng)機(jī)器學(xué)習(xí)算法研究[J];軟件學(xué)報(bào);2001年08期
5 劉永定;陽愛民;周序生;鄒豪杰;;使用機(jī)器學(xué)習(xí)算法分類P2P流量的方法[J];計(jì)算機(jī)應(yīng)用研究;2009年09期
6 吳秀清,韓彬斌;基于Bayes算法的Web網(wǎng)頁識(shí)別[J];計(jì)算機(jī)工程;2000年03期
7 陶卿;姚穗;范勁松;方廷健;;一種新的機(jī)器學(xué)習(xí)算法:Support Vector Machines[J];模式識(shí)別與人工智能;2000年03期
8 A N.Meltzoff;P K.Kuhl;J Movellan;T J.Sejnowski;馮銳;繆茜惠;;新學(xué)習(xí)科學(xué)的基礎(chǔ)[J];遠(yuǎn)程教育雜志;2011年01期
9 張宏莉;魯剛;;分類不平衡協(xié)議流的機(jī)器學(xué)習(xí)算法評(píng)估與比較[J];軟件學(xué)報(bào);2012年06期
10 張棟;柯長(zhǎng)青;余瞰;;機(jī)器學(xué)習(xí)算法在ALOS影像分類中的應(yīng)用研究[J];遙感信息;2010年03期
相關(guān)會(huì)議論文 前10條
1 何晏成;關(guān)毅;岳淑珍;;一個(gè)基于免疫機(jī)制的在線機(jī)器學(xué)習(xí)算法[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
2 常群;王海洋;;基于長(zhǎng)短事務(wù)分離的工作流事務(wù)模型[A];第十九屆全國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
3 馬帥;王海洋;王文;;事務(wù)工作流及其錯(cuò)誤處理策略[A];第十七屆全國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年
4 劉慶;劉英博;王建民;;基于工作流日志的層次化角色挖掘[A];第二十四屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年
5 袁征;肖宇;;基于事例處理的工程項(xiàng)目工作流管理[A];土木建筑學(xué)術(shù)文庫(第12卷)[C];2009年
6 王飛;李郴;薛清龍;胡曉鑫;;基于工作流技術(shù)的銀行影像系統(tǒng)的研究和開發(fā)[A];煤礦自動(dòng)化與信息化——第19屆全國(guó)煤礦自動(dòng)化與信息化學(xué)術(shù)會(huì)議暨中國(guó)礦業(yè)大學(xué)(北京)百年校慶學(xué)術(shù)會(huì)議論文集[C];2009年
7 劉建勛;陳海燕;;工作流管理系統(tǒng)中基于組織結(jié)構(gòu)約束的授權(quán)研究[A];全國(guó)第16屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集[C];2004年
8 魏連;許榕生;;基于工作流技術(shù)的手機(jī)取證系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];第13屆全國(guó)計(jì)算機(jī)、網(wǎng)絡(luò)在現(xiàn)代科學(xué)技術(shù)領(lǐng)域的應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2007年
9 壽志勤;李樂明;崇大志;;一個(gè)面向政務(wù)流程的工作流管理系統(tǒng)分析與構(gòu)建[A];中國(guó)行政管理學(xué)會(huì)2005年年會(huì)暨“政府行政能力建設(shè)與構(gòu)建和諧社會(huì)”研討會(huì)論文集[C];2005年
10 鄒盟軍;黃煒;;基于組件的工作流管理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[A];廣東省電機(jī)工程學(xué)會(huì)2003-2004年度優(yōu)秀論文集[C];2005年
相關(guān)重要報(bào)紙文章 前10條
1 何進(jìn)偉;還工作流管理一個(gè)說法[N];中國(guó)計(jì)算機(jī)報(bào);2003年
2 徐昊;工作流是下一個(gè)“金礦”[N];中國(guó)計(jì)算機(jī)報(bào);2003年
3 ;《工作流管理——模型、方法和系統(tǒng)》出版[N];中華讀書報(bào);2004年
4 胡長(zhǎng)城;工作流:國(guó)內(nèi)國(guó)際兩極分化[N];計(jì)算機(jī)世界;2007年
5 工作流資深專家 游青華;如何選擇一個(gè)適合的工作流平臺(tái)[N];中國(guó)計(jì)算機(jī)報(bào);2007年
6 劉喜喜;超越工作流管理[N];中國(guó)計(jì)算機(jī)報(bào);2006年
7 ;北京商能 實(shí)現(xiàn)電子化工作流體系[N];中國(guó)計(jì)算機(jī)報(bào);2009年
8 劉錟;Lotus Domino/Notes工作流在辦公自動(dòng)化中的應(yīng)用[N];計(jì)算機(jī)世界;2005年
9 蔣明煒 戴寶純 吳英;工作流管理使企業(yè)系統(tǒng)實(shí)現(xiàn)集成[N];中國(guó)鄉(xiāng)鎮(zhèn)企業(yè)報(bào);2004年
10 沈建苗 編譯;基于Spring創(chuàng)建工作流引擎[N];計(jì)算機(jī)世界;2006年
相關(guān)博士學(xué)位論文 前6條
1 駢聰;基于機(jī)器學(xué)習(xí)算法的非編碼RNA識(shí)別[D];南京農(nóng)業(yè)大學(xué);2016年
2 沈虹;多約束復(fù)雜工作流的調(diào)度優(yōu)化[D];東南大學(xué);2016年
3 姚光順;面向工作流任務(wù)的云計(jì)算資源多目標(biāo)與容錯(cuò)調(diào)度研究[D];東華大學(xué);2016年
4 王朝霞;數(shù)據(jù)感知工作流的建模與驗(yàn)證[D];清華大學(xué);2012年
5 盧偉倬;建設(shè)項(xiàng)目工作流精益管理研究[D];哈爾濱工業(yè)大學(xué);2008年
6 楊曉輝;基于服務(wù)組織的開放Agent社會(huì)研究[D];天津大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 何昱澤;面向大數(shù)據(jù)處理的分布式機(jī)器學(xué)習(xí)算法編排系統(tǒng)的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2017年
2 張春迎;機(jī)器學(xué)習(xí)算法在不同領(lǐng)域數(shù)據(jù)分析中的應(yīng)用[D];天津大學(xué);2014年
3 袁方方;基于云平臺(tái)的機(jī)器學(xué)習(xí)算法并行化研究與應(yīng)用[D];內(nèi)蒙古師范大學(xué);2016年
4 賈鑫;面向函數(shù)型數(shù)據(jù)分析的機(jī)器學(xué)習(xí)算法研究與應(yīng)用[D];北京化工大學(xué);2016年
5 張澤;機(jī)器學(xué)習(xí)算法及其工程應(yīng)用研究[D];天津大學(xué);2012年
6 班瑞;基于語義Web的機(jī)器學(xué)習(xí)算法研究與應(yīng)用[D];南京理工大學(xué);2006年
7 葉雷;機(jī)器學(xué)習(xí)算法在醫(yī)療數(shù)據(jù)分析中的應(yīng)用[D];華中師范大學(xué);2017年
8 朱熙文;大數(shù)據(jù)下的在線機(jī)器學(xué)習(xí)算法研究與應(yīng)用[D];西南交通大學(xué);2017年
9 張予焓;產(chǎn)品評(píng)價(jià)對(duì)象的提取與分析[D];北京郵電大學(xué);2010年
10 劉永定;基于機(jī)器學(xué)習(xí)算法的P2P流量分類研究[D];湖南工業(yè)大學(xué);2009年
,本文編號(hào):1944958
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1944958.html