以LDA為例的大規(guī)模分布式機(jī)器學(xué)習(xí)系統(tǒng)分析
本文關(guān)鍵詞:以LDA為例的大規(guī)模分布式機(jī)器學(xué)習(xí)系統(tǒng)分析 出處:《計算機(jī)應(yīng)用》2017年03期 論文類型:期刊論文
更多相關(guān)文章: 隱含狄利克雷分布 主題模型 文本聚類 吉布斯采樣 變分貝葉斯推理 機(jī)器學(xué)習(xí)
【摘要】:針對構(gòu)建大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)在可擴(kuò)展性、算法收斂性能、運(yùn)行效率等方面面臨的問題,分析了大規(guī)模樣本、模型和網(wǎng)絡(luò)通信給機(jī)器學(xué)習(xí)系統(tǒng)帶來的挑戰(zhàn)和現(xiàn)有系統(tǒng)的應(yīng)對方案。以隱含狄利克雷分布(LDA)模型為例,通過對比三款開源分布式LDA系統(tǒng)——Spark LDA、PLDA+和Light LDA,在系統(tǒng)資源消耗、算法收斂性能和可擴(kuò)展性等方面的表現(xiàn),分析各系統(tǒng)在設(shè)計、實現(xiàn)和性能上的差異。實驗結(jié)果表明:面對小規(guī)模的樣本集和模型,Light LDA與PLDA+的內(nèi)存使用量約為Spark LDA的一半,系統(tǒng)收斂速度為Spark LDA的4至5倍;面對較大規(guī)模的樣本集和模型,Light LDA的網(wǎng)絡(luò)通信總量與系統(tǒng)收斂時間遠(yuǎn)小于PLDA+與Spark LDA,展現(xiàn)出良好的可擴(kuò)展性。"數(shù)據(jù)并行+模型并行"的體系結(jié)構(gòu)能有效應(yīng)對大規(guī)模樣本和模型的挑戰(zhàn);參數(shù)弱同步策略(SSP)、模型本地緩存機(jī)制和參數(shù)稀疏存儲能有效降低網(wǎng)絡(luò)開銷,提升系統(tǒng)運(yùn)行效率。
[Abstract]:Aiming at the problems in scalability, convergence performance and running efficiency of constructing a large-scale machine learning system, large scale samples are analyzed. The challenge to machine learning system caused by model and network communication and the solution of existing system. Take the implicit Delikley distributed LDA-model as an example. By comparing three open source distributed LDA systems, Spark LDA-PLDA and Light LDAs, the performance of system resource consumption, algorithm convergence performance and extensibility are compared. The differences in design, implementation and performance of each system are analyzed. The experimental results show that: facing the small-scale sample set and model. The memory usage of Light LDA and PLDA is about half of that of Spark LDA, and the convergence speed of the system is 4 to 5 times that of Spark LDA. The total amount of network communication and system convergence time of light LDA are much smaller than that of PLDA and Spark LDA. The architecture of "data parallel model parallelism" can effectively meet the challenges of large-scale samples and models. Parameter weak synchronization strategy (SSPN), model local cache mechanism and parameter sparse storage can effectively reduce network overhead and improve system efficiency.
【作者單位】: 并行與分布處理國家重點實驗室(國防科學(xué)技術(shù)大學(xué));國防科學(xué)技術(shù)大學(xué)計算機(jī)學(xué)院;
【基金】:國家自然科學(xué)基金資助項目(61222205)~~
【分類號】:TP181
【正文快照】: 0引言在大數(shù)據(jù)時代,數(shù)據(jù)已經(jīng)成為重要的資源。面對海量的數(shù)據(jù),如何實現(xiàn)有效的處理和分析非常重要。機(jī)器學(xué)習(xí)理論旨在設(shè)計一些讓計算機(jī)自動“學(xué)習(xí)”的算法,使得計算機(jī)能夠從數(shù)據(jù)中自動獲得規(guī)律,并利用規(guī)律對未知數(shù)據(jù)進(jìn)行預(yù)測。常見的機(jī)器學(xué)習(xí)算法可分為有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張明玉,倪志偉;基于機(jī)器學(xué)習(xí)的智能決策支持系統(tǒng)[J];淮南師范學(xué)院學(xué)報;2005年03期
2 楊凌霄;武建平;;機(jī)器學(xué)習(xí)方法在人臉檢測中的應(yīng)用[J];計算機(jī)與數(shù)字工程;2008年03期
3 ;第十一屆中國機(jī)器學(xué)習(xí)會議[J];智能系統(tǒng)學(xué)報;2008年02期
4 ;第14屆中國機(jī)器學(xué)習(xí)會議[J];智能系統(tǒng)學(xué)報;2012年06期
5 費(fèi)宗銘;呂建;王志堅;陳道蓄;徐家福;;機(jī)器學(xué)習(xí)[J];計算機(jī)科學(xué);1991年01期
6 趙沁平;魏華;王軍玲;;機(jī)器學(xué)習(xí)技術(shù)與機(jī)器學(xué)習(xí)系統(tǒng)[J];計算機(jī)科學(xué);1993年05期
7 姚敏;機(jī)器學(xué)習(xí)及其發(fā)展方向[J];計算機(jī)時代;1994年04期
8 ;第31屆機(jī)器學(xué)習(xí)國際會議(英文)[J];智能系統(tǒng)學(xué)報;2014年01期
9 黃海濱;機(jī)器學(xué)習(xí)及其主要策略[J];河池師范高等?茖W(xué)校學(xué)報(自然科學(xué)版);2000年04期
10 佘玉梅;一種協(xié)調(diào)機(jī)器學(xué)習(xí)方法研究[J];云南民族學(xué)院學(xué)報(自然科學(xué)版);2000年03期
相關(guān)會議論文 前10條
1 王玨;;歸納機(jī)器學(xué)習(xí)[A];2001年中國智能自動化會議論文集(上冊)[C];2001年
2 王昊;李銀波;紀(jì)志梁;;利用機(jī)器學(xué)習(xí)方法預(yù)測嚴(yán)重藥物不良反應(yīng)-呼吸困難[A];中國化學(xué)會第28屆學(xué)術(shù)年會第13分會場摘要集[C];2012年
3 吳滄浦;;智能系統(tǒng)與機(jī)器學(xué)習(xí)的新領(lǐng)域[A];西部大開發(fā) 科教先行與可持續(xù)發(fā)展——中國科協(xié)2000年學(xué)術(shù)年會文集[C];2000年
4 周晴杰;徐立鴻;吳啟迪;;機(jī)器學(xué)習(xí)串級結(jié)構(gòu)的初步探討[A];1998年中國控制會議論文集[C];1998年
5 李剛;郭崇慧;林鴻飛;楊志豪;唐煥文;;基于詞典法和機(jī)器學(xué)習(xí)法相結(jié)合的蛋白質(zhì)名識別[A];大連理工大學(xué)生物醫(yī)學(xué)工程學(xué)術(shù)論文集(第2卷)[C];2005年
6 徐禮勝;李乃民;王寬全;張冬雨;耿斌;姜曉睿;陳超海;羅貴存;;機(jī)器學(xué)習(xí)在中醫(yī)計算機(jī)診斷識別系統(tǒng)中的應(yīng)用思考[A];第一屆全國中西醫(yī)結(jié)合診斷學(xué)術(shù)會議論文選集[C];2006年
7 蔡健平;林世平;;基于機(jī)器學(xué)習(xí)的詞語和句子極性分析[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
8 黃金鐵;李景銀;周建常;;對高爐爐況評價模型參數(shù)的機(jī)器學(xué)習(xí)——一個三類線性模式分類器的實現(xiàn)[A];1995中國控制與決策學(xué)術(shù)年會論文集[C];1995年
9 程國建;蔡磊;潘華賢;;核向量機(jī)在大規(guī)模機(jī)器學(xué)習(xí)中的應(yīng)用[A];第十一屆中國青年信息與管理學(xué)者大會論文集[C];2009年
10 張鈸;張鈴;;統(tǒng)計學(xué)習(xí)理論及其應(yīng)用[A];2001年中國智能自動化會議論文集(上冊)[C];2001年
相關(guān)重要報紙文章 前10條
1 黎驪/文 [美] Tom M.Mitchell 著;機(jī)器學(xué)習(xí)與智能化社會[N];中國郵政報;2003年
2 IBM大數(shù)據(jù)專家 James Kobielus 范范 編譯;機(jī)器學(xué)習(xí)已成為大數(shù)據(jù)基石[N];網(wǎng)絡(luò)世界;2014年
3 本報記者 房琳琳;合久必分:分布式“機(jī)器學(xué)習(xí)”應(yīng)運(yùn)而生[N];科技日報;2014年
4 雨辰;機(jī)器學(xué)習(xí)類圖書為什么火爆[N];中華讀書報;2014年
5 百度公司技術(shù)副總監(jiān) 多媒體部負(fù)責(zé)人 余凱;深度學(xué)習(xí)與多媒體搜索技術(shù)演進(jìn)[N];中國信息化周報;2013年
6 本報記者 余建斌;機(jī)器學(xué)習(xí)與互聯(lián)網(wǎng)搜索[N];人民日報;2011年
7 本報記者 張曄邋通訊員 李瑋;周志華:永不墨守成規(guī)[N];科技日報;2008年
8 記者 彭德倩;機(jī)器學(xué)習(xí)精度提升近6個百分點[N];解放日報;2006年
9 本報記者 閔杰;大數(shù)據(jù)熱 高端人才缺[N];中國電子報;2013年
10 沈建苗 編譯;如何成為大數(shù)據(jù)科學(xué)家[N];計算機(jī)世界;2013年
相關(guān)博士學(xué)位論文 前10條
1 董春茹;機(jī)器學(xué)習(xí)中的權(quán)重學(xué)習(xí)與差分演化[D];華南理工大學(xué);2015年
2 姚明臣;機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中的若干問題研究[D];大連理工大學(xué);2016年
3 趙玉鵬;機(jī)器學(xué)習(xí)的哲學(xué)探索[D];大連理工大學(xué);2010年
4 胡巍;面向格結(jié)構(gòu)的機(jī)器學(xué)習(xí)[D];上海交通大學(xué);2009年
5 張義榮;基于機(jī)器學(xué)習(xí)的入侵檢測技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2005年
6 錢線;快速精確的結(jié)構(gòu)化機(jī)器學(xué)習(xí)方法研究[D];復(fù)旦大學(xué);2010年
7 梁錫軍;稀疏優(yōu)化在機(jī)器學(xué)習(xí)中的若干應(yīng)用[D];大連理工大學(xué);2013年
8 蔣剛;核機(jī)器學(xué)習(xí)方法若干問題研究[D];西南交通大學(xué);2006年
9 陳慧靈;面向智能決策問題的機(jī)器學(xué)習(xí)方法研究[D];吉林大學(xué);2012年
10 周偉達(dá);核機(jī)器學(xué)習(xí)方法研究[D];西安電子科技大學(xué);2003年
相關(guān)碩士學(xué)位論文 前10條
1 毛海斌;基于半監(jiān)督機(jī)器學(xué)習(xí)的情感分類領(lǐng)域適應(yīng)問題研究[D];南京理工大學(xué);2015年
2 安軍輝;基于微博數(shù)據(jù)的微博用戶性別判斷研究[D];華中師范大學(xué);2015年
3 陳召陽;基于機(jī)器學(xué)習(xí)的改性麥槽吸附重金屬構(gòu)效關(guān)系模型研究[D];江西理工大學(xué);2014年
4 王成;基于半監(jiān)督機(jī)器學(xué)習(xí)的文本情感分析技術(shù)[D];南京理工大學(xué);2015年
5 孫科;基于Spark的機(jī)器學(xué)習(xí)應(yīng)用框架研究與實現(xiàn)[D];上海交通大學(xué);2015年
6 劉江龍;基于機(jī)器學(xué)習(xí)的射頻指紋定位方法研究[D];電子科技大學(xué);2015年
7 張蕾;基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)輿情采集技術(shù)研究與設(shè)計[D];電子科技大學(xué);2014年
8 施宇;基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的木馬檢測系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學(xué);2014年
9 施應(yīng)敏;基于機(jī)器學(xué)習(xí)的Femtocell信道頻譜與功率資源分配算法的研究[D];南京郵電大學(xué);2015年
10 張柯;基于機(jī)器學(xué)習(xí)的錯誤定位方法研究[D];南京航空航天大學(xué);2015年
,本文編號:1402467
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1402467.html