基于Spark的大規(guī)模RNNLM系統(tǒng)
本文關(guān)鍵詞:基于Spark的大規(guī)模RNNLM系統(tǒng),由筆耕文化傳播整理發(fā)布。
【摘要】:自然語(yǔ)言處理作為人工智能中的重要問(wèn)題,一直是研究與開發(fā)的熱點(diǎn);其中基于遞歸神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型(RNNLM)具有非常強(qiáng)大的功能和魯棒性,但由于傳統(tǒng)計(jì)算技術(shù)和計(jì)算系統(tǒng)的限制,難以構(gòu)建大規(guī)模的RNNLM系統(tǒng),制約了RNNLM的準(zhǔn)確性等。本文在分析現(xiàn)有串行和基于GPU的RNNLM系統(tǒng)的基礎(chǔ)上,針對(duì)影響RNNLM中計(jì)算量的因素,在Spark平臺(tái)上,設(shè)計(jì)了面向大規(guī)模RNNLM的結(jié)構(gòu)。改變了通過(guò)提高矩陣計(jì)算速度提高RNNLM系統(tǒng)性能的方式,模擬生物神經(jīng)網(wǎng)絡(luò)的并行特性,設(shè)計(jì)了基于并行神經(jīng)元的RNNLM,以邏輯神經(jīng)元為單位,實(shí)現(xiàn)RNNLM的分布式并發(fā),從而將龐大的矩陣運(yùn)算轉(zhuǎn)變?yōu)榉植际竭壿嬌窠?jīng)元的一階運(yùn)算,極大的提高了RNNLM的效率,為構(gòu)建大規(guī)模RNNLM奠定了基礎(chǔ)。經(jīng)過(guò)測(cè)試,利用Spark計(jì)算框架優(yōu)化RNNLM系統(tǒng),將N x M的矩陣拆分到各個(gè)節(jié)點(diǎn)中計(jì)算,每個(gè)神經(jīng)元只需要計(jì)算某一行數(shù)據(jù),將龐大的計(jì)算量遷移到計(jì)算節(jié)點(diǎn)中這會(huì)大大降低時(shí)間開銷,系統(tǒng)計(jì)算速率提升將近20倍,將語(yǔ)料擴(kuò)大之后仍然適用。接著分析了分布式平臺(tái)Spark和RNNLM中制約計(jì)算性能的因素,設(shè)計(jì)了基于參數(shù)合并的廣播式傳輸策略、基于NVM的容錯(cuò)機(jī)制和面向分布式RNNLM的內(nèi)存優(yōu)化機(jī)制,從提高分布式RNNLM中參數(shù)通信效率和針對(duì)RNNLM提高Spark性能兩方面進(jìn)行了改進(jìn),系統(tǒng)計(jì)算速率提升7-15倍。最后在Spark平臺(tái)上,實(shí)現(xiàn)了大規(guī)模分布式RNNLM的原型系統(tǒng),分別使用微軟語(yǔ)料和RNNLM Toolkit語(yǔ)料,對(duì)傳統(tǒng)的RNNLM系統(tǒng)和基于Spark的RNNLM系統(tǒng)進(jìn)行了性能測(cè)試,測(cè)試結(jié)果表明基于Spark的RNNLM系統(tǒng)經(jīng)過(guò)結(jié)構(gòu)的優(yōu)化后,打破了神經(jīng)元個(gè)數(shù)方面和大規(guī)模語(yǔ)料方面的瓶頸,經(jīng)過(guò)測(cè)試,基于Spark的大規(guī)模RNNLM原型系統(tǒng)性能比傳統(tǒng)的RNNLM系統(tǒng)計(jì)算速率提升10倍以上,并沒(méi)有因?yàn)檎Z(yǔ)料成倍擴(kuò)大導(dǎo)致系統(tǒng)運(yùn)行時(shí)間呈線性成倍上升,極大的提升了RNNLM系統(tǒng)的可用性。
【關(guān)鍵詞】:遞歸神經(jīng)網(wǎng)絡(luò) 自然語(yǔ)言處理 分布式計(jì)算 Spark
【學(xué)位授予單位】:江蘇大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP183;TP391.1
【目錄】:
- 摘要4-6
- Abstract6-11
- 第一章 緒論11-24
- 1.1 研究背景及意義11-22
- 1.1.1 基于神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的相關(guān)研究12-17
- 1.1.2 分布式計(jì)算框架的相關(guān)研究17-22
- 1.2 本文的主要工作和組織結(jié)構(gòu)22-24
- 1.2.1 本文的主要工作22-23
- 1.2.2 本文的組織結(jié)構(gòu)23-24
- 第二章 面向大規(guī)模RNNLM的結(jié)構(gòu)分析24-34
- 2.1 現(xiàn)有RNNLM算法的分析24-27
- 2.2 基于Spark大規(guī)模RNNLM的相關(guān)定義27-28
- 2.3 基于Spark大規(guī)模RNNLM的結(jié)構(gòu)28-32
- 2.4 本章小結(jié)32-34
- 第三章 基于并行神經(jīng)元的RNNLM34-43
- 3.1 分布式神經(jīng)元自主訓(xùn)練策略34-36
- 3.1.1 單個(gè)神經(jīng)元ac值的計(jì)算34-35
- 3.1.2 單個(gè)神經(jīng)元與輸出層之間權(quán)重的更新35
- 3.1.3 單個(gè)神經(jīng)元與上次隱藏層之間權(quán)重的更新35-36
- 3.1.4 單個(gè)神經(jīng)元與輸入層之間權(quán)重的更新36
- 3.2 神經(jīng)元的協(xié)調(diào)策略36-38
- 3.3 原型系統(tǒng)測(cè)試與分析38-42
- 3.3.1 原型系統(tǒng)與測(cè)試環(huán)境38-39
- 3.3.2 使用大規(guī)模語(yǔ)料的測(cè)試與分析39-40
- 3.3.3 使用小規(guī)模語(yǔ)料的測(cè)試與分析40-41
- 3.3.4 非對(duì)稱Spark集群中的測(cè)試與分析41-42
- 3.4 本章小結(jié)42-43
- 第四章 大規(guī)模分布式RNNLM的性能優(yōu)化43-59
- 4.1 制約大規(guī)模分布式RNNLM性能的因素43-45
- 4.2 面向分布式神經(jīng)元的高效傳輸機(jī)制45-53
- 4.2.1 數(shù)據(jù)共享方式45-46
- 4.2.2 基于遠(yuǎn)程直接數(shù)據(jù)存取的傳輸策略46-51
- 4.2.3 基于參數(shù)合并的廣播式傳輸策略51-53
- 4.3 基于NVM的容錯(cuò)機(jī)制53-54
- 4.4 面向分布式RNNLM的內(nèi)存優(yōu)化54-55
- 4.5 原型系統(tǒng)測(cè)試與分析55-58
- 4.5.1 原型系統(tǒng)與測(cè)試環(huán)境55-56
- 4.5.2 使用大規(guī)模RNNLM Toolkit語(yǔ)料的測(cè)試與分析56-57
- 4.5.3 優(yōu)化前后的測(cè)試與分析57-58
- 4.6 本章小結(jié)58-59
- 第五章 原型系統(tǒng)的測(cè)試與分析59-65
- 5.1 基于Spark的大規(guī)模RNNLM原型系統(tǒng)的實(shí)現(xiàn)59-61
- 5.1.1 數(shù)據(jù)分布模塊59
- 5.1.2 數(shù)據(jù)收集模塊59
- 5.1.3 匯聚計(jì)算模塊59-60
- 5.1.4 分布計(jì)算模塊60
- 5.1.5 權(quán)重更新模塊60
- 5.1.6 容錯(cuò)機(jī)制優(yōu)化模塊60
- 5.1.7 內(nèi)存優(yōu)化模塊60-61
- 5.1.8 基于數(shù)據(jù)聚合的通信模塊61
- 5.2 原型系統(tǒng)的測(cè)試與分析61-64
- 5.2.1 改變神經(jīng)元數(shù)量的測(cè)試與分析62
- 5.2.2 改變語(yǔ)料規(guī)模的測(cè)試與分析62-64
- 5.3 本章小結(jié)64-65
- 第六章 總結(jié)65-67
- 6.1 工作總結(jié)65-66
- 6.2 工作展望66-67
- 參考文獻(xiàn)67-71
- 致謝71-72
- 在學(xué)期間發(fā)表的學(xué)術(shù)論文及其他科研成果72
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 金仁貴;;帶有偏差單元的遞歸神經(jīng)網(wǎng)絡(luò)在故障診斷方面的應(yīng)用[J];電腦知識(shí)與技術(shù);2006年29期
2 陳鋼;王占山;;連續(xù)時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性分析[J];沈陽(yáng)理工大學(xué)學(xué)報(bào);2007年02期
3 汪曉夢(mèng);;帶有偏差單元的遞歸神經(jīng)網(wǎng)絡(luò)在故障診斷方面的應(yīng)用優(yōu)化[J];甘肅聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年05期
4 杜艷可;徐瑞;;具有時(shí)滯的遞歸神經(jīng)網(wǎng)絡(luò)動(dòng)力學(xué)研究進(jìn)展[J];北華大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年01期
5 蔣洪睿,莫瑋,李麗;遞歸神經(jīng)網(wǎng)絡(luò)自適應(yīng)均衡抗突發(fā)干擾研究[J];電訊技術(shù);2000年01期
6 宋軼民,余躍慶,張策,馬文貴;動(dòng)態(tài)遞歸神經(jīng)網(wǎng)絡(luò)及其在機(jī)敏機(jī)構(gòu)辨識(shí)中的應(yīng)用[J];機(jī)械科學(xué)與技術(shù);2001年04期
7 張奇志,賈永樂(lè),周雅莉;噪聲有源控制的遞歸神經(jīng)網(wǎng)絡(luò)方法[J];控制與決策;2001年03期
8 李峰,李樹榮;基于動(dòng)態(tài)遞歸神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)矩陣控制[J];石油大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年03期
9 唐普英,李紹榮,黃順吉;一種新的復(fù)值遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法及其應(yīng)用[J];信號(hào)處理;2001年06期
10 文敦偉,蔡自興;遞歸神經(jīng)網(wǎng)絡(luò)的模糊隨機(jī)學(xué)習(xí)算法[J];高技術(shù)通訊;2002年01期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 房毅憲;王寶文;王永茂;;基于偏差遞歸神經(jīng)網(wǎng)絡(luò)的股價(jià)預(yù)測(cè)(英文)[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國(guó)第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2006年
2 劉勇;沈毅;胡恒章;;遞歸神經(jīng)網(wǎng)絡(luò)自適應(yīng)濾波器[A];1998年中國(guó)智能自動(dòng)化學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];1998年
3 趙英凱;蔡寧;;基于對(duì)角遞歸神經(jīng)網(wǎng)絡(luò)的肟化投酮量在線預(yù)估[A];1998年中國(guó)智能自動(dòng)化學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];1998年
4 李樹榮;李峰;;基于動(dòng)態(tài)遞歸神經(jīng)網(wǎng)絡(luò)的非線性系統(tǒng)重構(gòu)[A];1998年中國(guó)控制會(huì)議論文集[C];1998年
5 史志偉;韓敏;;應(yīng)用遞歸神經(jīng)網(wǎng)絡(luò)建立非線性結(jié)構(gòu)系統(tǒng)模型[A];第二十三屆中國(guó)控制會(huì)議論文集(下冊(cè))[C];2004年
6 叢爽;戴誼;;遞歸神經(jīng)網(wǎng)絡(luò)逼近性能的研究[A];'2006系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)交流會(huì)論文集[C];2006年
7 呂進(jìn);郭晨;劉雨;;基于不完全遞歸神經(jīng)網(wǎng)絡(luò)的二階導(dǎo)數(shù)多步預(yù)測(cè)模糊控制及應(yīng)用[A];2007年中國(guó)智能自動(dòng)化會(huì)議論文集[C];2007年
8 蒲興成;;時(shí)變時(shí)滯不確定遞歸神經(jīng)網(wǎng)絡(luò)漸近穩(wěn)定的一個(gè)充分條件[A];2008’“先進(jìn)集成技術(shù)”院士論壇暨第二屆儀表、自動(dòng)化與先進(jìn)集成技術(shù)大會(huì)論文集[C];2008年
9 仉寶玉;吳志敏;;基于對(duì)角遞歸神經(jīng)網(wǎng)絡(luò)的智能PID控制[A];'2003系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)交流會(huì)論文集[C];2003年
10 沈艷;謝美萍;;基于遞歸神經(jīng)網(wǎng)絡(luò)的船舶運(yùn)動(dòng)極短期建模預(yù)報(bào)[A];第二屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集[C];2004年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 趙永昌;一類時(shí)滯靜態(tài)遞歸神經(jīng)網(wǎng)絡(luò)的動(dòng)力學(xué)行為研究[D];中國(guó)海洋大學(xué);2010年
2 高海賓;擾動(dòng)作用下遞歸神經(jīng)網(wǎng)絡(luò)穩(wěn)定性研究[D];燕山大學(xué);2006年
3 黃玉嬌;具有廣義分段線性激活函數(shù)的遞歸神經(jīng)網(wǎng)絡(luò)的多穩(wěn)定性分析[D];東北大學(xué);2014年
4 徐東坡;遞歸神經(jīng)網(wǎng)絡(luò)梯度學(xué)習(xí)算法的收斂性[D];大連理工大學(xué);2009年
5 于佳麗;遞歸神經(jīng)網(wǎng)絡(luò)的連續(xù)吸引子與模糊控制[D];電子科技大學(xué);2009年
6 王芬;遞歸神經(jīng)網(wǎng)絡(luò)的動(dòng)力學(xué)行為分析[D];武漢科技大學(xué);2011年
7 季策;時(shí)滯遞歸神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)特性研究[D];東北大學(xué);2005年
8 徐軍;遞歸神經(jīng)網(wǎng)絡(luò)穩(wěn)定性分析[D];浙江大學(xué);2007年
9 張銳;幾類遞歸神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性及其應(yīng)用研究[D];東北大學(xué);2010年
10 張益軍;時(shí)滯遞歸神經(jīng)網(wǎng)絡(luò)穩(wěn)定性分析及網(wǎng)絡(luò)化同步控制[D];東華大學(xué);2008年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 柳玉華;一種遞歸神經(jīng)網(wǎng)絡(luò)方法研究及其在非線性系統(tǒng)跟蹤控制中的應(yīng)用[D];江西理工大學(xué);2015年
2 羅威威;全局指數(shù)穩(wěn)定的遞歸神經(jīng)網(wǎng)絡(luò)的魯棒性分析[D];中國(guó)礦業(yè)大學(xué);2015年
3 楊渺渺;具有時(shí)滯的遞歸神經(jīng)網(wǎng)絡(luò)穩(wěn)定性分析[D];電子科技大學(xué);2015年
4 崔志超;基于產(chǎn)品特征的中文評(píng)論情感分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];河北科技大學(xué);2015年
5 余仕敏;基于遞歸神經(jīng)網(wǎng)絡(luò)的廣告點(diǎn)擊率預(yù)估[D];浙江理工大學(xué);2016年
6 宛立達(dá);基于振動(dòng)信號(hào)分析的故障診斷理論與應(yīng)用[D];東北石油大學(xué);2010年
7 李克強(qiáng);基于Spark的大規(guī)模RNNLM系統(tǒng)[D];江蘇大學(xué);2016年
8 葛洋;多時(shí)滯遞歸神經(jīng)網(wǎng)絡(luò)的指數(shù)穩(wěn)定性研究[D];曲阜師范大學(xué);2010年
9 張欣;遞歸神經(jīng)網(wǎng)絡(luò)的研究及在非線性動(dòng)態(tài)系統(tǒng)辨識(shí)中的應(yīng)用[D];太原理工大學(xué);2005年
10 曾智;遞歸神經(jīng)網(wǎng)絡(luò)的動(dòng)力學(xué)行為研究[D];重慶大學(xué);2006年
本文關(guān)鍵詞:基于Spark的大規(guī)模RNNLM系統(tǒng),,由筆耕文化傳播整理發(fā)布。
本文編號(hào):319297
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/319297.html