天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于GPU的LDA算法并行化設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2016-09-24 18:03

  本文關(guān)鍵詞:一種應(yīng)用于搜索引擎的文本聚類算法,由筆耕文化傳播整理發(fā)布。


《北京郵電大學(xué)》 2013年

基于GPU的LDA算法并行化設(shè)計(jì)與實(shí)現(xiàn)

文化龍  

【摘要】:隨著信息技術(shù)及互聯(lián)網(wǎng)的發(fā)展,人類所面對(duì)的網(wǎng)絡(luò)信息迅速膨脹,因此如何從雜亂無(wú)章的海量文本信息中快速刷選出目標(biāo)信息,一直是自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)。文本聚類是一種基礎(chǔ)的自然語(yǔ)言處理技術(shù),在文本聚類中,LDA(Latent Dirichlet Allocation,隱含狄利克雷分配)算法是一種主題模型聚類,根據(jù)從文本中發(fā)現(xiàn)的主題進(jìn)行分類,能有效提高聚類結(jié)果的質(zhì)量。然而在實(shí)際應(yīng)用中,LDA算法的程序在計(jì)算大規(guī)模數(shù)據(jù)時(shí)速度較慢,原因是使用相同的控制邏輯處理大量數(shù)據(jù),需要在CPU上對(duì)這些大量數(shù)據(jù)反復(fù)循環(huán)。根據(jù)LDA算法的耗時(shí)特點(diǎn),可以對(duì)LDA算法進(jìn)行并行化設(shè)計(jì),并利用并行計(jì)算技術(shù)對(duì)其進(jìn)行加速。 計(jì)算機(jī)圖形處理器(Graphics Processing Unit, GPU)不斷高速發(fā)展,目前已擁有強(qiáng)大的并行處理能力和可編程流水線,非常適合于高效率低成本的高性能并行數(shù)值計(jì)算,為圖形處理之外的通用計(jì)算任務(wù)提供了良好的運(yùn)行平臺(tái)。基于GPU的通用計(jì)算已成為高性能計(jì)算領(lǐng)域的熱點(diǎn)研究課題。 CUDA(Compute Unified Device Architecture,統(tǒng)一計(jì)算設(shè)備架構(gòu))是一種新的處理和管理GPU并行計(jì)算的硬件架構(gòu)與編程模型,由NVIDIA公司開(kāi)發(fā)。CUDA將GPU視作一個(gè)數(shù)據(jù)并行計(jì)算設(shè)備,并且無(wú)需把這些計(jì)算映射到圖形API。CUDA程序的開(kāi)發(fā)語(yǔ)言以C語(yǔ)言為基礎(chǔ),并對(duì)C語(yǔ)言進(jìn)行擴(kuò)展。在CUDA程序中,核函數(shù)調(diào)用GPU執(zhí)行并行計(jì)算,通過(guò)GPU內(nèi)部硬件提供的多層次存儲(chǔ)器,GPU內(nèi)部計(jì)算所需的數(shù)據(jù)讀寫(xiě)操作效率都非常理想,因此核函數(shù)的執(zhí)行時(shí)間往往很短。采用CUDA編程模型,對(duì)LDA文本聚類算法并行化設(shè)計(jì)與實(shí)現(xiàn),可以充分利用GPU的并行計(jì)算能力,取得很好的加速效果。 本文首先介紹了Mahout機(jī)器學(xué)習(xí)庫(kù)中基于MapReduce模型的LDA程序主要架構(gòu),該模型是為實(shí)現(xiàn)分布式計(jì)算而設(shè)計(jì),能夠在Hadoop計(jì)算集群上分布式運(yùn)行。接著,分析并找出其中計(jì)算過(guò)程繁多的串行代碼部分,研究將這些代碼并行化的方案。最后利用CUDA編程模型實(shí)現(xiàn)并行程序,將核心的計(jì)算任務(wù)從CPU轉(zhuǎn)移到GPU,由串行計(jì)算變?yōu)椴⑿杏?jì)算,實(shí)現(xiàn)了GPU并行加速。實(shí)驗(yàn)表明,利用GPU強(qiáng)大的并行計(jì)算能力,可以大幅加速基于MapReduce編程模型的LDA文本聚類程序,對(duì)GPU在數(shù)據(jù)挖掘領(lǐng)域的其他應(yīng)用具有一定的借鑒意義。

【關(guān)鍵詞】:
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP338.6
【目錄】:

下載全文 更多同類文獻(xiàn)

CAJ全文下載

(如何獲取全文? 歡迎:購(gòu)買知網(wǎng)充值卡、在線充值、在線咨詢)

CAJViewer閱讀器支持CAJ、PDF文件格式


【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條

1 曹小鵬;;基于GPU并行計(jì)算及在模式識(shí)別中的研究[J];計(jì)算機(jī)與數(shù)字工程;2011年08期

2 余傳明;張小青;陳雷;;基于LDA模型的評(píng)論熱點(diǎn)挖掘:原理與實(shí)現(xiàn)[J];情報(bào)理論與實(shí)踐;2010年05期

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 程開(kāi)東;基于GPU并行計(jì)算的動(dòng)態(tài)簽名鑒別算法研究[D];吉林大學(xué);2009年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條

1 蔡岳;一種應(yīng)用于搜索引擎的文本聚類算法[D];北京林業(yè)大學(xué);2010年

2 黃波;基于向量空間模型和LDA模型相結(jié)合的微博客話題發(fā)現(xiàn)算法研究[D];西南交通大學(xué);2012年

3 張凌潔;基于GPU的最短路徑算法的研究和實(shí)現(xiàn)[D];北京化工大學(xué);2012年

【共引文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前4條

1 袁津生;程超然;;基于文本聚類搜索引擎的查詢擴(kuò)展算法[J];計(jì)算機(jī)工程與應(yīng)用;2012年03期

2 李群;袁津生;;基于DBSCAN的最優(yōu)密度文本聚類算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2012年04期

3 唐曉波;王洪艷;;基于潛在語(yǔ)義分析的微博主題挖掘模型研究[J];圖書(shū)情報(bào)工作;2012年24期

4 廖君華;孫克迎;鐘麗霞;;一種基于時(shí)序主題模型的網(wǎng)絡(luò)熱點(diǎn)話題演化分析系統(tǒng)[J];圖書(shū)情報(bào)工作;2013年09期

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條

1 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年

2 王珂;礦井無(wú)線傳感器網(wǎng)絡(luò)節(jié)點(diǎn)部署關(guān)鍵技術(shù)的研究[D];中國(guó)礦業(yè)大學(xué);2011年

3 劉楊;基于SG-MA-ISPA模型的區(qū)域可持續(xù)發(fā)展評(píng)價(jià)研究[D];重慶大學(xué);2012年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前5條

1 郭艷芬;林業(yè)主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];北京林業(yè)大學(xué);2011年

2 程超然;基于文本聚類搜索引擎查詢擴(kuò)展算法的研究與實(shí)現(xiàn)[D];北京林業(yè)大學(xué);2012年

3 張行;木材垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D];北京林業(yè)大學(xué);2012年

4 邱洋;微博數(shù)據(jù)提取及話題檢測(cè)方法研究[D];大連理工大學(xué);2013年

5 梁鈺英;基于GPU的協(xié)同過(guò)濾推薦算法的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2013年

【二級(jí)參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 王握文;陳明;;“天河一號(hào)”超級(jí)計(jì)算機(jī)系統(tǒng)研制[J];國(guó)防科技;2009年06期

2 張公正;關(guān)于摹仿筆跡鑒定之探索[J];公安大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年01期

3 劉小華,王燕生;指紋識(shí)別技術(shù)的發(fā)展[J];光學(xué)技術(shù);1998年04期

4 董犖;葛萬(wàn)成;陳康力;;CUDA并行計(jì)算的應(yīng)用研究[J];信息技術(shù);2010年04期

5 胡桔州;Floyd最短路徑算法在配送中心選址中的應(yīng)用[J];湖南農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年04期

6 金涌,柳健,姜向東;改善手寫(xiě)簽名動(dòng)態(tài)特征穩(wěn)定性的局部相關(guān)分析[J];華中理工大學(xué)學(xué)報(bào);1998年12期

7 金涌,柳健;手寫(xiě)簽名的概率神經(jīng)網(wǎng)絡(luò)識(shí)判模型[J];華中理工大學(xué)學(xué)報(bào);1999年05期

8 金涌,柳健;基于空間曲線彈性匹配的在線手寫(xiě)簽名鑒別[J];華中理工大學(xué)學(xué)報(bào);1999年05期

9 唐降龍,孫廣玲,劉家鋒,容軍;一種筆段序列匹配聯(lián)機(jī)漢字識(shí)別方法[J];計(jì)算機(jī)研究與發(fā)展;1999年12期

10 周水庚,周傲英,曹晶,胡運(yùn)發(fā);一種基于密度的快速聚類算法[J];計(jì)算機(jī)研究與發(fā)展;2000年11期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條

1 孫勝平;中文微博客熱點(diǎn)話題檢測(cè)與跟蹤技術(shù)研究[D];北京交通大學(xué);2011年

2 秦晉;Krylov子空間方法的GPU加速算法研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2010年

3 付彤;網(wǎng)絡(luò)系統(tǒng)中幾種物流配送問(wèn)題的實(shí)用算法研究[D];西北工業(yè)大學(xué);2006年

4 李敏;多車場(chǎng)多配送中心多用戶點(diǎn)的最優(yōu)物流配送問(wèn)題研究[D];西北工業(yè)大學(xué);2007年

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 劉金娟;張東晨;鞏天寧;李濤;;流水線技術(shù)及并行計(jì)算在GPU中的應(yīng)用分析[J];軟件導(dǎo)刊;2008年09期

2 程思遠(yuǎn);米婷;吳宇亮;杜江斌;;CUDA并行數(shù)據(jù)壓縮技術(shù)研究[J];電腦知識(shí)與技術(shù);2011年05期

3 湯偉賓;;GPU并行技術(shù)在口令恢復(fù)中的應(yīng)用[J];電信科學(xué);2010年S2期

4 陸建勇;曹雪虹;焦良葆;;基于GPU交互式光線跟蹤算法的設(shè)計(jì)與實(shí)現(xiàn)[J];南京工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2009年03期

5 徐鵬;魏紫;;N-Body問(wèn)題在CUDA平臺(tái)上并行實(shí)現(xiàn)研究[J];科技信息;2009年27期

6 陳飛國(guó);葛蔚;李靜海;;復(fù)雜多相流動(dòng)分子動(dòng)力學(xué)模擬在GPU上的實(shí)現(xiàn)[J];中國(guó)科學(xué)(B輯:化學(xué));2008年12期

7 王健;許明;葛蔚;李靜海;;單相流動(dòng)數(shù)值模擬的SIMPLE算法在GPU上的實(shí)現(xiàn)[J];科學(xué)通報(bào);2010年20期

8 李建明;萬(wàn)單領(lǐng);何榮盛;錢昆明;;一種基于GPU加速的圖像顏色傳遞算法[J];大連理工大學(xué)學(xué)報(bào);2008年02期

9 徐展琦;裴昌幸;董淮南;;一種通用多通道并行CRC計(jì)算及其實(shí)現(xiàn)[J];南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年02期

10 臧增亮;饒宣銳;潘曉濱;張理論;王春明;何宏讓;;區(qū)域分解對(duì)氣象模式并行計(jì)算速度的影響[J];計(jì)算機(jī)工程;2008年17期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 張兵;韓景龍;;一種GPU上的CFD并行計(jì)算方法[A];第十一屆全國(guó)空氣彈性學(xué)術(shù)交流會(huì)會(huì)議論文集[C];2009年

2 周昆;潘益農(nóng);王東勇;朱紅芳;;中尺度數(shù)值模式在IBMP690上的并行測(cè)試[A];信息技術(shù)在氣象領(lǐng)域的開(kāi)發(fā)應(yīng)用論文集(一)[C];2005年

3 張健飛;張磊;;基于Aztec和PETSc的有限元并行計(jì)算[A];中國(guó)力學(xué)學(xué)會(huì)學(xué)術(shù)大會(huì)'2009論文摘要集[C];2009年

4 李冬;王學(xué)進(jìn);周航宇;;并行計(jì)算在數(shù)值SEA效能評(píng)估中的應(yīng)用研究[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國(guó)第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2006年

5 范曉檣;李樺;田正雨;;超聲速/高超聲速飛行器復(fù)雜流場(chǎng)大規(guī)模并行數(shù)值仿真[A];計(jì)算流體力學(xué)研究進(jìn)展——第十二屆全國(guó)計(jì)算流體力學(xué)會(huì)議論文集[C];2004年

6 齊進(jìn);葉文華;;三維激光燒蝕瑞利-泰勒不穩(wěn)定性并行計(jì)算[A];中國(guó)空氣動(dòng)力學(xué)學(xué)會(huì)第十屆物理氣體動(dòng)力學(xué)專業(yè)委員會(huì)會(huì)議論文集[C];2001年

7 張望;王輝;;個(gè)性化服務(wù)中的并行K-Means聚類算法[A];2007年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2007年

8 叢鵬;;MPI并行計(jì)算實(shí)現(xiàn)工業(yè)CT圖像重建[A];2004年CT和三維成像學(xué)術(shù)年會(huì)論文集[C];2004年

9 丁國(guó)昊;羅凱;李偉;李樺;;乘波飛行器氣動(dòng)特性數(shù)值模擬與并行計(jì)算[A];第三屆高超聲速科技學(xué)術(shù)會(huì)議會(huì)議文集[C];2010年

10 羅文彩;陳小前;;并行計(jì)算的多方法優(yōu)化協(xié)作[A];第二十四屆中國(guó)控制會(huì)議論文集(上冊(cè))[C];2005年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

1 軼嘉;[N];人民郵電;2009年

2 江錫民;[N];新華日?qǐng)?bào);2009年

3 劉琦;[N];中國(guó)計(jì)算機(jī)報(bào);2008年

4 均兒;[N];電腦報(bào);2009年

5 本報(bào)記者 馬文方;[N];中國(guó)計(jì)算機(jī)報(bào);2009年

6 電腦報(bào) 朱文利;[N];電腦報(bào);2009年

7 英特爾并行計(jì)算實(shí)驗(yàn)室研究員 TimothyMattson;[N];中國(guó)計(jì)算機(jī)報(bào);2007年

8 英特爾 趙軍(Jun Zhao);[N];中國(guó)計(jì)算機(jī)報(bào);2009年

9 記者 嚴(yán)天秀;[N];昆明日?qǐng)?bào);2010年

10 ;[N];人民郵電;2008年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 陳軍;分布式存儲(chǔ)環(huán)境下并行計(jì)算可擴(kuò)展性的研究與應(yīng)用[D];中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué);2000年

2 吳鋒;基于GPU并行計(jì)算的數(shù)值模擬與燃煤鍋爐系統(tǒng)的優(yōu)化研究[D];浙江大學(xué);2010年

3 尹欣;三維彈性問(wèn)題邊界元法并行計(jì)算及其工程應(yīng)用[D];清華大學(xué);2000年

4 陳曉春;基于并行計(jì)算的大渦模擬方法及其工程應(yīng)用基礎(chǔ)研究[D];西安建筑科技大學(xué);2004年

5 王開(kāi)健;基于特大增量步算法的網(wǎng)絡(luò)并行計(jì)算[D];清華大學(xué);2005年

6 張理論;面向氣象預(yù)報(bào)數(shù)值模式的高效并行計(jì)算研究[D];中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué);2002年

7 寇哲君;可擴(kuò)展沖擊—接觸并行計(jì)算及其在汽車碰撞模擬中的應(yīng)用[D];清華大學(xué);2003年

8 劉麗;人工免疫網(wǎng)絡(luò)研究及應(yīng)用[D];江南大學(xué);2008年

9 王建華;基于GPU的顯式有限元快速計(jì)算方法及在車身設(shè)計(jì)制造中的應(yīng)用[D];湖南大學(xué);2011年

10 龍丹冰;基于并行的特大增量步算法在計(jì)算固體力學(xué)中的應(yīng)用[D];上海交通大學(xué);2012年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 朱麗莎;基于GPU的一維熱傳導(dǎo)算法研究[D];暨南大學(xué);2011年

2 文化龍;基于GPU的LDA算法并行化設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2013年

3 張立花;基于GPU加速的細(xì)粒度模型并行免疫算法研究[D];大連理工大學(xué);2009年

4 高和東;GPU并行計(jì)算在LSSVM建模中的研究與應(yīng)用[D];大連理工大學(xué);2010年

5 魏卓群;GPU并行免疫算法在冷軋生產(chǎn)調(diào)度中的應(yīng)用[D];大連理工大學(xué);2010年

6 劉婷;基于GPU的圖像隱寫(xiě)分析實(shí)現(xiàn)[D];華東理工大學(xué);2011年

7 陸秉嘉;基于GPU的圖形渲染和并行計(jì)算在光學(xué)分子成像中的應(yīng)用[D];西安電子科技大學(xué);2010年

8 張凌潔;基于GPU的最短路徑算法的研究和實(shí)現(xiàn)[D];北京化工大學(xué);2012年

9 徐少鯤;基于開(kāi)源軟件OpenFOAM的數(shù)值波浪水槽建立及應(yīng)用[D];天津大學(xué);2008年

10 劉丹;基于GPU的分子動(dòng)力學(xué)模擬方法研究[D];武漢理工大學(xué);2010年


  本文關(guān)鍵詞:一種應(yīng)用于搜索引擎的文本聚類算法,,由筆耕文化傳播整理發(fā)布。



本文編號(hào):122165

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/122165.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2b681***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com