并行LDA、聚類(lèi)算法的研究及應(yīng)用
本文關(guān)鍵詞:并行LDA、聚類(lèi)算法的研究及應(yīng)用
更多相關(guān)文章: Spark LDA 二分K均值 詞語(yǔ)相似度 微博廣告
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展,社會(huì)進(jìn)入了一個(gè)數(shù)據(jù)爆炸的時(shí)代。這些數(shù)據(jù)蘊(yùn)含著大量的價(jià)值,如何從這些海量數(shù)據(jù)中挖掘出有價(jià)值的信息成為了當(dāng)前的研究熱點(diǎn)。面對(duì)海量的數(shù)據(jù),傳統(tǒng)的單機(jī)處理技術(shù)已經(jīng)無(wú)法處理,因而人們開(kāi)始尋求新的解決辦法,云計(jì)算、大數(shù)據(jù)處理技術(shù)也就應(yīng)運(yùn)而生了。在眾多的大數(shù)據(jù)處理技術(shù)中,Spark是近幾年興起的一種基于內(nèi)存計(jì)算的并行計(jì)算框架。它的優(yōu)勢(shì)在于十分擅長(zhǎng)進(jìn)行交互式和迭代式計(jì)算,因而受到廣泛的使用。本文在Spark框架上對(duì)機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘的方法作了并行化的設(shè)計(jì)。文中還涉及到詞語(yǔ)相似度的計(jì)算,對(duì)計(jì)算方法作了一些改進(jìn)。最后將這些方法應(yīng)用到微博廣告的投放中去,實(shí)現(xiàn)廣告的定向投放。本文的研究工作可以分為以下四個(gè)方面:1.基于Spark框架,設(shè)計(jì)了LDA主題模型的并行化方法。在LDA模型中,采用吉布斯采樣的方法對(duì)模型進(jìn)行推導(dǎo)。通過(guò)對(duì)數(shù)據(jù)集的分割,將每個(gè)子數(shù)據(jù)集分配到集群中的各個(gè)節(jié)點(diǎn)進(jìn)行并行運(yùn)算,從而實(shí)現(xiàn)LDA模型的并行計(jì)算。2.對(duì)二分K均值算法進(jìn)行改進(jìn)并設(shè)計(jì)了基于Spark的并行算法。針對(duì)原有的算法在二分過(guò)程中,初始質(zhì)心的選擇速度存在不足,提出了采用極大距離點(diǎn)作為初始質(zhì)心的二分K均值算法。改進(jìn)后的算法,大大降低了運(yùn)算時(shí)間。另外,本文在Spark框架下,作了改進(jìn)后的二分K均值算法的并行化設(shè)計(jì)。3.對(duì)詞語(yǔ)相似度計(jì)算方法做了改進(jìn)。本文的詞語(yǔ)相似度計(jì)算方法是基于How Net的,通過(guò)對(duì)How Net的研究,本文將對(duì)詞語(yǔ)相似度計(jì)算方法進(jìn)行改進(jìn),實(shí)驗(yàn)表明改進(jìn)后的詞語(yǔ)間相似度更符合人們?nèi)粘5睦斫夂驼J(rèn)知。4.結(jié)合已得到的研究成果,設(shè)計(jì)了微博廣告定向投放方案。具體的方法是利用本文第一、二部分提出的LDA、二分K均值并行算法從微博數(shù)據(jù)中挖掘出用戶的興趣,再利用本文第三部分提出的詞語(yǔ)相似度計(jì)算方法對(duì)用戶興趣詞與廣告投放關(guān)鍵詞進(jìn)行相似度計(jì)算,選擇出與用戶興趣最相似的廣告投放給用戶,從而實(shí)現(xiàn)廣告的定向投放。
【關(guān)鍵詞】:Spark LDA 二分K均值 詞語(yǔ)相似度 微博廣告
【學(xué)位授予單位】:南昌大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP391.1;TP311.13
【目錄】:
- 摘要3-4
- Abstract4-9
- 第1章 緒論9-15
- 1.1 研究背景9-10
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-13
- 1.2.1 并行LDA算法的研究現(xiàn)狀10-11
- 1.2.2 二分K均值算法的研究現(xiàn)狀11-12
- 1.2.3 詞語(yǔ)相似度計(jì)算方法的研究現(xiàn)狀12-13
- 1.3 本文的研究工作13-14
- 1.4 論文結(jié)構(gòu)14-15
- 第2章 相關(guān)技術(shù)15-24
- 2.1 Spark15-17
- 2.1.1 Spark生態(tài)系統(tǒng)15-17
- 2.1.2 Spark核心概念17
- 2.2 HowNet17-20
- 2.3 ICTCLAS20-21
- 2.4 文本主題挖掘方法21-23
- 2.5 本章小結(jié)23-24
- 第3章 基于Spark的LDA并行算法24-38
- 3.1 LDA主題模型及其推導(dǎo)24-28
- 3.1.1 LDA主題模型24-25
- 3.1.2 吉布斯采樣25-27
- 3.1.3 基于吉布斯采樣的模型推導(dǎo)27-28
- 3.2 基于Spark的LDA算法并行設(shè)計(jì)28-33
- 3.2.1 并行算法設(shè)計(jì)思想28-30
- 3.2.2 并行LDA算法的實(shí)現(xiàn)30-33
- 3.3 實(shí)驗(yàn)與分析33-37
- 3.3.1 實(shí)驗(yàn)環(huán)境33-34
- 3.3.2 實(shí)驗(yàn)數(shù)據(jù)來(lái)源34
- 3.3.3 實(shí)驗(yàn)內(nèi)容與結(jié)論34-37
- 3.4 本章小結(jié)37-38
- 第4章 基于Spark的二分K均值并行算法38-46
- 4.1 二分K均值算法及優(yōu)化38-40
- 4.2 二分K均值算法的并行設(shè)計(jì)40-42
- 4.3 實(shí)驗(yàn)與分析42-45
- 4.3.1 改進(jìn)的二分K均值算法實(shí)驗(yàn)42-44
- 4.3.2 并行二分K均值算法實(shí)驗(yàn)44-45
- 4.4 本章小結(jié)45-46
- 第5章 基于How Net的詞語(yǔ)相似度計(jì)算46-54
- 5.1 基于HowNet的詞語(yǔ)相似度計(jì)算方法46-48
- 5.2 基于HowNet的詞語(yǔ)相似度計(jì)算方法的改進(jìn)48-51
- 5.2.1 義原相似度計(jì)算方法的改進(jìn)48-49
- 5.2.2 概念相似度計(jì)算方法的改進(jìn)49-51
- 5.3 實(shí)驗(yàn)與分析51-53
- 5.3.1 實(shí)驗(yàn)環(huán)境51
- 5.3.2 實(shí)驗(yàn)結(jié)果與分析51-53
- 5.4 本章小結(jié)53-54
- 第6章 微博廣告定向投放設(shè)計(jì)54-63
- 6.1 微博廣告定向投放方法54-56
- 6.1.1 微博用戶興趣挖掘54-55
- 6.1.2 微博廣告的定向投放55-56
- 6.2 微博文本的特點(diǎn)及處理56-57
- 6.3 設(shè)計(jì)思路57-59
- 6.4 方案實(shí)現(xiàn)59-62
- 6.4.1 微博數(shù)據(jù)預(yù)處理59-60
- 6.4.2 用戶興趣挖掘60-62
- 6.4.3 廣告的定向投放62
- 6.5 本章小結(jié)62-63
- 第7章 總結(jié)與展望63-65
- 參考文獻(xiàn)65-67
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前9條
1 邱云飛;王琳潁;邵良杉;郭紅梅;;基于微博短文本的用戶興趣建模方法[J];計(jì)算機(jī)工程;2014年02期
2 溫臘;芮建武;何婷婷;郭亮;;利用并行GPU對(duì)分層分布式狄利克雷分布算法加速[J];計(jì)算機(jī)應(yīng)用;2013年12期
3 裘國(guó)永;張嬌;;基于二分K-均值的SVM決策樹(shù)自適應(yīng)分類(lèi)方法[J];計(jì)算機(jī)應(yīng)用研究;2012年10期
4 廉捷;周欣;曹偉;劉云;;新浪微博數(shù)據(jù)挖掘方案[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年10期
5 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計(jì)算機(jī)研究與發(fā)展;2011年10期
6 蔡?hào)|風(fēng);白宇;于水;葉娜;任曉娜;;一種基于語(yǔ)境的詞語(yǔ)相似度計(jì)算方法[J];中文信息學(xué)報(bào);2010年03期
7 戴東波;湯春蕾;熊峗;;基于整體和局部相似性的序列聚類(lèi)算法[J];軟件學(xué)報(bào);2010年04期
8 石晶;范猛;李萬(wàn)龍;;基于LDA模型的主題分析[J];自動(dòng)化學(xué)報(bào);2009年12期
9 李文波;孫樂(lè);張大鯤;;基于Labeled-LDA模型的文本分類(lèi)新算法[J];計(jì)算機(jī)學(xué)報(bào);2008年04期
,本文編號(hào):838433
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/838433.html