并行LDA、聚類算法的研究及應用
發(fā)布時間:2017-09-12 17:03
本文關鍵詞:并行LDA、聚類算法的研究及應用
更多相關文章: Spark LDA 二分K均值 詞語相似度 微博廣告
【摘要】:隨著互聯(lián)網的飛速發(fā)展,社會進入了一個數(shù)據爆炸的時代。這些數(shù)據蘊含著大量的價值,如何從這些海量數(shù)據中挖掘出有價值的信息成為了當前的研究熱點。面對海量的數(shù)據,傳統(tǒng)的單機處理技術已經無法處理,因而人們開始尋求新的解決辦法,云計算、大數(shù)據處理技術也就應運而生了。在眾多的大數(shù)據處理技術中,Spark是近幾年興起的一種基于內存計算的并行計算框架。它的優(yōu)勢在于十分擅長進行交互式和迭代式計算,因而受到廣泛的使用。本文在Spark框架上對機器學習、數(shù)據挖掘的方法作了并行化的設計。文中還涉及到詞語相似度的計算,對計算方法作了一些改進。最后將這些方法應用到微博廣告的投放中去,實現(xiàn)廣告的定向投放。本文的研究工作可以分為以下四個方面:1.基于Spark框架,設計了LDA主題模型的并行化方法。在LDA模型中,采用吉布斯采樣的方法對模型進行推導。通過對數(shù)據集的分割,將每個子數(shù)據集分配到集群中的各個節(jié)點進行并行運算,從而實現(xiàn)LDA模型的并行計算。2.對二分K均值算法進行改進并設計了基于Spark的并行算法。針對原有的算法在二分過程中,初始質心的選擇速度存在不足,提出了采用極大距離點作為初始質心的二分K均值算法。改進后的算法,大大降低了運算時間。另外,本文在Spark框架下,作了改進后的二分K均值算法的并行化設計。3.對詞語相似度計算方法做了改進。本文的詞語相似度計算方法是基于How Net的,通過對How Net的研究,本文將對詞語相似度計算方法進行改進,實驗表明改進后的詞語間相似度更符合人們日常的理解和認知。4.結合已得到的研究成果,設計了微博廣告定向投放方案。具體的方法是利用本文第一、二部分提出的LDA、二分K均值并行算法從微博數(shù)據中挖掘出用戶的興趣,再利用本文第三部分提出的詞語相似度計算方法對用戶興趣詞與廣告投放關鍵詞進行相似度計算,選擇出與用戶興趣最相似的廣告投放給用戶,從而實現(xiàn)廣告的定向投放。
【關鍵詞】:Spark LDA 二分K均值 詞語相似度 微博廣告
【學位授予單位】:南昌大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1;TP311.13
【目錄】:
- 摘要3-4
- Abstract4-9
- 第1章 緒論9-15
- 1.1 研究背景9-10
- 1.2 國內外研究現(xiàn)狀10-13
- 1.2.1 并行LDA算法的研究現(xiàn)狀10-11
- 1.2.2 二分K均值算法的研究現(xiàn)狀11-12
- 1.2.3 詞語相似度計算方法的研究現(xiàn)狀12-13
- 1.3 本文的研究工作13-14
- 1.4 論文結構14-15
- 第2章 相關技術15-24
- 2.1 Spark15-17
- 2.1.1 Spark生態(tài)系統(tǒng)15-17
- 2.1.2 Spark核心概念17
- 2.2 HowNet17-20
- 2.3 ICTCLAS20-21
- 2.4 文本主題挖掘方法21-23
- 2.5 本章小結23-24
- 第3章 基于Spark的LDA并行算法24-38
- 3.1 LDA主題模型及其推導24-28
- 3.1.1 LDA主題模型24-25
- 3.1.2 吉布斯采樣25-27
- 3.1.3 基于吉布斯采樣的模型推導27-28
- 3.2 基于Spark的LDA算法并行設計28-33
- 3.2.1 并行算法設計思想28-30
- 3.2.2 并行LDA算法的實現(xiàn)30-33
- 3.3 實驗與分析33-37
- 3.3.1 實驗環(huán)境33-34
- 3.3.2 實驗數(shù)據來源34
- 3.3.3 實驗內容與結論34-37
- 3.4 本章小結37-38
- 第4章 基于Spark的二分K均值并行算法38-46
- 4.1 二分K均值算法及優(yōu)化38-40
- 4.2 二分K均值算法的并行設計40-42
- 4.3 實驗與分析42-45
- 4.3.1 改進的二分K均值算法實驗42-44
- 4.3.2 并行二分K均值算法實驗44-45
- 4.4 本章小結45-46
- 第5章 基于How Net的詞語相似度計算46-54
- 5.1 基于HowNet的詞語相似度計算方法46-48
- 5.2 基于HowNet的詞語相似度計算方法的改進48-51
- 5.2.1 義原相似度計算方法的改進48-49
- 5.2.2 概念相似度計算方法的改進49-51
- 5.3 實驗與分析51-53
- 5.3.1 實驗環(huán)境51
- 5.3.2 實驗結果與分析51-53
- 5.4 本章小結53-54
- 第6章 微博廣告定向投放設計54-63
- 6.1 微博廣告定向投放方法54-56
- 6.1.1 微博用戶興趣挖掘54-55
- 6.1.2 微博廣告的定向投放55-56
- 6.2 微博文本的特點及處理56-57
- 6.3 設計思路57-59
- 6.4 方案實現(xiàn)59-62
- 6.4.1 微博數(shù)據預處理59-60
- 6.4.2 用戶興趣挖掘60-62
- 6.4.3 廣告的定向投放62
- 6.5 本章小結62-63
- 第7章 總結與展望63-65
- 參考文獻65-67
【參考文獻】
中國期刊全文數(shù)據庫 前9條
1 邱云飛;王琳潁;邵良杉;郭紅梅;;基于微博短文本的用戶興趣建模方法[J];計算機工程;2014年02期
2 溫臘;芮建武;何婷婷;郭亮;;利用并行GPU對分層分布式狄利克雷分布算法加速[J];計算機應用;2013年12期
3 裘國永;張嬌;;基于二分K-均值的SVM決策樹自適應分類方法[J];計算機應用研究;2012年10期
4 廉捷;周欣;曹偉;劉云;;新浪微博數(shù)據挖掘方案[J];清華大學學報(自然科學版);2011年10期
5 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計算機研究與發(fā)展;2011年10期
6 蔡東風;白宇;于水;葉娜;任曉娜;;一種基于語境的詞語相似度計算方法[J];中文信息學報;2010年03期
7 戴東波;湯春蕾;熊峗;;基于整體和局部相似性的序列聚類算法[J];軟件學報;2010年04期
8 石晶;范猛;李萬龍;;基于LDA模型的主題分析[J];自動化學報;2009年12期
9 李文波;孫樂;張大鯤;;基于Labeled-LDA模型的文本分類新算法[J];計算機學報;2008年04期
,本文編號:838433
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/838433.html