基于Spark廣告推送系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
【圖文】:
興趣需要對(duì)用戶數(shù)據(jù)進(jìn)行精準(zhǔn)分析。用戶興趣的關(guān)鍵在于對(duì)用戶數(shù)據(jù)進(jìn)行分析,挖逡逑掘用戶的愛好,推送相應(yīng)的廣告。目前,用戶數(shù)據(jù)都是以日志形式存儲(chǔ)。所以,本逡逑章將重點(diǎn)對(duì)文本挖掘技術(shù)和廣告投放算法進(jìn)行重點(diǎn)介紹,進(jìn)行技術(shù)優(yōu)選。逡逑2.1用戶文本處理技術(shù)逡逑在廣告投放平臺(tái)中,需要對(duì)用戶的文本數(shù)據(jù)進(jìn)行分析,挖掘出用戶的興趣愛好。逡逑文本處理最重要的是找出能文本的關(guān)鍵字,找出文本主題,,主要包括文本分詞、文逡逑本特征提取兩部分。本節(jié)將從這兩方面進(jìn)行技術(shù)分析和甄選。逡逑2.1.1文本分詞技術(shù)逡逑分詞的基本原理是針對(duì)文本字符串進(jìn)行分段切割,過濾掉無關(guān)字符,輸出分段逡逑好的中文、英文、數(shù)字等字符串;具^程如2-1圖所示:逡逑
它認(rèn)為一篇文檔是由一組詞構(gòu)成的一個(gè)集合,詞與詞之間沒有順序以及先后的關(guān)逡逑系。一篇文檔可以包含多個(gè)主題,文檔中每一個(gè)詞都由其中的一個(gè)主題生成。LDA逡逑模型圖如圖2-2所示:逡逑JJT逡逑邐邐邐邋JJT逡逑(TV邋(h)—<(§))逡逑)Kn,Ai逡逑“n凡]逡逑m#郟埽停藎]3?圖2-2邋LDA概率圖模型逡逑Figure邋2-2邋LDA邋probability邋map邋model逡逑圖2-2中,其中尺表示主題個(gè)數(shù),iV表示當(dāng)前用戶文檔的總詞數(shù),M表示用逡逑戶日志集中日志的數(shù)量。圖中的出所在的圓圈表示可觀測(cè)變量,Z,?,?所在的圓圈逡逑7逡逑
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:F713.8;TP311.52
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 陳典紅;李海明;單越康;;基于機(jī)器視覺的公差檢測(cè)系統(tǒng)算法研究與應(yīng)用——自適應(yīng)邊緣檢測(cè)與修正Hough變換[J];計(jì)算機(jī)工程與應(yīng)用;2007年07期
2 郭曉燕,張博鋒,方愛國(guó),周傳飛;智能答疑中問題相關(guān)度算法研究及系統(tǒng)實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;2005年02期
相關(guān)碩士學(xué)位論文 前8條
1 何世福;云環(huán)境下DM廣告精準(zhǔn)投放模型研究[D];大連理工大學(xué);2017年
2 常衛(wèi)建;智能廣告投放平臺(tái)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京交通大學(xué);2017年
3 張露露;基于分布式采集策略的病蟲害主題搜索引擎研究[D];東北林業(yè)大學(xué);2017年
4 王磊;基于大數(shù)據(jù)的廣告投放平臺(tái)[D];西安電子科技大學(xué);2016年
5 張少杰;基于用戶興趣的微博廣告投放系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];山西大學(xué);2015年
6 張藝偉;基于讓渡價(jià)值的手機(jī)廣告運(yùn)作研究[D];湖南大學(xué);2014年
7 丁浩;基于用戶興趣變化動(dòng)態(tài)聚類的協(xié)同過濾算法[D];南京郵電大學(xué);2014年
8 何昆懋;P2P視頻點(diǎn)播流媒體內(nèi)容分發(fā)技術(shù)研究[D];電子科技大學(xué);2010年
本文編號(hào):2700499
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/2700499.html