基于網(wǎng)絡(luò)行為的用戶畫像算法研究
發(fā)布時(shí)間:2021-05-24 07:12
伴隨著整個(gè)社會對互聯(lián)網(wǎng)、特別是移動互聯(lián)網(wǎng)的廣泛接受,用戶產(chǎn)生數(shù)據(jù)呈現(xiàn)爆發(fā)式增長。我們每天都會在網(wǎng)絡(luò)上留下大量的行為數(shù)據(jù),比如查詢詞、網(wǎng)頁訪問記錄等,這些數(shù)據(jù)類型豐富、時(shí)效性強(qiáng),為分析用戶的愛好習(xí)慣及個(gè)人屬性信息、構(gòu)建用戶畫像模型,提供了充足的數(shù)據(jù)資源。用戶畫像是企業(yè)大數(shù)據(jù)的基礎(chǔ),充分利用用戶行為記錄數(shù)據(jù),刻畫出用戶屬性信息全貌,高效地構(gòu)建用戶畫像,將有利于企業(yè)實(shí)現(xiàn)精準(zhǔn)營銷及個(gè)性化服務(wù)。傳統(tǒng)人工給用戶畫像打標(biāo)簽的效率較低,所以借助算法模型來預(yù)測標(biāo)簽成為用戶畫像的一個(gè)熱門研究方向。但是目前主流的機(jī)器學(xué)習(xí)算法未能深入挖掘特征間的復(fù)雜關(guān)系,在高維、稀疏特征時(shí)預(yù)測效果仍不盡人意,還存在較大提升空間。而混合算法往往能結(jié)合各算法的優(yōu)點(diǎn),一定程度上克服缺陷,提高預(yù)測精度。針對用戶的查詢記錄數(shù)據(jù),為了實(shí)現(xiàn)用戶多維人口屬性標(biāo)簽的預(yù)測任務(wù),對用戶畫像構(gòu)建方法進(jìn)行了深入研究,研究工作總結(jié)如下:1)提出了一種基于隨機(jī)森林算法的二層集成學(xué)習(xí)框架。在第一層模型中,基于6種傳統(tǒng)的機(jī)器學(xué)習(xí)算法來作為用戶查詢詞特征提取器,并與用戶的數(shù)字特征相融合,作為第二層模型的輸入;在第二層模型中,使用隨機(jī)森林算法作為分類器,采用不同...
【文章來源】:廣東技術(shù)師范大學(xué)廣東省
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 研究意義
1.3 用戶網(wǎng)絡(luò)行為畫像研究現(xiàn)狀
1.4 論文研究內(nèi)容及結(jié)構(gòu)
2 相關(guān)理論技術(shù)及模型
2.1 用戶畫像基礎(chǔ)
2.1.1 用戶畫像信息來源
2.1.2 用戶畫像常用模型
2.2 文本向量化常用模型
2.2.1 TF-IDF模型
2.2.2 詞向量模型
2.2.3 文檔向量模型
2.3 集成學(xué)習(xí)
2.3.1 Bagging算法
2.3.2 Boosting算法
2.3.3 Stacking算法
2.4 本章小結(jié)
3 基于隨機(jī)森林算法的用戶畫像構(gòu)建
3.1 引言
3.2 算法介紹
3.2.1 邏輯回歸算法
3.2.2 支持向量機(jī)算法
3.2.3 樸素貝葉斯算法
3.2.4 主題模型
3.2.5 隨機(jī)森林算法
3.2.6 基于隨機(jī)森林算法的用戶畫像算法框架
3.3 實(shí)驗(yàn)結(jié)果與分析
3.3.1 實(shí)驗(yàn)環(huán)境及工具
3.3.2 數(shù)據(jù)集
3.3.3 預(yù)處理
3.3.4 對比方法
3.3.5 參數(shù)選擇
3.3.6 實(shí)驗(yàn)結(jié)果
3.4 本章小結(jié)
4 基于XGBoost算法的用戶畫像算法框架
4.1 引言
4.2 算法介紹
4.2.1 BPDM(BPNN based Doc2Vec Model)
4.2.2 XGBoost算法
4.2.3 基于XGBoost算法的用戶畫像算法框架
4.3 實(shí)驗(yàn)結(jié)果與分析
4.3.1 實(shí)驗(yàn)環(huán)境及工具
4.3.2 數(shù)據(jù)集
4.3.3 對比方法
4.3.4 參數(shù)選擇
4.3.5 實(shí)驗(yàn)結(jié)果
4.4 本章小結(jié)
5 總結(jié)與展望
5.1 全文總結(jié)
5.2 未來展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間取得的研究成果
學(xué)位論文數(shù)據(jù)集表
【參考文獻(xiàn)】:
期刊論文
[1]基于樸素貝葉斯的農(nóng)業(yè)文本分類方法研究[J]. 趙燕,李曉輝,周云成,張?jiān)? 節(jié)水灌溉. 2018(02)
[2]貝葉斯網(wǎng)絡(luò)在用戶畫像構(gòu)建中的研究[J]. 張小可,沈文明,杜翠鳳. 移動通信. 2016(22)
[3]基于大數(shù)據(jù)的個(gè)人信用風(fēng)險(xiǎn)評估關(guān)鍵技術(shù)研究[J]. 林漢川,張萬軍,楊柳. 管理現(xiàn)代化. 2016(02)
[4]手機(jī)用戶畫像在大數(shù)據(jù)平臺的實(shí)現(xiàn)方案[J]. 張慷. 信息通信. 2014(02)
[5]人類行為的動力學(xué)與統(tǒng)計(jì)力學(xué)研究[J]. 汪秉宏,韓筱璞. 物理. 2010(01)
博士論文
[1]基于社交大數(shù)據(jù)的用戶信用畫像方法研究[D]. 郭光明.中國科學(xué)技術(shù)大學(xué) 2017
[2]面向個(gè)性化服務(wù)的User Profile研究及應(yīng)用[D]. 杜卿.華南理工大學(xué) 2014
[3]在線社會網(wǎng)絡(luò)用戶行為模型與應(yīng)用算法研究[D]. 肖云鵬.北京郵電大學(xué) 2013
[4]網(wǎng)絡(luò)用戶行為分析的若干問題研究[D]. 劉鵬.北京郵電大學(xué) 2010
碩士論文
[1]基于Web日志的用戶行為大數(shù)據(jù)分析[D]. 宋芷萱.沈陽師范大學(xué) 2018
[2]基于深度神經(jīng)網(wǎng)絡(luò)的用戶畫像研究[D]. 周妹璇.湖南大學(xué) 2018
[3]用戶畫像構(gòu)建中知識表示與模型融合研究[D]. 李恒超.大連理工大學(xué) 2017
[4]基于集成SVM的文本分類方法研究[D]. 游攀利.華中科技大學(xué) 2014
[5]人機(jī)交互中用戶建模方法的研究[D]. 李榮.南京師范大學(xué) 2004
本文編號:3203782
【文章來源】:廣東技術(shù)師范大學(xué)廣東省
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 研究意義
1.3 用戶網(wǎng)絡(luò)行為畫像研究現(xiàn)狀
1.4 論文研究內(nèi)容及結(jié)構(gòu)
2 相關(guān)理論技術(shù)及模型
2.1 用戶畫像基礎(chǔ)
2.1.1 用戶畫像信息來源
2.1.2 用戶畫像常用模型
2.2 文本向量化常用模型
2.2.1 TF-IDF模型
2.2.2 詞向量模型
2.2.3 文檔向量模型
2.3 集成學(xué)習(xí)
2.3.1 Bagging算法
2.3.2 Boosting算法
2.3.3 Stacking算法
2.4 本章小結(jié)
3 基于隨機(jī)森林算法的用戶畫像構(gòu)建
3.1 引言
3.2 算法介紹
3.2.1 邏輯回歸算法
3.2.2 支持向量機(jī)算法
3.2.3 樸素貝葉斯算法
3.2.4 主題模型
3.2.5 隨機(jī)森林算法
3.2.6 基于隨機(jī)森林算法的用戶畫像算法框架
3.3 實(shí)驗(yàn)結(jié)果與分析
3.3.1 實(shí)驗(yàn)環(huán)境及工具
3.3.2 數(shù)據(jù)集
3.3.3 預(yù)處理
3.3.4 對比方法
3.3.5 參數(shù)選擇
3.3.6 實(shí)驗(yàn)結(jié)果
3.4 本章小結(jié)
4 基于XGBoost算法的用戶畫像算法框架
4.1 引言
4.2 算法介紹
4.2.1 BPDM(BPNN based Doc2Vec Model)
4.2.2 XGBoost算法
4.2.3 基于XGBoost算法的用戶畫像算法框架
4.3 實(shí)驗(yàn)結(jié)果與分析
4.3.1 實(shí)驗(yàn)環(huán)境及工具
4.3.2 數(shù)據(jù)集
4.3.3 對比方法
4.3.4 參數(shù)選擇
4.3.5 實(shí)驗(yàn)結(jié)果
4.4 本章小結(jié)
5 總結(jié)與展望
5.1 全文總結(jié)
5.2 未來展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間取得的研究成果
學(xué)位論文數(shù)據(jù)集表
【參考文獻(xiàn)】:
期刊論文
[1]基于樸素貝葉斯的農(nóng)業(yè)文本分類方法研究[J]. 趙燕,李曉輝,周云成,張?jiān)? 節(jié)水灌溉. 2018(02)
[2]貝葉斯網(wǎng)絡(luò)在用戶畫像構(gòu)建中的研究[J]. 張小可,沈文明,杜翠鳳. 移動通信. 2016(22)
[3]基于大數(shù)據(jù)的個(gè)人信用風(fēng)險(xiǎn)評估關(guān)鍵技術(shù)研究[J]. 林漢川,張萬軍,楊柳. 管理現(xiàn)代化. 2016(02)
[4]手機(jī)用戶畫像在大數(shù)據(jù)平臺的實(shí)現(xiàn)方案[J]. 張慷. 信息通信. 2014(02)
[5]人類行為的動力學(xué)與統(tǒng)計(jì)力學(xué)研究[J]. 汪秉宏,韓筱璞. 物理. 2010(01)
博士論文
[1]基于社交大數(shù)據(jù)的用戶信用畫像方法研究[D]. 郭光明.中國科學(xué)技術(shù)大學(xué) 2017
[2]面向個(gè)性化服務(wù)的User Profile研究及應(yīng)用[D]. 杜卿.華南理工大學(xué) 2014
[3]在線社會網(wǎng)絡(luò)用戶行為模型與應(yīng)用算法研究[D]. 肖云鵬.北京郵電大學(xué) 2013
[4]網(wǎng)絡(luò)用戶行為分析的若干問題研究[D]. 劉鵬.北京郵電大學(xué) 2010
碩士論文
[1]基于Web日志的用戶行為大數(shù)據(jù)分析[D]. 宋芷萱.沈陽師范大學(xué) 2018
[2]基于深度神經(jīng)網(wǎng)絡(luò)的用戶畫像研究[D]. 周妹璇.湖南大學(xué) 2018
[3]用戶畫像構(gòu)建中知識表示與模型融合研究[D]. 李恒超.大連理工大學(xué) 2017
[4]基于集成SVM的文本分類方法研究[D]. 游攀利.華中科技大學(xué) 2014
[5]人機(jī)交互中用戶建模方法的研究[D]. 李榮.南京師范大學(xué) 2004
本文編號:3203782
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3203782.html
最近更新
教材專著