面向大規(guī)模非平衡數(shù)據(jù)集的潛在家庭寬帶用戶識別問題研究
發(fā)布時間:2024-12-21 22:20
大數(shù)據(jù)時代下,挖掘數(shù)據(jù)潛在的價值己成為各行各業(yè)提高核心競爭力的必要手段。在通信行業(yè),坐擁豐富數(shù)據(jù)資源的運營商需要借助數(shù)據(jù)挖掘技術(shù)提高市場競爭力,比如把數(shù)據(jù)挖掘用于捕捉目標(biāo)人群特點并實現(xiàn)精準(zhǔn)營銷。潛在家庭寬帶用戶識別是一個具有代表性的運營商精準(zhǔn)營銷問題。通信運營商希望通過分析終端數(shù)據(jù)鎖定潛在家庭寬帶用戶,但由于其數(shù)據(jù)集存在類別不平衡等問題,傳統(tǒng)分類算法性能無法滿足實用需求。本文以潛在家庭寬帶用戶識別問題為例,以國內(nèi)某通信運營商提供的實際數(shù)據(jù)集為基礎(chǔ),對非平衡數(shù)據(jù)集的二分類問題進(jìn)行研究。首先,本文分析了數(shù)據(jù)集特點以及分類難點,并結(jié)合家庭寬帶應(yīng)用場景的實際需求設(shè)計了一種復(fù)合型算法。針對數(shù)據(jù)集的高維特點,本文采用在高維數(shù)據(jù)上具有強魯棒性的最大熵機(Maximal Entropy Machine,MEM)二分類模型作為核心分類器?紤]到家庭寬帶用戶識別的強實時性需求特點,本文將算法設(shè)計為兩個階段,不同階段MEM模型分別結(jié)合不同的非平衡問題處理方法。在離線學(xué)習(xí)階段,本文令MEM模型與SMOTE模型協(xié)同工作,提出SMOTE-MEM模型并基于歷史數(shù)據(jù)搭建初始分類器;在在線學(xué)習(xí)階段,本文提出一個在線學(xué)習(xí)框...
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 課題研究背景及意義
1.1.1 大數(shù)據(jù)時代下的通信行業(yè)
1.1.2 數(shù)據(jù)挖掘概述
1.1.3 非平衡數(shù)據(jù)集分類問題
1.2 課題相關(guān)理論的研究現(xiàn)狀
1.2.1 非平衡數(shù)據(jù)集的研究現(xiàn)狀
1.2.2 在線學(xué)習(xí)的研究現(xiàn)狀
1.2.3 核方法加速的研究現(xiàn)狀
1.3 本文主要工作及貢獻(xiàn)
1.4 論文框架
第二章 潛在家庭寬帶用戶識別問題概述
2.1 研究背景
2.2 潛在家寬用戶識別問題
2.2.1 系統(tǒng)架構(gòu)描述
2.2.2 數(shù)據(jù)集描述
2.3 數(shù)據(jù)預(yù)處理
2.4 性能評價指標(biāo)
2.5 本章小結(jié)
第三章 一種基于MEM分類器的家寬用戶識別算法
3.1 MEM二分類模型
3.1.1 支持向量機
3.1.2 MEM模型
3.2 Pegasos優(yōu)化算法
3.3 潛在家寬用戶識別算法框架設(shè)計
3.4 離線學(xué)習(xí)階段
3.4.1 SMOTE模型
3.4.2 SMOTE-MEM模型
3.5 在線學(xué)習(xí)階段
3.5.1 Different Cost模型
3.5.2 DC-MEM模型
3.5.3 在線學(xué)習(xí)
3.6 在潛在家寬用戶數(shù)據(jù)集上的應(yīng)用
3.6.1 傳統(tǒng)機器學(xué)習(xí)算法簡介
3.6.2 實驗及結(jié)果分析
3.7 在KEEL非平衡數(shù)據(jù)集上的應(yīng)用
3.7.1 KEEL非平衡數(shù)據(jù)集
3.7.2 實驗及結(jié)果分析
3.8 本章小結(jié)
第四章 面向大規(guī)模非平衡數(shù)據(jù)集分類問題的核函數(shù)加速方法
4.1 隨機傅里葉特征算法
4.2 基于隨機傅里葉特征的核函數(shù)加速
4.3 在非平衡數(shù)據(jù)集上的應(yīng)用
4.3.1 基于潛在家寬用戶數(shù)據(jù)集的實驗
4.3.2 基于KEEL非平衡數(shù)據(jù)集的實驗
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 本文工作總結(jié)
5.2 未來工作展望
參考文獻(xiàn)
致謝
附錄 攻讀碩士學(xué)位期間發(fā)表的論文
本文編號:4018993
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 課題研究背景及意義
1.1.1 大數(shù)據(jù)時代下的通信行業(yè)
1.1.2 數(shù)據(jù)挖掘概述
1.1.3 非平衡數(shù)據(jù)集分類問題
1.2 課題相關(guān)理論的研究現(xiàn)狀
1.2.1 非平衡數(shù)據(jù)集的研究現(xiàn)狀
1.2.2 在線學(xué)習(xí)的研究現(xiàn)狀
1.2.3 核方法加速的研究現(xiàn)狀
1.3 本文主要工作及貢獻(xiàn)
1.4 論文框架
第二章 潛在家庭寬帶用戶識別問題概述
2.1 研究背景
2.2 潛在家寬用戶識別問題
2.2.1 系統(tǒng)架構(gòu)描述
2.2.2 數(shù)據(jù)集描述
2.3 數(shù)據(jù)預(yù)處理
2.4 性能評價指標(biāo)
2.5 本章小結(jié)
第三章 一種基于MEM分類器的家寬用戶識別算法
3.1 MEM二分類模型
3.1.1 支持向量機
3.1.2 MEM模型
3.2 Pegasos優(yōu)化算法
3.3 潛在家寬用戶識別算法框架設(shè)計
3.4 離線學(xué)習(xí)階段
3.4.1 SMOTE模型
3.4.2 SMOTE-MEM模型
3.5 在線學(xué)習(xí)階段
3.5.1 Different Cost模型
3.5.2 DC-MEM模型
3.5.3 在線學(xué)習(xí)
3.6 在潛在家寬用戶數(shù)據(jù)集上的應(yīng)用
3.6.1 傳統(tǒng)機器學(xué)習(xí)算法簡介
3.6.2 實驗及結(jié)果分析
3.7 在KEEL非平衡數(shù)據(jù)集上的應(yīng)用
3.7.1 KEEL非平衡數(shù)據(jù)集
3.7.2 實驗及結(jié)果分析
3.8 本章小結(jié)
第四章 面向大規(guī)模非平衡數(shù)據(jù)集分類問題的核函數(shù)加速方法
4.1 隨機傅里葉特征算法
4.2 基于隨機傅里葉特征的核函數(shù)加速
4.3 在非平衡數(shù)據(jù)集上的應(yīng)用
4.3.1 基于潛在家寬用戶數(shù)據(jù)集的實驗
4.3.2 基于KEEL非平衡數(shù)據(jù)集的實驗
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 本文工作總結(jié)
5.2 未來工作展望
參考文獻(xiàn)
致謝
附錄 攻讀碩士學(xué)位期間發(fā)表的論文
本文編號:4018993
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/4018993.html
最近更新
教材專著