面向不平衡數(shù)據(jù)集的分類算法研究及其在通信智能運(yùn)營(yíng)方面的應(yīng)用
發(fā)布時(shí)間:2020-07-19 15:32
【摘要】:移動(dòng)互聯(lián)網(wǎng)的發(fā)展促使通信運(yùn)營(yíng)商將原有的以網(wǎng)絡(luò)為核心的通信運(yùn)營(yíng)模式改變?yōu)橐钥蛻趔w驗(yàn)為中心的新型價(jià)值模式,通過數(shù)據(jù)挖掘?qū)崿F(xiàn)以客戶體驗(yàn)管理為中心的通信智能運(yùn)營(yíng)已經(jīng)成為一種必然的趨勢(shì)。通信智能運(yùn)營(yíng)中的客戶流失預(yù)警和終端精準(zhǔn)營(yíng)銷是典型的不平衡數(shù)據(jù)分類問題,因此,面向不平衡數(shù)據(jù)集的分類算法研究及其在通信智能運(yùn)營(yíng)中的應(yīng)用具有實(shí)用意義。本文針對(duì)不平衡數(shù)據(jù)集的分類算法進(jìn)行研究,所做的主要研究工作包括以下方面:首先,為解決不平衡數(shù)據(jù)集的分類問題,提出了一種基于近鄰樣本分布和泊松分布的改進(jìn)合成少數(shù)類過采樣(SMOTE:Synthetic Minority Oversampling Technique)算法,針對(duì) SMOTE 算法生成新樣本時(shí)不考慮數(shù)據(jù)分布、生成新樣本過程不可控、丟棄多數(shù)類信息的問題,在生成新樣本的時(shí)候引進(jìn)和數(shù)據(jù)分布有關(guān)的參數(shù),對(duì)合成樣本的偏離程度進(jìn)行有效調(diào)節(jié),仿真結(jié)果驗(yàn)證了所提算法的有效性;其次,針對(duì)k最近鄰(kNN:k-Nearest Neighbor)分類算法的算法復(fù)雜度過高的問題,提出了一種基于預(yù)分類的kNN改進(jìn)算法(kP:kNN algorithm based on Pre-classification),通過刪除數(shù)據(jù)集中特征不明顯的數(shù)據(jù)樣本來減少算法時(shí)間復(fù)雜度,仿真結(jié)果驗(yàn)證了所提算法的有效性。最后,從通信智能運(yùn)營(yíng)實(shí)際應(yīng)用的角度出發(fā),針對(duì)客戶流失數(shù)據(jù)和終端營(yíng)銷數(shù)據(jù),采用基于近鄰樣本分布和泊松分布的改進(jìn)SMOTE算法(SPDDN:SMOTE algorithm based on Poisson Distribution and the Distribution of Neighborhoods)和kP算法進(jìn)行數(shù)據(jù)挖掘和分析,驗(yàn)證了上述所提算法的有效性,為通信智能運(yùn)營(yíng)中面向不平衡數(shù)據(jù)集的分類方法提供了有效的解決方案。
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:F626;TP311.13
【圖文】:
圖3-2邋丫對(duì)SPDDN算法的AUC的影響(客戶流失數(shù)據(jù))逡逑
0邐2邐4邐6邐8邋10邋12邋14邋16邋18邋20邋22邋24邋26邋28邋30邋32邋34邋36邋38邋40逡逑V逡逑圖3-2邋丫對(duì)SPDDN算法的AUC的影響(客戶流失數(shù)據(jù))逡逑0.636逡逑0.634邐j賃逡逑0.632邐TIV-逡逑U邋°-63逡逑<邋0.628逡逑0.626邐N.逡逑0.624邐,逡逑0.622逡逑0邐0.5邐1邐1.5邐2邐2.5邐3邐3.5邐4逡逑V逡逑圖3-3邋丫對(duì)SPDDN算法的AUC的影響(電商業(yè)務(wù)營(yíng)銷ex據(jù))逡逑23逡逑
近鄰的標(biāo)簽來判斷數(shù)據(jù)樣本所屬的標(biāo)簽!危蔚乃惴ㄔ頌椋和ㄟ^在訓(xùn)練集中逡逑尋找A個(gè)最近的數(shù)據(jù)樣本,然后對(duì)A個(gè)近鄰的類別標(biāo)簽進(jìn)行投票,按照少數(shù)服從逡逑多數(shù)的原則得出最后的投票結(jié)果作為數(shù)據(jù)樣本最后的分類結(jié)果,如圖4-1[541。逡逑訓(xùn)練集.‘逡逑,/邋廔測(cè).逡逑'、、■逡逑'、、、、、…一,’逡逑圖4-1々NN鄰分類算法原理圖逡逑由r邋々NN方法fe要靠近鄰的數(shù)據(jù)樣本,而+是靠判別類域的方法來確定所逡逑屬類別,因此在數(shù)據(jù)集的類域交叉或重疊較多的怙況K,邋ANN方法往往更為適逡逑八逡逑a邋0逡逑々NN算法在特征空N中尋找鄰居的度m濘式包枯距離度和相似度度量,逡逑距離度量用于衡最樣本在特征空間種存在的差異,如糶樣本之間的距離越遠(yuǎn)則說逡逑明樣本之間焌差異越大。相似度度
本文編號(hào):2762604
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:F626;TP311.13
【圖文】:
圖3-2邋丫對(duì)SPDDN算法的AUC的影響(客戶流失數(shù)據(jù))逡逑
0邐2邐4邐6邐8邋10邋12邋14邋16邋18邋20邋22邋24邋26邋28邋30邋32邋34邋36邋38邋40逡逑V逡逑圖3-2邋丫對(duì)SPDDN算法的AUC的影響(客戶流失數(shù)據(jù))逡逑0.636逡逑0.634邐j賃逡逑0.632邐TIV-逡逑U邋°-63逡逑<邋0.628逡逑0.626邐N.逡逑0.624邐,逡逑0.622逡逑0邐0.5邐1邐1.5邐2邐2.5邐3邐3.5邐4逡逑V逡逑圖3-3邋丫對(duì)SPDDN算法的AUC的影響(電商業(yè)務(wù)營(yíng)銷ex據(jù))逡逑23逡逑
近鄰的標(biāo)簽來判斷數(shù)據(jù)樣本所屬的標(biāo)簽!危蔚乃惴ㄔ頌椋和ㄟ^在訓(xùn)練集中逡逑尋找A個(gè)最近的數(shù)據(jù)樣本,然后對(duì)A個(gè)近鄰的類別標(biāo)簽進(jìn)行投票,按照少數(shù)服從逡逑多數(shù)的原則得出最后的投票結(jié)果作為數(shù)據(jù)樣本最后的分類結(jié)果,如圖4-1[541。逡逑訓(xùn)練集.‘逡逑,/邋廔測(cè).逡逑'、、■逡逑'、、、、、…一,’逡逑圖4-1々NN鄰分類算法原理圖逡逑由r邋々NN方法fe要靠近鄰的數(shù)據(jù)樣本,而+是靠判別類域的方法來確定所逡逑屬類別,因此在數(shù)據(jù)集的類域交叉或重疊較多的怙況K,邋ANN方法往往更為適逡逑八逡逑a邋0逡逑々NN算法在特征空N中尋找鄰居的度m濘式包枯距離度和相似度度量,逡逑距離度量用于衡最樣本在特征空間種存在的差異,如糶樣本之間的距離越遠(yuǎn)則說逡逑明樣本之間焌差異越大。相似度度
本文編號(hào):2762604
本文鏈接:http://sikaile.net/guanlilunwen/yingxiaoguanlilunwen/2762604.html
最近更新
教材專著