基于Stacking模型融合的電信客戶信用度模型研究與設(shè)計(jì)
發(fā)布時(shí)間:2020-05-15 08:31
【摘要】:近幾年來(lái),隨著移動(dòng)設(shè)備的普及以及通信行業(yè)的不斷發(fā)展,電信客戶的需求變得越來(lái)越精細(xì)以及復(fù)雜。目前,電信運(yùn)營(yíng)商的數(shù)據(jù)庫(kù)中存在大量的用戶信息記錄,然而這些數(shù)據(jù)信息數(shù)量龐大且種類復(fù)雜,通過(guò)人工分析的方法不能很好的處理并利用其中的有效數(shù)據(jù),沒(méi)有發(fā)揮到數(shù)據(jù)庫(kù)中有效數(shù)據(jù)應(yīng)有的數(shù)據(jù)價(jià)值。通過(guò)本文的工作研究,電信運(yùn)營(yíng)商可以初始化用戶的信用度等級(jí),建立起信用度體系,減少用戶信用度研究工作的開(kāi)銷,提升電信運(yùn)營(yíng)商的品牌形象及利潤(rùn)。本文的工作成果及研究成果如下:1.對(duì)電信行業(yè)數(shù)據(jù)庫(kù)中的大量數(shù)據(jù)進(jìn)行處理電信行業(yè)提供的數(shù)據(jù)庫(kù)數(shù)據(jù)表格數(shù)目十分龐大,約一千張左右數(shù)據(jù)庫(kù)表。首先,通過(guò)用戶身份識(shí)別碼對(duì)有效表格進(jìn)行選擇且合并。然后,對(duì)數(shù)據(jù)缺失的行進(jìn)行默認(rèn)值補(bǔ)充或數(shù)據(jù)刪除,同時(shí)使自然語(yǔ)言特征轉(zhuǎn)換為可用于分類的數(shù)值標(biāo)簽。此外,對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,根據(jù)特征值的貢獻(xiàn)度篩選出模型使用的特征值。最后,通過(guò)基于難例挖掘的思路進(jìn)行訓(xùn)練樣本選擇。2.構(gòu)建了基于Stacking模型融合的電信用戶信用度模型將隨機(jī)森林、梯度提升樹及有向無(wú)環(huán)圖SVM作為次級(jí)分類器,對(duì)樣本進(jìn)行分類。然后,通過(guò)Stacking方法,將三個(gè)次級(jí)分類器的預(yù)測(cè)結(jié)果轉(zhuǎn)換為元特征向量,用于構(gòu)造元分類器。最后,獲得上述三種算法進(jìn)行模型融合后的融合分類算法,構(gòu)成完整的電信用戶信用度模型,用于評(píng)估用戶初始信用度。3.對(duì)模型效果進(jìn)行評(píng)估模型構(gòu)建完成后,將其與其他集成學(xué)習(xí)方法進(jìn)行分析對(duì)比。除此以外,模型還會(huì)與投票法、權(quán)重法等模型融合方法進(jìn)行效果對(duì)比。
【圖文】:
圖 2-1 Boosting 實(shí)現(xiàn)流程Boosting 的實(shí)現(xiàn)偽代碼如圖 2-2 所示。輸入:數(shù)據(jù)集 = (X1y1) (X2y2) … (X y )弱分類器 1… 強(qiáng)分類器 .過(guò)程:for t = 1 … = ( ) % 將原始數(shù)據(jù)輸入到弱分類器中end ′= % 創(chuàng)建新的數(shù)據(jù)集for i = 1 … for t = 1 … z = ( ) % 使用 ht 取區(qū)分訓(xùn)練樣本 Xiend ′= ′∪ ((z1z2… z ) y )end′ = ( ′) % 將新的數(shù)據(jù)集 D’用強(qiáng)分類器進(jìn)行訓(xùn)練輸出: ( ) = ′(1( ) … ( ))
第二章 相關(guān)理論介紹較低的權(quán)重比例,整個(gè)訓(xùn)練過(guò)程不斷迭代下去,直到對(duì)所有訓(xùn)練樣本的訓(xùn)練過(guò)程完成;3. 最后,將所有訓(xùn)練獲得的弱分類器進(jìn)行融合,,形成一個(gè)強(qiáng)分類器。對(duì)于誤差率較小的弱分類器,加大其融合的權(quán)重比例;對(duì)于誤差率較大的弱分類器,降低其融合的權(quán)重比例,使得精確率較高的弱分類器在強(qiáng)分類器中起較大的決定作用。2.4.2 Bagging 算法Bagging 方法是一種對(duì)訓(xùn)練集進(jìn)行有放回采樣的方法,通過(guò)對(duì)原數(shù)據(jù)進(jìn)行有放回的采樣且建立子模型,整個(gè)過(guò)程重復(fù)多次,最后對(duì)子模型進(jìn)行融合,如圖 2-3 所示。其中,隨機(jī)森林就是其中基于 Bagging 算法的一個(gè)典型方法。
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP311.13;F626;F274
本文編號(hào):2664752
【圖文】:
圖 2-1 Boosting 實(shí)現(xiàn)流程Boosting 的實(shí)現(xiàn)偽代碼如圖 2-2 所示。輸入:數(shù)據(jù)集 = (X1y1) (X2y2) … (X y )弱分類器 1… 強(qiáng)分類器 .過(guò)程:for t = 1 … = ( ) % 將原始數(shù)據(jù)輸入到弱分類器中end ′= % 創(chuàng)建新的數(shù)據(jù)集for i = 1 … for t = 1 … z = ( ) % 使用 ht 取區(qū)分訓(xùn)練樣本 Xiend ′= ′∪ ((z1z2… z ) y )end′ = ( ′) % 將新的數(shù)據(jù)集 D’用強(qiáng)分類器進(jìn)行訓(xùn)練輸出: ( ) = ′(1( ) … ( ))
第二章 相關(guān)理論介紹較低的權(quán)重比例,整個(gè)訓(xùn)練過(guò)程不斷迭代下去,直到對(duì)所有訓(xùn)練樣本的訓(xùn)練過(guò)程完成;3. 最后,將所有訓(xùn)練獲得的弱分類器進(jìn)行融合,,形成一個(gè)強(qiáng)分類器。對(duì)于誤差率較小的弱分類器,加大其融合的權(quán)重比例;對(duì)于誤差率較大的弱分類器,降低其融合的權(quán)重比例,使得精確率較高的弱分類器在強(qiáng)分類器中起較大的決定作用。2.4.2 Bagging 算法Bagging 方法是一種對(duì)訓(xùn)練集進(jìn)行有放回采樣的方法,通過(guò)對(duì)原數(shù)據(jù)進(jìn)行有放回的采樣且建立子模型,整個(gè)過(guò)程重復(fù)多次,最后對(duì)子模型進(jìn)行融合,如圖 2-3 所示。其中,隨機(jī)森林就是其中基于 Bagging 算法的一個(gè)典型方法。
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP311.13;F626;F274
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前4條
1 武麗英;;基于數(shù)據(jù)挖掘技術(shù)的客戶價(jià)值評(píng)估模型的構(gòu)建與應(yīng)用[J];電子技術(shù)與軟件工程;2014年15期
2 周麗媛;劉營(yíng);;數(shù)據(jù)挖掘決策樹分類算法在移動(dòng)通信業(yè)的應(yīng)用[J];經(jīng)營(yíng)管理者;2011年20期
3 陳峰;;基于決策樹和相異度算法的移動(dòng)通信客戶分類方法[J];計(jì)算機(jī)應(yīng)用;2009年08期
4 趙興華;李杰;王云峰;;數(shù)據(jù)挖掘在電信中的應(yīng)用分析[J];科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì);2007年12期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 隆曼;基于數(shù)據(jù)挖掘的電信行業(yè)客戶流失管理研究[D];西南財(cái)經(jīng)大學(xué);2013年
本文編號(hào):2664752
本文鏈接:http://sikaile.net/guanlilunwen/sjfx/2664752.html
最近更新
教材專著