天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

微博會員流失預測

發(fā)布時間:2020-09-29 06:30
   隨著互聯(lián)網技術的高速發(fā)展,中國已經進入到互聯(lián)網時代,各個互聯(lián)網公司、企業(yè)已經積累了TB級甚至PB級的用戶數(shù)據(jù),這些數(shù)據(jù)作為互聯(lián)網公司的巨大財富,加以利用,可以給公司有效節(jié)約成本、增加收入。因此如何挖掘出隱藏在數(shù)據(jù)中的某種規(guī)律,顯得十分重要。數(shù)據(jù)挖掘技術是是通過數(shù)學模型方法對數(shù)據(jù)進行擬合,利用計算機技術去實現(xiàn)模型,最后反饋到業(yè)務實施建議上的技術。在客戶流失預測方面,有很多數(shù)據(jù)挖掘的分類算法可以有用武之地。本文針對國內社交平臺新浪微博的會員數(shù)據(jù),利用數(shù)據(jù)挖掘中的分類預測算法,對會員流失進行預測;2015年4月2日至8日會員身份即將到期的26171位微博會員用戶的數(shù)據(jù),首先利用k-means聚類,選用用戶屬性和主動行為數(shù)據(jù)作為特征,對用戶進行細分,找出了價值較高的用戶群體。對于本文的不平衡樣本集,對樣本量較少的類別采用有放回重復抽樣的方法。然后選用70%的樣本作為訓練集,利用邏輯回歸、決策樹C5.0、神經網絡分類預測模型,對會員是否流失做出預測,其中邏輯回歸在ROC曲線和提升圖上均表現(xiàn)地比決策樹C5.0要好。之后引入代價敏感學習,對于將流失用戶預測為非流失會員用戶加大了代價,改進決策樹C5.0,預測出了流失用戶名單,用于企業(yè)挽留措施的目標群體。
【學位單位】:北京理工大學
【學位級別】:碩士
【學位年份】:2017
【中圖分類】:C81
【部分圖文】:

曲線,曲線,因變量,連接函數(shù)


因變量一般是連續(xù)變量,那么當因變量是二?logistic 回歸就是這樣一個分類模型。性模型,一般不能應用于分類問題上,二分設函數(shù)表達式為 ( ) = 數(shù)。值也是在( )范圍上的。那么怎么才能連接函數(shù),稱為 logistic 函數(shù),因其函數(shù)圖像tic 函數(shù)的表達式為: ( ) =

空值,數(shù)據(jù)質量,對相,短信


北京理工大學碩士學位論文續(xù)表 3.5變量名 變量類型 變量說明 變量取值累計使用特權種類 離散 累計使用特權的種類 0~4短信特別關注人數(shù) 連續(xù) 短信特別關注人數(shù) 0~18是否使用短信特別關注 連續(xù) 短信特別關注人數(shù)不為 0 為使用,1 為使用 0,13.3 數(shù)據(jù)清洗從業(yè)務部門獲得的數(shù)據(jù)往往是一些臟數(shù)據(jù),對于建模還需對離群值、缺失值、極值等等進行處理才能達到建模要求的數(shù)據(jù)質量和形式。對于 26171 個會員數(shù)據(jù),先來看看數(shù)據(jù)質量如何,spss modeler 里添加數(shù)據(jù)審核,得到完整字段的比例為 76.36%,完整記錄的比例為 68.95%。以三個標準差為離群值的話,有很多離群值和極值,且有很多缺失空值。

餅圖,樣本分布,餅圖


圖 3.2 樣本分布餅圖大部分樣本均為流失會員用戶,是一個不平衡樣本,這樣的樣本在采用欠抽樣或者過抽樣來減少樣本量差異對結果的影響。用戶的其他變量,可按照連續(xù)變量和離散變量來分析。續(xù)性變量的探索性分析大部分的變量均屬于連續(xù)型變量,如用戶的發(fā)博數(shù)、轉發(fā)數(shù)、評論可以先看一下這些會員的登陸情況,這樣可以反映他們上微博的活更好的直觀效果,30 天前的登陸天數(shù)每 5 天歸為一個登陸區(qū)間,

【參考文獻】

相關期刊論文 前5條

1 羅彬;邵培基;羅盡堯;劉獨玉;夏國恩;;基于多分類器動態(tài)集成的電信客戶流失預測[J];系統(tǒng)工程學報;2010年05期

2 肖進;賀昌政;;基于動態(tài)分類器集成的客戶流失預測模型研究[J];預測;2010年05期

3 夏國恩;;基于核主成分分析特征提取的客戶流失預測[J];計算機應用;2008年01期

4 應維云;覃正;趙宇;李兵;李秀;;SVM方法及其在客戶流失預測中的應用研究[J];系統(tǒng)工程理論與實踐;2007年07期

5 葉進,程澤凱,林士敏;基于貝葉斯網絡的電信客戶流失預測分析[J];計算機工程與應用;2005年14期

相關碩士學位論文 前5條

1 趙冬偉;基于數(shù)據(jù)挖掘的客戶流失預測研究[D];湘潭大學;2012年

2 劉孝會;基于決策樹算法的IT行業(yè)客戶流失預測技術研究[D];江西理工大學;2011年

3 司學峰;基于數(shù)據(jù)挖掘的客戶流失預測實證研究[D];北京工業(yè)大學;2009年

4 羅巧玲;面向客戶流失預測的關聯(lián)規(guī)則挖掘算法應用研究[D];河北工業(yè)大學;2007年

5 程程;商業(yè)銀行高端個人客戶流失預測[D];清華大學;2007年



本文編號:2829366

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/2829366.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶daaca***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com