基于改進的Pareto/NBD模型預測博客用戶在線行為
發(fā)布時間:2021-06-27 11:43
博客用戶在線行為分為發(fā)文行為和流失行為。由于這兩種行為分別與交易過程中客戶的購買行為和流失行為具有相似性,選擇借鑒客戶基分析中的Pareto/NBD模型進行預測?紤]到用戶間交互性對博客用戶在線行為具有重要影響,通過比例風險模型向經典的Pareto/NBD模型中加入體現用戶間交互性的協變量。Pareto/NBD模型經過改進,實現了對博客用戶在線行為的預測。實證研究以用戶博客空間中的總評論量和總瀏覽量作為協變量。數據分析結果顯示,當使用總評論量作為影響流失行為的協變量時,改進模型的預測精度顯著提高。進一步分析還發(fā)現,總評論量對博客用戶"存活"時長的正向激勵存在著閾值。
【文章來源】:統(tǒng)計與信息論壇. 2013,28(06)CSSCI
【文章頁數】:7 頁
【部分圖文】:
圖1累計發(fā)文次數比較圖原模型在驗證期高估累計發(fā)文次數的根本原因
。建模期內具有相同發(fā)文次數的用戶的平均活躍度見圖3所示。鑒于非契約中企業(yè)無法察覺到客戶何時流失,因此本研究將兩種模型的預測值與經驗值進行對比。根據經驗判斷用戶是否流失的具體方法是,若該用戶在驗證期中沒有出現發(fā)文行為,則認為該用戶已經流失。就總體趨勢而言,活躍度隨著用戶發(fā)文次數的增多而增大。改進前后模型的預測值差別不大,在大多數發(fā)文次數的取值點上,這些預測值與經驗值相吻合。部分取值點上活躍度被低估的主要原因是具有較高發(fā)文次數用戶的樣本量較少,增大了隨機誤差出現的可能性。圖2每天發(fā)文次數比較圖圖3用戶活躍度比較圖仔細觀察兩種模型的預測值可以發(fā)現,加入協變量后的模型顯著提高了發(fā)文次數為零的用戶的活躍度的預測效果(原模型的預測值高估了107.87%,改進后模型預測值僅低估了15.80%)。由于發(fā)文次數為零用戶的數量占到樣本總數的60.7%,因此提高該取值點上的預測效果將顯著提高整個樣本客戶基規(guī)模的預測效果。建模期內具有相同發(fā)文次數的用戶在驗證期內發(fā)文次數的平均值見圖4所示。改進前后的模型對實際數值都有較好的擬合度。但對發(fā)文次數為“13+”的用戶而言,原模型明顯高估了他們的條件期望值(高估了61.06%),而加入協變量后的模型預測值將高估比例下降到13.58%。通過對上述四項預測值的分析可發(fā)現,使用Pareto/NBD模型對博客網站中的客戶基進行分析取得了不錯的效果,但各項預測值仍存在一些不足之處。將觀察期末個體用戶博客空間中的總評論數作為協變量加入原模型之后,原模型預測值中的不足之處均得到較為顯著的改進,由此可認為,用戶間交互性確實對博客用戶在線行為產生了顯著
具有較高發(fā)文次數用戶的樣本量較少,增大了隨機誤差出現的可能性。圖2每天發(fā)文次數比較圖圖3用戶活躍度比較圖仔細觀察兩種模型的預測值可以發(fā)現,加入協變量后的模型顯著提高了發(fā)文次數為零的用戶的活躍度的預測效果(原模型的預測值高估了107.87%,改進后模型預測值僅低估了15.80%)。由于發(fā)文次數為零用戶的數量占到樣本總數的60.7%,因此提高該取值點上的預測效果將顯著提高整個樣本客戶基規(guī)模的預測效果。建模期內具有相同發(fā)文次數的用戶在驗證期內發(fā)文次數的平均值見圖4所示。改進前后的模型對實際數值都有較好的擬合度。但對發(fā)文次數為“13+”的用戶而言,原模型明顯高估了他們的條件期望值(高估了61.06%),而加入協變量后的模型預測值將高估比例下降到13.58%。通過對上述四項預測值的分析可發(fā)現,使用Pareto/NBD模型對博客網站中的客戶基進行分析取得了不錯的效果,但各項預測值仍存在一些不足之處。將觀察期末個體用戶博客空間中的總評論數作為協變量加入原模型之后,原模型預測值中的不足之處均得到較為顯著的改進,由此可認為,用戶間交互性確實對博客用戶在線行為產生了顯著影響。圖4發(fā)文次數的條件期望比較圖四、討論根據經驗判斷,若某一用戶博客空間內總評論數越多,則表明該用戶與博客網站中其他用戶的交互頻率越高。此時,博客網站具有更強的粘性,該用戶將“存活”更長的時間。接下來,本研究從群體層面出發(fā),定量分析總評論數對流失行為造成的影響。在加入協變量后的模型中,群體用戶在τ時刻的流失概率為:f(τ|s,β0,γ,tac)=sβ0exp(-γ·t
【參考文獻】:
期刊論文
[1]Pareto/NBD模型在網絡信息失效判別分析中的探索性研究[J]. 馬費成,蘇小敏,望俊成. 情報理論與實踐. 2011(11)
[2]SMC模型在IT分銷業(yè)的實證案例研究[J]. 齊佳音,李懷祖,舒華英,秦良娟. 系統(tǒng)工程理論與實踐. 2004(03)
本文編號:3252779
【文章來源】:統(tǒng)計與信息論壇. 2013,28(06)CSSCI
【文章頁數】:7 頁
【部分圖文】:
圖1累計發(fā)文次數比較圖原模型在驗證期高估累計發(fā)文次數的根本原因
。建模期內具有相同發(fā)文次數的用戶的平均活躍度見圖3所示。鑒于非契約中企業(yè)無法察覺到客戶何時流失,因此本研究將兩種模型的預測值與經驗值進行對比。根據經驗判斷用戶是否流失的具體方法是,若該用戶在驗證期中沒有出現發(fā)文行為,則認為該用戶已經流失。就總體趨勢而言,活躍度隨著用戶發(fā)文次數的增多而增大。改進前后模型的預測值差別不大,在大多數發(fā)文次數的取值點上,這些預測值與經驗值相吻合。部分取值點上活躍度被低估的主要原因是具有較高發(fā)文次數用戶的樣本量較少,增大了隨機誤差出現的可能性。圖2每天發(fā)文次數比較圖圖3用戶活躍度比較圖仔細觀察兩種模型的預測值可以發(fā)現,加入協變量后的模型顯著提高了發(fā)文次數為零的用戶的活躍度的預測效果(原模型的預測值高估了107.87%,改進后模型預測值僅低估了15.80%)。由于發(fā)文次數為零用戶的數量占到樣本總數的60.7%,因此提高該取值點上的預測效果將顯著提高整個樣本客戶基規(guī)模的預測效果。建模期內具有相同發(fā)文次數的用戶在驗證期內發(fā)文次數的平均值見圖4所示。改進前后的模型對實際數值都有較好的擬合度。但對發(fā)文次數為“13+”的用戶而言,原模型明顯高估了他們的條件期望值(高估了61.06%),而加入協變量后的模型預測值將高估比例下降到13.58%。通過對上述四項預測值的分析可發(fā)現,使用Pareto/NBD模型對博客網站中的客戶基進行分析取得了不錯的效果,但各項預測值仍存在一些不足之處。將觀察期末個體用戶博客空間中的總評論數作為協變量加入原模型之后,原模型預測值中的不足之處均得到較為顯著的改進,由此可認為,用戶間交互性確實對博客用戶在線行為產生了顯著
具有較高發(fā)文次數用戶的樣本量較少,增大了隨機誤差出現的可能性。圖2每天發(fā)文次數比較圖圖3用戶活躍度比較圖仔細觀察兩種模型的預測值可以發(fā)現,加入協變量后的模型顯著提高了發(fā)文次數為零的用戶的活躍度的預測效果(原模型的預測值高估了107.87%,改進后模型預測值僅低估了15.80%)。由于發(fā)文次數為零用戶的數量占到樣本總數的60.7%,因此提高該取值點上的預測效果將顯著提高整個樣本客戶基規(guī)模的預測效果。建模期內具有相同發(fā)文次數的用戶在驗證期內發(fā)文次數的平均值見圖4所示。改進前后的模型對實際數值都有較好的擬合度。但對發(fā)文次數為“13+”的用戶而言,原模型明顯高估了他們的條件期望值(高估了61.06%),而加入協變量后的模型預測值將高估比例下降到13.58%。通過對上述四項預測值的分析可發(fā)現,使用Pareto/NBD模型對博客網站中的客戶基進行分析取得了不錯的效果,但各項預測值仍存在一些不足之處。將觀察期末個體用戶博客空間中的總評論數作為協變量加入原模型之后,原模型預測值中的不足之處均得到較為顯著的改進,由此可認為,用戶間交互性確實對博客用戶在線行為產生了顯著影響。圖4發(fā)文次數的條件期望比較圖四、討論根據經驗判斷,若某一用戶博客空間內總評論數越多,則表明該用戶與博客網站中其他用戶的交互頻率越高。此時,博客網站具有更強的粘性,該用戶將“存活”更長的時間。接下來,本研究從群體層面出發(fā),定量分析總評論數對流失行為造成的影響。在加入協變量后的模型中,群體用戶在τ時刻的流失概率為:f(τ|s,β0,γ,tac)=sβ0exp(-γ·t
【參考文獻】:
期刊論文
[1]Pareto/NBD模型在網絡信息失效判別分析中的探索性研究[J]. 馬費成,蘇小敏,望俊成. 情報理論與實踐. 2011(11)
[2]SMC模型在IT分銷業(yè)的實證案例研究[J]. 齊佳音,李懷祖,舒華英,秦良娟. 系統(tǒng)工程理論與實踐. 2004(03)
本文編號:3252779
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3252779.html
最近更新
教材專著