天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

手機APP虛假用戶識別的統(tǒng)計機器學習方法研究

發(fā)布時間:2021-04-26 19:16
  隨著中國網(wǎng)民數(shù)量的急劇增多,尤其是手機網(wǎng)民數(shù)量,增長速度更快,所以手機APP的開發(fā)前景尤為可觀.并且手機APP中攜帶的移動服務已經成為人們日常生活不可或缺的一部分.相應地,企業(yè)為了推廣手機APP,就會使用許多虛假用戶來刷榜單排名,而真實用戶變得少之又少,這就造成手機用戶數(shù)據(jù)分布不平衡的問題.此外,對企業(yè)而言,就很難辨別手機APP的真實用戶;對用戶而言,在下載相關APP時就會受應用商店的榜單排名以及下載量的影響,很難下載到合適的APP.本文主要是通過統(tǒng)計機器學習方法對手機APP用戶真實性進行預測分類,使得用戶和企業(yè)避免造成不必要的損失.關于數(shù)據(jù)不平衡問題的處理方法一般分為兩個步驟:第一步是數(shù)據(jù)劃分,主要方法是過采樣、欠采樣等;第二步是模型方法,主要有神經網(wǎng)絡、隨機森林和支持向量機等.本文先是對各個變量進行數(shù)據(jù)可視化分析,分析各個變量與用戶真實性的關系.然后是基于交叉驗證和欠采樣的隨機森林和支持向量機建模方法進行預測用戶真實性.結果表明:分類預測準確率都達到95%以上,小樣本準確率也都高達85%以上.對比模型結果可以發(fā)現(xiàn),基于欠采樣的隨機森林模型更適合本文數(shù)據(jù),此模型的預測效果較好且模型穩(wěn)... 

【文章來源】:黑龍江大學黑龍江省

【文章頁數(shù)】:48 頁

【學位級別】:碩士

【文章目錄】:
中文摘要
Abstract
第1章 緒論
    1.1 本文研究背景及意義
    1.2 國內外研究現(xiàn)狀
    1.3 本文的工作及結構安排
        1.3.1 本文工作
        1.3.2 本文結構安排
    1.4 本章小結
第2章 預備知識
    2.1 類別不平衡問題
        2.1.1 類別不平衡問題及解決方法
        2.1.2 不平衡數(shù)據(jù)評價準則
    2.2 隨機森林
        2.2.1 決策樹
        2.2.2 隨機森林模型
    2.3 支持向量機
        2.3.1 支持向量
        2.3.2 核函數(shù)
    2.4 本章小結
第3章 手機APP用戶數(shù)據(jù)可視化分析
    3.1 用戶行為變量
    3.2 開始方式
    3.3 網(wǎng)頁操作數(shù)
    3.4 訪問時長
    3.5 本章小結
第4章 支持向量機和隨機森林對用戶真實性進行分類預測
    4.1 隨機森林對用戶真實性進行分類預測
        4.1.1 基于交叉驗證的隨機森林模型
        4.1.2 基于欠采樣方法的隨機森林模型
    4.2 支持向量機對用戶真實性進行分類預測
        4.2.1 基于交叉驗證的支持向量機模型
        4.2.2 基于欠采樣方法的支持向量機模型
    4.3 支持向量機與隨機森林預測結果比較
    4.4 本章小結
結論
參考文獻
致謝


【參考文獻】:
期刊論文
[1]淺談大數(shù)據(jù)可視化[J]. 倪彬彬.  福建電腦. 2018(11)
[2]AceMap學術地圖與AceKG學術知識圖譜——學術數(shù)據(jù)可視化[J]. 張曄,賈雨葶,傅洛伊,王新兵.  上海交通大學學報. 2018(10)
[3]大數(shù)據(jù)時代資訊類App的發(fā)展現(xiàn)狀、問題和改進策略——以今日頭條為例[J]. 張琳,史靖鈺,王心怡.  新媒體研究. 2018(18)
[4]針對不平衡數(shù)據(jù)的決策樹改進方法[J]. 王偉,謝耀濱,尹青.  計算機應用. 2019(03)
[5]移動APP開發(fā)模式及用戶使用影響因素研究[J]. 黃聲勇.  信息與電腦(理論版). 2018(18)
[6]金融高頻數(shù)據(jù)跳躍波動研究——基于大數(shù)據(jù)核函數(shù)支持向量機的方法[J]. 柳向東,李文健.  統(tǒng)計與信息論壇. 2018(09)
[7]基于支持向量機分類預測的上市公司債信用評級研究[J]. 徐閃賞.  金融管理研究. 2018(02)
[8]社交網(wǎng)絡異常用戶識別技術綜述[J]. 仲麗君,楊文忠,袁婷婷,向進勇.  計算機工程與應用. 2018(16)
[9]不平衡數(shù)據(jù)分類研究綜述[J]. 趙楠,張小芳,張利軍.  計算機科學. 2018(S1)
[10]基于主動學習不平衡多分類AdaBoost算法的心臟病分類[J]. 王莉莉,付忠良,陶攀,胡鑫.  計算機應用. 2017(07)

博士論文
[1]關于非平衡數(shù)據(jù)特征問題的研究[D]. 尹留志.中國科學技術大學 2014
[2]不均衡數(shù)據(jù)分類方法的研究[D]. 曹鵬.東北大學 2014

碩士論文
[1]基于模型融合的平臺虛假用戶識別研究[D]. 王偉華.廣東工業(yè)大學 2018
[2]不平衡數(shù)據(jù)分類方法研究[D]. 孫寬宏.西安電子科技大學 2015
[3]面向不平衡數(shù)據(jù)分類問題的核邏輯回歸算法的設計與實現(xiàn)[D]. 王鵬.西安電子科技大學 2015
[4]C2C電子商務中虛假評價用戶的識別方法研究[D]. 許敏.南京師范大學 2014
[5]基于隨機森林的不平衡數(shù)據(jù)分類方法研究[D]. 肖堅.哈爾濱工業(yè)大學 2013
[6]支持向量機建模方法的研究[D]. 董鋼.東北大學 2008



本文編號:3161968

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3161968.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶08f98***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com