數據預處理方法在移動通信企業(yè)的應用研究
發(fā)布時間:2024-05-24 22:23
現實世界的數據往往是不完整,不一致和有噪音的,致使我們在進行數據挖掘之前必須進行一定的數據預處理工作。數據預處理的主要內容包括:數據清洗、數據集成、數據變換和數據規(guī)約。本文是在系統(tǒng)分析總結數據預處理各種方法的前提下,針對某移動通信公司離網用戶數據共有70多張表,400多個屬性,最高缺失率為28.3%,含記錄最多的表有200多萬條的特點,選用了數據預處理中的10余種方法對數據進行預處理的過程。 本文的主要工作如下: (1)文中首先提出了數據質量問題的概念,并對各種數據質量問題對應的數據預處理方法進行了總結。 (2)針對28.3%的數據缺失情況,放棄簡單刪除的傳統(tǒng)做法。提出采用數據插補方法,并對各類數據插補方法進行對比分析,最終選取多重插補算法。由于應用插補的數據有683715條,屬于大規(guī)模數據,為了保證插補效果,我們先通過小樣本實驗的方法,在比較插補效果后,確定了最佳插補次數,最終完成插補過程。得到了完整的并且近似真實的數據集。 (3)通過多重插補、屬性子集選擇、屬性集成、屬性構造、離散化數據、規(guī)范化數據、數據抽樣等方法后,將得到的數據代入數據挖掘模型中,所獲取的信息得到了項目方的充分肯...
【文章頁數】:59 頁
【學位級別】:碩士
【部分圖文】:
本文編號:3981309
【文章頁數】:59 頁
【學位級別】:碩士
【部分圖文】:
圖1-1論文組織結構圖
出狀織結構第的第第四章數據預處理方法在移動通數據預處理方法理論基礎
圖2-5聚類
[10]。通過函數來擬合數據,函數多為回歸函數。回性回歸。線性回歸通過擬合兩個屬性間的最佳線來(可擴展到多個屬性)。[10]。聚類是將處理對象的集合分組為多個由相似對到一組由數據對象組成的集合,即簇。如果有對象需要先驗知識,即可直接形成簇并對簇進行描述。
圖2-9數據立方體在數據挖掘中的挖掘主題可能只跟數據集中的部分屬性有關,而數據集中
圖2-9數據立方體挖掘主題可能只跟數據集中的部分屬性有關,而屬性子集選擇即維規(guī)約,是從目標數據集中選擇集,這一數據集的分布接近原分布。它減少了數式更易于理解。方法包括以下技術,如2-10圖。圖2-10屬性子集選擇選擇[10,24]。這是在屬性子集選擇中使用較多的一
圖4-4插補模式選擇腳的目才大;五汞十廷如
定義分組變量,根據變量將數據集分成若干組分別進行語句定義VAR語句中的分類變量。分類變量既可以是型變量。OCMI<選項>;BY變量名或變量列表;CLASS變量名或變量列表;EM<選項>;FREQ變量名;MCMC<選項>;MCMC<選項>;MONOTONE<選....
本文編號:3981309
本文鏈接:http://sikaile.net/jingjilunwen/xxjj/3981309.html