天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

海量非平衡多分類數(shù)據(jù)的統(tǒng)計分析

發(fā)布時間:2017-06-25 00:01

  本文關(guān)鍵詞:海量非平衡多分類數(shù)據(jù)的統(tǒng)計分析,由筆耕文化傳播整理發(fā)布。


【摘要】:近年來,伴隨著信息技術(shù)與互聯(lián)網(wǎng)的飛速發(fā)展,人類進入了大數(shù)據(jù)時代。大容量數(shù)據(jù)的分析給傳統(tǒng)的統(tǒng)計方法和計算帶來了挑戰(zhàn)。當數(shù)據(jù)量過大時,傳統(tǒng)的統(tǒng)計估計方法難以在普通的計算機上得以實現(xiàn),例如數(shù)據(jù)量超出內(nèi)存或無法在可容忍的時間內(nèi)得到計算結(jié)果,這些障礙極大地限制了高級統(tǒng)計技術(shù)的應(yīng)用。應(yīng)對海量數(shù)據(jù)分析的挑戰(zhàn),業(yè)界主要通過在大型計算機集群上布置Hadoop或Spark等分布式處理系統(tǒng),然后基于MapReduce算法實現(xiàn)并行計算,這種方式對普通用戶來說代價昂貴;另一個途徑是子抽樣方法,即用一個合理抽取的較小規(guī)模的子樣本來代替海量的全部數(shù)據(jù)進行分析,從而達到節(jié)約計算成本的目的。在分類問題里,當數(shù)據(jù)呈現(xiàn)非平衡特性時,這種抽樣是一個具有挑戰(zhàn)性的問題,通常的均勻隨機抽樣方法存在嚴重的問題,這是由于類別之間的嚴重的分布不平衡,均勻抽出的子樣本里只含極少量的少數(shù)類別樣本,甚至可能根本就缺少某些類別的樣本,對于這樣得到的子樣本,直接應(yīng)用通常的分類算法都將不再有效。本文研究了對海量非平衡多分類數(shù)據(jù)以及多項Logistic回歸模型的有效子抽樣策略,我們證明了此時同樣需要根據(jù)抽樣概率比對截距項參數(shù)進行糾偏,我們給出了糾偏公式并利用統(tǒng)計數(shù)值模擬研究了子抽樣策略的有效性。我們的主要工作如下:1.針對非平衡分類數(shù)據(jù)的多項回歸模型,提出了一種基于Case-Control的子抽樣方法,并給出了估計糾偏的公式。我們應(yīng)用統(tǒng)計數(shù)值模擬比較了新方法與通常的均勻隨機抽樣方法的效果。2.針對超多分類的非平衡數(shù)據(jù)下的多項回歸模型,提出了一種結(jié)合Case-Control抽樣并將多項回歸化為多個二項回歸模型進行估計得新方法,并應(yīng)用隨機模擬方法研究了其針對海量數(shù)據(jù)和超多分類場合的有效性。3.通過統(tǒng)計模擬研究了多種抽樣方法下估計的有效性,并比較了子抽樣相對全樣本下的效率損失。
【關(guān)鍵詞】:非平衡數(shù)據(jù) Logistic回歸 子抽樣 多分類
【學(xué)位授予單位】:深圳大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:O212;C81
【目錄】:
  • 摘要4-5
  • Abstract5-8
  • 第1章 導(dǎo)引8-12
  • 1.1 研究背景8-9
  • 1.2 分類與非平衡數(shù)據(jù)9-11
  • 1.3 研究內(nèi)容與意義11
  • 1.4 論文結(jié)構(gòu)11-12
  • 第2章 多分類數(shù)據(jù)的均衡抽樣12-21
  • 2.1 二項Logistic回歸模型簡介12-14
  • 2.2 多項回歸模型簡介14-16
  • 2.3 多項回歸模型的均衡抽樣策略與估計16-18
  • 2.4 計算模擬18-21
  • 第3章 超多分類數(shù)據(jù)的子抽樣策略與快速估計方法21-29
  • 3.1 超多類別數(shù)據(jù)的子抽樣策略與估計方法21-22
  • 3.2 計算模擬22-29
  • 第4章 總結(jié)29-30
  • 4.1 本文結(jié)論29
  • 4.2 不足之處29-30
  • 參考 文獻30-32
  • 致謝32-33

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前1條

1 楊明;尹軍梅;吉根林;;不平衡數(shù)據(jù)分類方法綜述[J];南京師范大學(xué)學(xué)報(工程技術(shù)版);2008年04期


  本文關(guān)鍵詞:海量非平衡多分類數(shù)據(jù)的統(tǒng)計分析,由筆耕文化傳播整理發(fā)布。

,

本文編號:479966

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shekelunwen/shgj/479966.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶26bba***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com