海量非平衡多分類數(shù)據(jù)的統(tǒng)計分析
發(fā)布時間:2017-06-25 00:01
本文關(guān)鍵詞:海量非平衡多分類數(shù)據(jù)的統(tǒng)計分析,由筆耕文化傳播整理發(fā)布。
【摘要】:近年來,伴隨著信息技術(shù)與互聯(lián)網(wǎng)的飛速發(fā)展,人類進入了大數(shù)據(jù)時代。大容量數(shù)據(jù)的分析給傳統(tǒng)的統(tǒng)計方法和計算帶來了挑戰(zhàn)。當數(shù)據(jù)量過大時,傳統(tǒng)的統(tǒng)計估計方法難以在普通的計算機上得以實現(xiàn),例如數(shù)據(jù)量超出內(nèi)存或無法在可容忍的時間內(nèi)得到計算結(jié)果,這些障礙極大地限制了高級統(tǒng)計技術(shù)的應(yīng)用。應(yīng)對海量數(shù)據(jù)分析的挑戰(zhàn),業(yè)界主要通過在大型計算機集群上布置Hadoop或Spark等分布式處理系統(tǒng),然后基于MapReduce算法實現(xiàn)并行計算,這種方式對普通用戶來說代價昂貴;另一個途徑是子抽樣方法,即用一個合理抽取的較小規(guī)模的子樣本來代替海量的全部數(shù)據(jù)進行分析,從而達到節(jié)約計算成本的目的。在分類問題里,當數(shù)據(jù)呈現(xiàn)非平衡特性時,這種抽樣是一個具有挑戰(zhàn)性的問題,通常的均勻隨機抽樣方法存在嚴重的問題,這是由于類別之間的嚴重的分布不平衡,均勻抽出的子樣本里只含極少量的少數(shù)類別樣本,甚至可能根本就缺少某些類別的樣本,對于這樣得到的子樣本,直接應(yīng)用通常的分類算法都將不再有效。本文研究了對海量非平衡多分類數(shù)據(jù)以及多項Logistic回歸模型的有效子抽樣策略,我們證明了此時同樣需要根據(jù)抽樣概率比對截距項參數(shù)進行糾偏,我們給出了糾偏公式并利用統(tǒng)計數(shù)值模擬研究了子抽樣策略的有效性。我們的主要工作如下:1.針對非平衡分類數(shù)據(jù)的多項回歸模型,提出了一種基于Case-Control的子抽樣方法,并給出了估計糾偏的公式。我們應(yīng)用統(tǒng)計數(shù)值模擬比較了新方法與通常的均勻隨機抽樣方法的效果。2.針對超多分類的非平衡數(shù)據(jù)下的多項回歸模型,提出了一種結(jié)合Case-Control抽樣并將多項回歸化為多個二項回歸模型進行估計得新方法,并應(yīng)用隨機模擬方法研究了其針對海量數(shù)據(jù)和超多分類場合的有效性。3.通過統(tǒng)計模擬研究了多種抽樣方法下估計的有效性,并比較了子抽樣相對全樣本下的效率損失。
【關(guān)鍵詞】:非平衡數(shù)據(jù) Logistic回歸 子抽樣 多分類
【學(xué)位授予單位】:深圳大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:O212;C81
【目錄】:
- 摘要4-5
- Abstract5-8
- 第1章 導(dǎo)引8-12
- 1.1 研究背景8-9
- 1.2 分類與非平衡數(shù)據(jù)9-11
- 1.3 研究內(nèi)容與意義11
- 1.4 論文結(jié)構(gòu)11-12
- 第2章 多分類數(shù)據(jù)的均衡抽樣12-21
- 2.1 二項Logistic回歸模型簡介12-14
- 2.2 多項回歸模型簡介14-16
- 2.3 多項回歸模型的均衡抽樣策略與估計16-18
- 2.4 計算模擬18-21
- 第3章 超多分類數(shù)據(jù)的子抽樣策略與快速估計方法21-29
- 3.1 超多類別數(shù)據(jù)的子抽樣策略與估計方法21-22
- 3.2 計算模擬22-29
- 第4章 總結(jié)29-30
- 4.1 本文結(jié)論29
- 4.2 不足之處29-30
- 參考 文獻30-32
- 致謝32-33
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 楊明;尹軍梅;吉根林;;不平衡數(shù)據(jù)分類方法綜述[J];南京師范大學(xué)學(xué)報(工程技術(shù)版);2008年04期
本文關(guān)鍵詞:海量非平衡多分類數(shù)據(jù)的統(tǒng)計分析,由筆耕文化傳播整理發(fā)布。
,本文編號:479966
本文鏈接:http://sikaile.net/shekelunwen/shgj/479966.html
最近更新
教材專著