缺失數(shù)據(jù)下的有限混合計數(shù)數(shù)據(jù)模型的統(tǒng)計推斷研究
發(fā)布時間:2017-07-19 04:16
本文關(guān)鍵詞:缺失數(shù)據(jù)下的有限混合計數(shù)數(shù)據(jù)模型的統(tǒng)計推斷研究
更多相關(guān)文章: 零膨脹 有限混合 缺失數(shù)據(jù) 隨機(jī)EM算法 模型選擇
【摘要】:計數(shù)數(shù)據(jù)(Count data)是一類十分常見的離散型數(shù)據(jù),其數(shù)值只能是0,1,2,…等非負(fù)整數(shù),它所描述的是單位時間或空間內(nèi)某事件出現(xiàn)的頻數(shù)。如不合格品數(shù)、缺陷數(shù)、交通事故數(shù)、醫(yī)院掛號數(shù)和森林火災(zāi)數(shù)等不能連續(xù)取值只能用自然數(shù)來表示的一類數(shù)據(jù),這類數(shù)據(jù)就被稱為計數(shù)數(shù)據(jù)。它廣泛存在于金融保險、生物醫(yī)學(xué)、遺傳學(xué)、臨床診斷以及心理學(xué)等多個研究領(lǐng)域中。正是因為事件數(shù)的特殊取值,所以對于計數(shù)數(shù)據(jù)的研究,最常見的是使用Poisson模型或負(fù)二項分布模型來進(jìn)行回歸分析。Poisson回歸模型是計數(shù)數(shù)據(jù)分析的基本模型,被廣泛的應(yīng)用到不同領(lǐng)域的研究中,是以事件發(fā)生相互獨(dú)立為前提,發(fā)生率保持一致性,即要求先前發(fā)生的事件對以后事件的發(fā)生沒有影響,且條件均值等于條件方差,這一假設(shè)在實際應(yīng)用中往往得不到滿足,而負(fù)二項回歸就是在這種情況下對Poisson回歸的一種擴(kuò)展。然而在現(xiàn)實情境中,所研究的計數(shù)數(shù)據(jù)往往會出現(xiàn)較大的變異——方差的變化大于其均值的變化,則稱這類計數(shù)數(shù)據(jù)是散度偏大的(over-dispersion)。導(dǎo)致計數(shù)數(shù)據(jù)出現(xiàn)散度偏大的原因有很多,可能是計數(shù)數(shù)據(jù)中包含了過多的零觀測,當(dāng)零觀測的比例遠(yuǎn)遠(yuǎn)超過Poisson回歸或負(fù)二項回歸的預(yù)測能力時,就會表現(xiàn)出零膨脹現(xiàn)象(zero-inflated)。如果仍然采用Poisson回歸或負(fù)二項回歸分析計數(shù)數(shù)據(jù),就有可能得到錯誤的推斷結(jié)果。除了零膨脹的原因外,也有可能是因為觀測數(shù)據(jù)存在缺失的影響,缺失數(shù)據(jù)不僅會導(dǎo)致統(tǒng)計推斷中估計量出現(xiàn)偏差,還會導(dǎo)致估計方差的增大。還有可能是因為總體來源的“異質(zhì)性”以及上述因素的綜合作用等。根據(jù)不同的原因建立不同的模型,使得對數(shù)據(jù)的分析變得復(fù)雜,如果不能對其進(jìn)行合理的解釋,可能會導(dǎo)致有偏差的統(tǒng)計推斷。本文在上述背景下研究了計數(shù)數(shù)據(jù)模型的統(tǒng)計推斷,并進(jìn)一步提出了帶有缺失數(shù)據(jù)的Poisson-Hurdle有限混合模型,對模型參數(shù)和混合比例的極大似然估計提出了隨機(jī)EM算法。具體來說,缺失數(shù)據(jù)重點(diǎn)考慮了隨機(jī)缺失(MAR)和非隨機(jī)缺失(MNAR),為了加速收斂以及方便抽樣,采用了基于數(shù)據(jù)添加的probit回歸建立起缺失數(shù)據(jù)模型。對于有限混合的參數(shù)估計而言,傳統(tǒng)的EM算法常常會收斂到局部極大而非全局極大上,為了解決這一難題,本文提出了一類有效的隨機(jī)EM算法,事實上,該算法可以視為多重插補(bǔ)程序的一部分,在實際應(yīng)用中,該算法由于隨機(jī)步的驅(qū)動,能夠有效避免落入局部極大的陷阱而成功找到全局極大。在模型選擇方面,本文采用了基于Q函數(shù)的BIC信息準(zhǔn)則以選擇混合成份的個數(shù)。我們的模型是建立在廣義模型框架下,捕獲了計數(shù)數(shù)據(jù)分析的重要特征,如零膨脹或零聚集、異質(zhì)性、缺失等,在數(shù)據(jù)特征上提供給我們更多的見解,允許更全面和更正確地研究散度,為合理研究計數(shù)數(shù)據(jù)提供了技術(shù)上的參考。文章的最后用模擬研究和實例說明我們方法的實用性和有效性。
【關(guān)鍵詞】:零膨脹 有限混合 缺失數(shù)據(jù) 隨機(jī)EM算法 模型選擇
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:C81
【目錄】:
- 摘要5-7
- Abstract7-11
- 第一章 緒論11-19
- 1.1 研究背景11-13
- 1.2 缺失數(shù)據(jù)13-14
- 1.3 有限混合模型概述14-16
- 1.4 EM算法介紹16-17
- 1.5 本文的主要工作17-19
- 第二章 零膨脹計數(shù)數(shù)據(jù)模型19-27
- 2.1 計數(shù)數(shù)據(jù)模型19-22
- 2.1.1 二項分布20
- 2.1.2 Poisson分布20-21
- 2.1.3 負(fù)二項分布21-22
- 2.2 零膨脹模型22-25
- 2.2.1 ZIP模型22-23
- 2.2.2 ZIGP模型23-24
- 2.2.3 ZINB模型24-25
- 2.3 Hurdle模型25-27
- 第三章 基于缺失數(shù)據(jù)的Poisson-Hurdle混合模型27-43
- 3.1 有限混合模型27-28
- 3.2 Poisson-Hurdle模型28-29
- 3.3 回歸設(shè)定29-30
- 3.4 響應(yīng)變量缺失模型30
- 3.5 極大似然估計和隨機(jī)EM算法30-34
- 3.5.1 數(shù)據(jù)添加31-32
- 3.5.2 隨機(jī)EM算法32-34
- 3.6 模型選擇34
- 3.7 模擬研究和實例分析34-43
- 3.7.1 模擬研究34-37
- 3.7.2 實例分析37-43
- 第四章 結(jié)論與展望43-45
- 致謝45-47
- 參考文獻(xiàn)47-53
- 附錄A 攻讀碩士學(xué)位期間發(fā)表論文目錄53
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 秦永松;雷慶祝;;含結(jié)構(gòu)參數(shù)的二元正態(tài)混合模型齊一性的修正似然比檢驗[J];中國科學(xué)(A輯:數(shù)學(xué));2007年12期
,本文編號:561176
本文鏈接:http://sikaile.net/shekelunwen/shgj/561176.html
最近更新
教材專著