微觀調(diào)查數(shù)據(jù)抽樣權(quán)數(shù)的可忽略性檢驗(yàn)及實(shí)證研究
發(fā)布時(shí)間:2021-08-26 14:30
在回顧以往文獻(xiàn)對(duì)抽樣權(quán)數(shù)爭(zhēng)論的基礎(chǔ)上,針對(duì)抽樣權(quán)數(shù)在復(fù)雜調(diào)查數(shù)據(jù)推斷分析中,是否可以忽略抽樣權(quán)數(shù)給出了一個(gè)明確的判斷思路。同時(shí),以中國(guó)家庭追蹤調(diào)查(CFPS)中家庭微觀調(diào)查數(shù)據(jù)為例,測(cè)算了該調(diào)查數(shù)據(jù)抽樣權(quán)數(shù)的低效性,給出Dumouchel-Duncan檢驗(yàn),并以實(shí)證研究方法驗(yàn)證了所提出的抽樣權(quán)數(shù)可忽略性的檢驗(yàn)思路及方法的可行性。
【文章來(lái)源】:統(tǒng)計(jì)與信息論壇. 2020,35(05)北大核心CSSCI
【文章頁(yè)數(shù)】:8 頁(yè)
【部分圖文】:
全國(guó)家庭抽樣和再抽樣權(quán)數(shù)分布圖
為給出低效性的一個(gè)一般經(jīng)驗(yàn)水平,這里給出了一些常見(jiàn)分布下的抽樣權(quán)數(shù)頻數(shù)分布圖。樣本量取1 000,見(jiàn)圖1,從上往下依次為:均勻分布 [U(a=1,b=1 000)] 、正態(tài)分布 [N(μ =1 000,σ2=10)] 、二項(xiàng)分布 [B(n=50,p=0.25)] 、指數(shù)分布 [e(λ=0.1)] 、卡方分布 [χ2(3)] 、Possion分布 [P(λ=4)]抽樣權(quán)數(shù)的頻數(shù)分布圖。因?yàn)檫@里都是權(quán)數(shù)所以不是整數(shù)的全部取最大整數(shù)?紤]到常數(shù)分布很簡(jiǎn)單,為一條水平直線,這里沒(méi)有畫出。對(duì)于常數(shù)分布,樣本權(quán)數(shù)的低效性顯然為零。因?yàn)榇藭r(shí)的樣本就是等概率抽選,也可以認(rèn)為樣本是自加權(quán)的,不存在因?yàn)闄?quán)數(shù)的引入而造成估計(jì)量標(biāo)準(zhǔn)誤的增大。因此,抽樣權(quán)數(shù)的低效性為零,公式的計(jì)算結(jié)果也為零。可以認(rèn)為,在不考慮抽樣權(quán)數(shù)的調(diào)查數(shù)據(jù)分析時(shí),都是默認(rèn)抽樣權(quán)數(shù)為常數(shù),這顯然可能會(huì)低估估計(jì)量的標(biāo)準(zhǔn)誤,更主要的是通常會(huì)失去估計(jì)量無(wú)偏性。一般情況下,抽樣權(quán)數(shù)的分布不會(huì)是常數(shù),除樣本是自加權(quán)樣本外,均會(huì)產(chǎn)生抽樣權(quán)數(shù)低效性的發(fā)生,這里測(cè)算了以上幾種常見(jiàn)參數(shù)分布的抽樣權(quán)數(shù)的低效性,見(jiàn)表1。
當(dāng)抽樣權(quán)數(shù)的分布為正態(tài)分布[N(μ=1 000,σ2= 10) ]、二項(xiàng)分布[B(n = 50,p = 0.25) ]和Possion分布[P(λ=4)]時(shí),抽樣權(quán)數(shù)的低效性比較小,也就是說(shuō)考慮抽樣權(quán)數(shù)對(duì)估計(jì)量標(biāo)準(zhǔn)誤的影響很小,甚至可以忽略不計(jì),這時(shí)候應(yīng)該使用抽樣權(quán)數(shù),即在保證估計(jì)量無(wú)偏的情況下,不會(huì)對(duì)標(biāo)準(zhǔn)誤產(chǎn)生很大影響;如果抽樣權(quán)數(shù)的分布為指數(shù)分布[e(λ=0.1)]時(shí),此時(shí)的抽樣權(quán)數(shù)無(wú)效性達(dá)到了44.6%在這種情況下就要格外謹(jǐn)慎,雖然考慮抽樣權(quán)數(shù)能使估計(jì)量無(wú)偏,但此時(shí)估計(jì)量的穩(wěn)健性會(huì)較差。通常會(huì)選擇穩(wěn)健性,而放棄考慮抽樣權(quán)數(shù)。當(dāng)然也可以選擇重新構(gòu)建研究的子總體,獲取新的抽樣權(quán)數(shù)重新判斷; 如果抽樣分布類似均勻分布[U(a=1,b=1 000) ]和卡方分布[χ2(3)]時(shí),低效性達(dá)到了24.5%和25%,此時(shí)考慮抽樣權(quán)數(shù)可能會(huì)影響到估計(jì)量的標(biāo)準(zhǔn)誤,至于影響的大小是否能夠接受,可以用上述假設(shè)檢驗(yàn)的方法去檢驗(yàn)。但為什么不直接用該假設(shè)檢驗(yàn)來(lái)判斷呢?原因有二:一是低效性的判斷方便快捷不依賴于所采用的方法;二是假設(shè)檢驗(yàn)的判斷,目前還局限于回歸模型的分析中,雖然對(duì)其他模型的構(gòu)建可以提供參考,但當(dāng)前還沒(méi)有證明該假設(shè)檢驗(yàn)可以應(yīng)用于其他一切模型。四、實(shí)證研究
【參考文獻(xiàn)】:
期刊論文
[1]權(quán)數(shù)在人口抽樣調(diào)查估計(jì)中的應(yīng)用研究[J]. 王小寧. 統(tǒng)計(jì)與信息論壇. 2019(12)
[2]排序下PPS抽樣估計(jì)量的修正與應(yīng)用[J]. 王峰. 數(shù)理統(tǒng)計(jì)與管理. 2019(06)
[3]不均等選擇概率下的加權(quán)調(diào)整研究[J]. 羅薇. 統(tǒng)計(jì)與信息論壇. 2017(04)
本文編號(hào):3364415
【文章來(lái)源】:統(tǒng)計(jì)與信息論壇. 2020,35(05)北大核心CSSCI
【文章頁(yè)數(shù)】:8 頁(yè)
【部分圖文】:
全國(guó)家庭抽樣和再抽樣權(quán)數(shù)分布圖
為給出低效性的一個(gè)一般經(jīng)驗(yàn)水平,這里給出了一些常見(jiàn)分布下的抽樣權(quán)數(shù)頻數(shù)分布圖。樣本量取1 000,見(jiàn)圖1,從上往下依次為:均勻分布 [U(a=1,b=1 000)] 、正態(tài)分布 [N(μ =1 000,σ2=10)] 、二項(xiàng)分布 [B(n=50,p=0.25)] 、指數(shù)分布 [e(λ=0.1)] 、卡方分布 [χ2(3)] 、Possion分布 [P(λ=4)]抽樣權(quán)數(shù)的頻數(shù)分布圖。因?yàn)檫@里都是權(quán)數(shù)所以不是整數(shù)的全部取最大整數(shù)?紤]到常數(shù)分布很簡(jiǎn)單,為一條水平直線,這里沒(méi)有畫出。對(duì)于常數(shù)分布,樣本權(quán)數(shù)的低效性顯然為零。因?yàn)榇藭r(shí)的樣本就是等概率抽選,也可以認(rèn)為樣本是自加權(quán)的,不存在因?yàn)闄?quán)數(shù)的引入而造成估計(jì)量標(biāo)準(zhǔn)誤的增大。因此,抽樣權(quán)數(shù)的低效性為零,公式的計(jì)算結(jié)果也為零。可以認(rèn)為,在不考慮抽樣權(quán)數(shù)的調(diào)查數(shù)據(jù)分析時(shí),都是默認(rèn)抽樣權(quán)數(shù)為常數(shù),這顯然可能會(huì)低估估計(jì)量的標(biāo)準(zhǔn)誤,更主要的是通常會(huì)失去估計(jì)量無(wú)偏性。一般情況下,抽樣權(quán)數(shù)的分布不會(huì)是常數(shù),除樣本是自加權(quán)樣本外,均會(huì)產(chǎn)生抽樣權(quán)數(shù)低效性的發(fā)生,這里測(cè)算了以上幾種常見(jiàn)參數(shù)分布的抽樣權(quán)數(shù)的低效性,見(jiàn)表1。
當(dāng)抽樣權(quán)數(shù)的分布為正態(tài)分布[N(μ=1 000,σ2= 10) ]、二項(xiàng)分布[B(n = 50,p = 0.25) ]和Possion分布[P(λ=4)]時(shí),抽樣權(quán)數(shù)的低效性比較小,也就是說(shuō)考慮抽樣權(quán)數(shù)對(duì)估計(jì)量標(biāo)準(zhǔn)誤的影響很小,甚至可以忽略不計(jì),這時(shí)候應(yīng)該使用抽樣權(quán)數(shù),即在保證估計(jì)量無(wú)偏的情況下,不會(huì)對(duì)標(biāo)準(zhǔn)誤產(chǎn)生很大影響;如果抽樣權(quán)數(shù)的分布為指數(shù)分布[e(λ=0.1)]時(shí),此時(shí)的抽樣權(quán)數(shù)無(wú)效性達(dá)到了44.6%在這種情況下就要格外謹(jǐn)慎,雖然考慮抽樣權(quán)數(shù)能使估計(jì)量無(wú)偏,但此時(shí)估計(jì)量的穩(wěn)健性會(huì)較差。通常會(huì)選擇穩(wěn)健性,而放棄考慮抽樣權(quán)數(shù)。當(dāng)然也可以選擇重新構(gòu)建研究的子總體,獲取新的抽樣權(quán)數(shù)重新判斷; 如果抽樣分布類似均勻分布[U(a=1,b=1 000) ]和卡方分布[χ2(3)]時(shí),低效性達(dá)到了24.5%和25%,此時(shí)考慮抽樣權(quán)數(shù)可能會(huì)影響到估計(jì)量的標(biāo)準(zhǔn)誤,至于影響的大小是否能夠接受,可以用上述假設(shè)檢驗(yàn)的方法去檢驗(yàn)。但為什么不直接用該假設(shè)檢驗(yàn)來(lái)判斷呢?原因有二:一是低效性的判斷方便快捷不依賴于所采用的方法;二是假設(shè)檢驗(yàn)的判斷,目前還局限于回歸模型的分析中,雖然對(duì)其他模型的構(gòu)建可以提供參考,但當(dāng)前還沒(méi)有證明該假設(shè)檢驗(yàn)可以應(yīng)用于其他一切模型。四、實(shí)證研究
【參考文獻(xiàn)】:
期刊論文
[1]權(quán)數(shù)在人口抽樣調(diào)查估計(jì)中的應(yīng)用研究[J]. 王小寧. 統(tǒng)計(jì)與信息論壇. 2019(12)
[2]排序下PPS抽樣估計(jì)量的修正與應(yīng)用[J]. 王峰. 數(shù)理統(tǒng)計(jì)與管理. 2019(06)
[3]不均等選擇概率下的加權(quán)調(diào)整研究[J]. 羅薇. 統(tǒng)計(jì)與信息論壇. 2017(04)
本文編號(hào):3364415
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3364415.html
最近更新
教材專著