天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

關于綜合運用Benford法則和面板模型檢測統(tǒng)計數(shù)據(jù)質(zhì)量的研究

發(fā)布時間:2016-11-10 07:48

  本文關鍵詞:關于綜合運用Benford法則和面板模型檢測統(tǒng)計數(shù)據(jù)質(zhì)量的研究,由筆耕文化傳播整理發(fā)布。


當前位置:首頁 >> 教育學/心理學 >> 關于綜合運用Benford法則和面板模型檢測統(tǒng)計數(shù)據(jù)質(zhì)量的研究


第 29 卷第 11 期 2012 年 11 月

統(tǒng)計研究 Statistical Research

Vol. 29 ,No. 11 Nov. 2012

關于綜合運用 Benford 法則和面板模型 檢測統(tǒng)計數(shù)據(jù)質(zhì)量的研究
*

劉云霞

吳曦明

曾五一

內(nèi)容提要: 本文介紹了如何利用 Benford 法則來檢測統(tǒng)計數(shù)據(jù)質(zhì)量的一般方法 。 在此基 礎 上, 進一步探討了如 何將其與面板模型相結合從而找出可能存在質(zhì)量問 題 的 具 體 地 區(qū) 和 時 間 序 列 數(shù) 據(jù) 的 方 法 。 并 利 用 上 述 方 法 對 我 國多個國家級開發(fā)區(qū)的主要經(jīng)濟指標的數(shù)據(jù)質(zhì)量進行了實證分析 。 關鍵詞: 數(shù)據(jù)質(zhì)量; Benford 法則; 面板模型 中圖分類號: O212 文獻標識碼: A 文章編號: 1002 - 4565 ( 2012 ) 11 - 0074 - 05

Detecting Statistical Data Anormality by Combining Benford ’ s Law and Panel Data Models
Liu Yunxia Wu Ximing Zeng Wuyi
Abstract : This article describes a general method that can detect statistical data abnormalityby Benford ’ s law. In addition ,the article discusses how to combine Benford ’ s Law with panel data models to identify the observations that may have data quality problems. We demonstrate the applicability of the proposed method method with an examination on major economic indicators of Chinese national development zones. Key words : Data Quality ; Benford ’ s Law ; Panel Model

數(shù)據(jù)質(zhì)量是 統(tǒng) 計 工 作 的 生 命 線 。 近 年 來, 我國 統(tǒng)計數(shù)據(jù)的質(zhì)量問題已成為各級政府和社會各界關 注的熱點 。 如何利用科學的方法來診斷統(tǒng)計數(shù)據(jù)的 質(zhì)量, 也成為統(tǒng)計學界重點探討和研究的一項課題 。 本文擬對如何 利 用 Benford 法 則 來 檢 測 統(tǒng) 計 數(shù) 據(jù)質(zhì)量的方法做一些介紹, 在此基礎上, 進一步探討 如何將其與面板模 型 相 結 合, 進一步找出可能存在 質(zhì)量問題的具體地 區(qū) 和 時 間 數(shù) 據(jù) 的 方 法, 并利用我 國國家級 開 發(fā) 區(qū) 有 關 經(jīng) 濟 指 標 的 數(shù) 據(jù) 開 展 實 證 分 析, 驗證該方法的適用性 。

機數(shù)要比以 2 為 第 一 位 數(shù) 的 隨 機 數(shù) 出 現(xiàn) 的 頻 率 要 大, 而以 2 為第一位 數(shù) 的 隨 機 數(shù) 又 比 以 3 為 第 一 位 并 可 以 此 類 推。當 時 數(shù)的隨機數(shù)出現(xiàn) 的 概 率 要 大, Simon Neweomb 關 注 這 一 數(shù) 學 現(xiàn) 象 完 全 是 出 于 好 奇, 并沒有對這一規(guī)律做出解釋 。 到了 1938 年, 美 國 通 用 電 器 ( GE ) 的 物 理 學 家 Frank Benford 注意到了同樣的現(xiàn)象 。 他收集并驗證 其中包括籃球比賽的數(shù)字 、 河流的 了 20229 個數(shù)字, 長度 、 湖泊的面積 、 各 個 城 市 的 人 口 分 布 數(shù) 字、 在某 一雜志里出現(xiàn)的所有數(shù)字, 發(fā)現(xiàn)在這些數(shù)字中, 整數(shù) 1 在數(shù)字中 第 一 位 出 現(xiàn) 的 概 率 大 約 為 30% , 整數(shù) 2 在數(shù)字中第一位出現(xiàn)的 概 率 大 約 為 17% , 整數(shù) 3 在 數(shù)字第一位出現(xiàn)的概率 約 為 12% , 而 8 和 9 在數(shù)字 中第一位出現(xiàn)的概率約為 5% 和 4% 。 經(jīng)過研究后,
* 本文為國家社科基金重點項目 “國家統(tǒng)計數(shù)據(jù)質(zhì)量管理 問 題 研究( 09AZD045 ) ” 階段成果之一; 同時 獲 得 中 央 高 校 基 本 科 研 業(yè) 務 費專項資金資助( 0140 zk1008 ) 。

Benford 法則 一、
Benford 法則是 由 美 國 數(shù) 學 家 、 天 文 學 家 Simon Neweomb 在 1881 年 首 次 發(fā) 現(xiàn) 的 。 在 1851 年 的 一 天, 他在使用對數(shù)表做計算時, 注意到對數(shù)表的第一 頁要比其他頁更為破舊 。 奇怪的現(xiàn)象激發(fā)了他的研 究興趣, 經(jīng)過大量的統(tǒng)計分析, 他發(fā)現(xiàn)許多類型的數(shù) 字都很好地符合這 樣 的 規(guī) 律: 以 1 為 第 一 位 數(shù) 的 隨

第 29 卷第 11 期

劉云霞等: 關于綜合運用 Benford 法則和面板模型檢測統(tǒng)計數(shù)據(jù)質(zhì)量的研究

· 75 ·

Frank Benford 得出這 樣 一 個 結 論: 大 量 自 然 數(shù) 據(jù) 的 這就是 Benford 首位數(shù)字的出現(xiàn)頻率符合這個規(guī)律, 法則
[1]

該法則用于會計舞弊的發(fā)現(xiàn)研究; 在統(tǒng)計領域, 也有 學者將 此 法 則 用 于 檢 驗 數(shù) 據(jù) 的 準 確 性 。 如 George Judge 等( 2009 ) [1] 將此法則 用 于 檢 測 調(diào) 查 數(shù) 據(jù) 的 質(zhì)
[3] 金瑛( 2010 ) 將該法則用于對 M2 統(tǒng)計 量; 許滌龍 、

。 Benford 法則主張: 在不同種類的統(tǒng)計數(shù)字 ( 1)

中, 首位數(shù)字是數(shù)字 d 1 的概率是: P ( First digit is d 1 ) = log 10 ( 1 + ( 1 / d 1 ) ) 其中, 首位數(shù)字是指左邊的第一位非零的有效 Benford 法 則 中 首 位 數(shù) 分 別 出 數(shù)字 。 根據(jù)公 式 ( 1 ) , 現(xiàn) 1 ~ 9 的概率如下表:
表1
首位數(shù) 概率 首位數(shù) 概率

數(shù)據(jù)準確性的研究 。

Benford 法則的檢驗方法 二、
目前有四種方法可以檢驗一個統(tǒng)計數(shù)據(jù)集首位 數(shù)字的概率分布是否服從 Benford 法則的分布 。

Benford 法則中首位數(shù)的概率分布
1 0. 3010 6 0. 0669 2 0. 1761 7 0. 0580 3 0. 1249 8 0. 0512 4 0. 0969 9 0. 0458 5 0. 0792

( 一) χ 2 擬合優(yōu)度檢驗 通過 χ 擬合優(yōu)度檢驗, 可以檢測統(tǒng)計數(shù)據(jù) 中 首 位數(shù)的頻率分布是 否 與 Benford 法 則 下 的 分 布 有 顯 著差異 。 χ 統(tǒng)計量為:
2 2 2

Benford 法則提出之后引起了人們的極 大 關 注 。 1996 年美國學者 Hill 從理論上對 Benford 法 則 給 出 并進行了嚴謹?shù)臄?shù)學證明 了滿意的解釋,
[2]

χ

= N·Σ

9 i=1

[ ( ei - bi ) 2 / ( bi ) ]

( 5)

。后來

ei 是 統(tǒng) 計 數(shù) 據(jù) 中 首 位 ( 第 二 位 或 者 第 三 其中, b i 是 Benford 法 則 下 首 位) 出現(xiàn)數(shù)字 i 的 實 際 頻 率, 位( 第二位或者第三位) 出現(xiàn)數(shù)字 i 的理論頻率 。 顯
2 5% 和 1% 時, 著性水平 分 別 為 10% 、 χ 檢驗的臨界

有學者根據(jù)公式 ( 1 ) , 還 推 導 出 了 第 二 位 數(shù) 為 d2 以 及第三位數(shù)為 d 3 的概率, 并且這種對數(shù)規(guī)律可以類 推至第四位 、 第五位數(shù)出現(xiàn)的概率 P ( Second digit is d 2 )
9 [3]

。

15. 51 和 20. 09 。 如果 χ 統(tǒng)計量的 值分別是 13. 36 、 則接受備擇假設, 說明統(tǒng)計數(shù)據(jù)首位 值大于臨界值, ( 2) 數(shù)字的頻 率 分 布 不 符 合 Benford 分 布, 即說明該數(shù) 應引起注意 。 據(jù)可能存在質(zhì)量問題, ( 二) 修正 KolmogorovSmirnov 擬合優(yōu)度檢驗 ( 3) K-S 檢驗是用來檢驗單一樣本是 否 來 自 某 一 特 定理論分布的方法 。 它是以樣本數(shù)據(jù)的累積分布函 數(shù)與特定理論分布 的 累 積 分 布 函 數(shù) 作 比 較, 求這兩 ( 4) 個累積 分 布 函 數(shù) 的 差 的 絕 對 值 中 的 最 大 值 D 。 然 后, 通過查表以確定 D 值 是 否 落 在 所 要 求 對 應 的 置 信區(qū)間內(nèi) 。 若 D 值大于 臨 界 值, 說明被檢測的數(shù)據(jù) 不服從這一特定理論分布 。 K-S 擬合優(yōu) 度 檢 驗 的 統(tǒng) 計量為: D = max F e ( x ) - F b ( x ) ( 6) Fe ( x) 是 實 際 的 統(tǒng) 計 數(shù) 據(jù) 中 首 位 數(shù) 的 累 其中, F b ( x ) 是 理 論 分 布 即 Benford 法 則 下 首 積分布函數(shù), 位數(shù)的累積分布函數(shù) 。 Kuiper 對 K-S 擬合 優(yōu) 度 檢 驗 作 了 修 正[8] , 得到 如下統(tǒng)計量: V N = max[ F e ( x ) - F b ( x) ] + max[ F b ( x) - F e ( x) ] Stephens 對公式( 7 ) 的統(tǒng)計量再作修正 V
* N [9]

2

=

Σ
9

log 10 1 +

d1 = 1

(

(

1 d1 · d2

)) )) ))

P ( Third digit is d 3 )
9

=

ΣΣ
9 9

log 10 1 +

d1 = 1 d2 = 1

(

(

1 d1 · d2 · d3

P ( Fourth digit is d 4 )
9

=

ΣΣΣ

log10

d1 = 1 d2 = 1 d3 = 1

( (

1 1 + d1 ·d2 ·d3 ·d4

根據(jù) Benford 法 則, 高質(zhì)量的數(shù)據(jù)首位數(shù)字的 出現(xiàn)應該遵循上述概率, 并且數(shù)據(jù)規(guī)模越大, 數(shù)據(jù)首 位數(shù)字的概率分 布 就 越 應 該 符 合 Benford 法 則 。 如 果存在弄虛作假或者拼湊 、 修飾數(shù)據(jù)的行為, 這種規(guī) 律有可能被破壞 。 因 此, 如果一組統(tǒng)計數(shù)據(jù)的首位 數(shù)字的概率分布與 Benford 法 則 下 的 首 位 數(shù) 字 概 率 分布存在差異時, 該數(shù)據(jù)的準確性就值得懷疑了 。 也正是因為這個特點, 國內(nèi)外的稅務 、 會計和審 計領域都已經(jīng)將此 法 則 作 為 檢 測 數(shù) 據(jù) 是 否 有 修 飾 、 篡 改 、舞 弊 的 方 法 之 一 。 例 如,Mark J. Nigrini ( 1992 ) [4] 提出該法則可用 于 檢 查 是 否 有 偽 賬, 并且 可以推而廣之用于 會 計 、 金融甚至選舉中出現(xiàn)的數(shù)
[5] [6] 、 據(jù)檢測; 張?zhí)K 彤 ( 2005 ) 王 福 勝 等 ( 2007 ) 將該 [7] 法則用作舞弊審計的分 析 方 法; 狄 為 等 ( 2010 ) 將

( 7) , 有: ( 8)
-? ?

= V N[ N

? ?

+ 0. 155 + 0. 24 N



· 76 ·

統(tǒng)計研究

2012 年 11 月

5% 以及 1% 顯著性水 該擬合優(yōu)度檢驗在 10% 、 1. 32 和 1. 58 。 平下的臨界值分別為 1. 19 、 ( 三) 距離檢測
[1]

可能存在質(zhì)量問題 。 其次, 利用面板模型對上述可能存在質(zhì)量問題 的統(tǒng)計指標作進一步分析 。 最后, 檢查面板模型診斷發(fā)現(xiàn)的異常點的數(shù)據(jù) 的首位數(shù)與 Benford 法則檢驗中發(fā)現(xiàn)存在的出現(xiàn) 頻 率偏大的首位數(shù)是 否 相 同, 如果相同則可有較大的 把握判斷該異常點的數(shù)據(jù)確實存在質(zhì)量問題 。 如果 則可以認為盡管存在異常點, 但這種異?赡 不同, 并非由于數(shù)據(jù)質(zhì)量造成的 。 以 上 將 Benford 法 則 和 面 板 模 型 加 以 綜 合 運 用的方式, 不 僅 可 以 解 決 單 純 的 Benford 法 則 檢 驗 無法判斷具體樣本點的數(shù)據(jù)是否存在 質(zhì) 量 問 題 的 難點, 而且 還 可 彌 補 單 純 利 用 面 板 模 型 診 斷 數(shù) 據(jù) 質(zhì) 量 方 法 的 不 足 。利 用 面 板 模 型 診 斷 統(tǒng) 計 數(shù) 據(jù) 質(zhì) 量的基本 思 想 是: 任 何 一 種 統(tǒng) 計 指 標 與 其 相 關 的 一組( 或一項) 指 標 之 間 的 關 系, 都可以用面板模 整體模型 型來近似 反 映。如 果 回 歸 估 計 的 結 果, 擬合得很好, 僅有個別數(shù)據(jù)嚴重偏離既 定 模 型, 則 可以認為處在這些點( 奇異點) 上數(shù)據(jù)的準確性可 能存在問 題, 有 必 要 作 進 一 步 的 觀 察 與 分 析。 利 用面板模 型 診 斷 統(tǒng) 計 數(shù) 據(jù) 質(zhì) 量 的 最 大 難 點 在 于: 當診斷結 果 出 現(xiàn) 異 常 時, 實際上難以判斷這一異 常是由于 數(shù) 據(jù) 質(zhì) 量 引 起 的, 或是該點的實際情況 并 不 符 合 所 選 用 的 模 型 引 起 的 。 Benford 法 則 和 面 板模型的綜合運用可以從另一個側面 找 出 可 能 存 在質(zhì)量問 題 的 數(shù) 據(jù), 從而明顯提高了統(tǒng)計診斷結 論的可靠性。

通過 計 算 統(tǒng) 計 數(shù) 據(jù) 首 位 數(shù) 字 的 頻 率 分 布 與 Benford 分布之間的距離, 可以檢測該數(shù)列是否符 合 Benford 法則 。 這樣的距離有: m = max i = 1 , 2, ……, 9 { | bi - ei | } d = ( 9) ( 10 )

( 四) Pearson 相關系數(shù) 通過計算統(tǒng)計數(shù)據(jù)中首位數(shù)字的頻率分布與 Benford 法則下首 位 數(shù) 字 的 頻 率 分 布 的 Person 相 關 系數(shù), 也可以判斷兩個分布是否有差異, 其判斷標準 見表 2 。
表2
分級 正常 關注 可疑





9 i=1

( bi - ei )

2

}

根據(jù)相關系數(shù)進行判斷的分級標準
相關系數(shù)分級標準 0. 99 < r ≤1 0. 97 < r ≤0. 99 r ≤0. 97 說

[10 ]



完全符合 Benford 法則 存在一定程度篡改數(shù)據(jù)的可能性 有篡改數(shù)據(jù)的跡象, 需特別注意

Benford 法則和面板模型的綜合 三、
雖然 Benford 法則 在 數(shù) 據(jù) 質(zhì) 量 的 診 斷 中 已 經(jīng) 得 到不少運用, 但是應 當 指 出 其 仍 然 存 在 不 少 有 待 進 一步研究改進的問題 。 第一, 并不是所有的數(shù)據(jù)樣本都一定服從 Benford 法則 。 能夠用 Benford 法則來進行分析的數(shù) 也 據(jù)應該符合以下條件: ① 數(shù)值既不是完全隨機的, 不能過度集中于某個區(qū)間; ② 數(shù)值不能存在上下限; ③ 數(shù)值在一個很寬 的 范 圍 里 連 續(xù) 變 動, 不存在間斷 點或間斷區(qū)間; ④ 數(shù)字沒有被特別賦值; ⑤ 數(shù)值的形 成受多種因素的影響, 是多種因素綜合作用的結果 。 第二, 就 Benford 法 則 本 身 來 說, 如果數(shù)據(jù)檢測 結果符合 Benford 法 則 的 頻 率 分 布, 也并不意味著 一定不存在數(shù)據(jù)質(zhì)量問題 。 因為當數(shù)據(jù)總量非常大 的時候, 并且有質(zhì)量問題的數(shù)據(jù)發(fā)生次數(shù)不多時, 它 們就會淹沒在大樣本的規(guī)律之中, 而不能被發(fā)現(xiàn) 。 第三, 在現(xiàn)實中, 人們更希望了解的不僅是何類 統(tǒng)計數(shù)據(jù)可能存在質(zhì)量問題, 而是哪一個單位 、 哪一 個時間的數(shù)據(jù)可能存在問題 。 對于上 述 問 題, 我們提出以下進一步完善的 思路: 首先, 利 用 Benford 法 則 檢 驗 何 種 統(tǒng) 計 指 標 有

四、 實證分析
( 一) 數(shù)據(jù)來源 實證分析采用 的 數(shù) 據(jù) 來 源 于 兩 個 方 面: 2002 - 2008 年的數(shù)據(jù) 來 源 于 2003 - 2009 年 版 的《中 國 開 ; 2009 - 2010 年 的 數(shù) 據(jù) 來 源 于 中 國 開 發(fā) 發(fā)區(qū)年鑒 》 區(qū)網(wǎng)站的統(tǒng)計公報( http : / / www. cadz. org. cn / ) 。 在 上述資料 來 源 中, 各 開 發(fā) 區(qū) 公 布 的 指 標 不 盡 相 同。 因此我們選取了各 開 發(fā) 區(qū) 都 發(fā) 布 的 地 區(qū) 生 產(chǎn) 總 值 、 工業(yè)總產(chǎn)值( 現(xiàn)價) 、 工業(yè)增加值( 現(xiàn)價 ) 、 稅收 收入 、 出口總額 、 進口總額 六 個 重 要 的 經(jīng) 濟 指 標 作 為 分 析 的對象 。 另外, 我國國家級開發(fā)區(qū)在 2002 - 2008 年 2009 年 以 后 擴 大 為 90 個, 考慮到各 之間為 54 個, 年數(shù)據(jù)的一致性, 這里我們只采用 2002 - 2010 年均 有數(shù)據(jù)的 54 個開發(fā)區(qū)作為研究對象 。

第 29 卷第 11 期

劉云霞等: 關于綜合運用 Benford 法則和面板模型檢測統(tǒng)計數(shù)據(jù)質(zhì)量的研究

· 77 ·

表3
首位數(shù)字 Benford Law 地區(qū)生產(chǎn)總值 工業(yè)總產(chǎn)值 工業(yè)增加值 稅收收入 出口總額 進口總額 476 467 462 463 467 461 Obs 1 30. 103 31. 513 29. 764 30. 952 31. 965 30. 835 31. 67 2 17. 609 15. 126 18. 415 17. 316 15. 983 14. 989 19. 306

各指標首位數(shù)字的頻率分布
3 12. 494 12. 395 14. 989 11. 255 12. 527 11. 991 11. 497 4 9. 691 9. 034 10. 493 9. 74 6. 695 10. 707 7. 592 5 7. 918 9. 664 6. 638 7. 576 6. 695 10. 493 9. 111 6 6. 695 5. 462 6. 852 7. 143 6. 479 7. 709 6. 941 7 5. 799 6. 723 4. 711 5. 628 8. 639 6. 21 4. 555 8 5. 1151 4. 832 5. 567 5. 628 5. 616 4. 069 5. 423 9 4. 576 5. 252 2. 57 4. 762 5. 4 2. 998 3. 905

( 二) 6 個指 標 首 位 數(shù) 字 的 頻 率 分 布 及 Benford 分布的檢驗 由于 Benford 法 則 具 有 樣 本 量 越 大, 效果越明 顯的特點, 所以我們 將 這 6 個 指 標 9 年 的 數(shù) 據(jù) 合 在 一起來觀察它們的 首 位 數(shù) 字 的 頻 率 分 布, 從而更好 地驗證它們是否 符 合 Benford 法 則 。 表 3 是 6 個 指 標 9 年數(shù)據(jù)首位數(shù)字出現(xiàn)的頻率分布表 。 從表 3 可 以 看 出, 各指標首位數(shù)字的頻率分布 與 Benford 法則的頻 率 分 布 有 一 定 差 別 。 但 這 種 差 別是否顯著還需要進行一定的檢驗 。 我們根據(jù)公式 ( 5 ) ~ ( 10 ) , 計算有關統(tǒng)計量, 用來檢驗各指標數(shù)據(jù) 首位數(shù)字 的 頻 率 分 布 是 否 符 合 Benford 法 則, 計算 結果見表 4 。
表4 2002 - 2010 年各指標首位數(shù)字頻數(shù)分布與 Benford 分布的擬合優(yōu)度檢驗
r 地區(qū)生產(chǎn)總值 工業(yè)總產(chǎn)值 工業(yè)增加值 稅收收入 出口總額 進口總額 0. 9871 0. 9883 0. 9975 0. 9791 0. 9818 0. 9921 χ
2

這 說 明, 率 分 布 比 Benford 法 則 的 頻 率 分 布 要 大 , 出現(xiàn)質(zhì)量問題的數(shù)據(jù)很有可能就出現(xiàn) 在 首 位 數(shù) 為 1、 7、 8 及 9 的數(shù)據(jù)中。因此審查數(shù)據(jù)時, 對那些首 7、 8 及 9 的稅收收入數(shù)據(jù)的開發(fā)區(qū)應多 位數(shù)為 1、 加考察。 ( 三) 建立面板數(shù)據(jù)模型 為了充分利用 54 個 國 家 級 開 發(fā) 區(qū) 在 不 同 時 間 上的數(shù)據(jù)信息, 我們 將 通 過 面 板 模 型 來 進 一 步 診 斷 哪些開發(fā)區(qū) 在 哪 些 年 份 的“稅 收 收 入 ” 指標可能存 在數(shù)據(jù)質(zhì)量問題 。 在模 型 的 建 立 中, 考慮到各國家級開發(fā)區(qū)的具 稅收優(yōu)惠政策等不同, 因而導致 體情況如產(chǎn)業(yè)結構 、 不同開發(fā)區(qū) 的“稅 收 收 入 ” 指標與其他指標之間的 關系也存在差異 。 為 了 體 現(xiàn) 這 種 差 異, 我們采用面 板數(shù)據(jù)的 變 系 數(shù) 模 型 來 對 現(xiàn) 有 數(shù) 據(jù) 進 行 擬 合 。 另

V* N 0. 7121 0. 8935 0. 3952 1. 3068 * 1. 092 0. 7062

m 0. 0248 0. 025 0. 0124 0. 03 0. 0262 0. 021

d 0. 0368 0. 037 0. 0167 0. 0485 0. 0433 0. 0365

外, 由于地區(qū)生產(chǎn)總值 、 出口總額 、 進口總額 、 工業(yè)總 產(chǎn)值 、 工業(yè)增加值等 5 個指標之間相關性比較高, 如 果都加入模型作為自變量將存在多重共線性 。 為降 低多重共線性的影響, 本文經(jīng)過篩選, 選取了地區(qū)生 產(chǎn)總值作為模型的 解 釋 變 量, 稅收收入作為被解釋 變量 。 從本文主要目的是篩選數(shù)據(jù)質(zhì)量存在問題的 開發(fā)區(qū)這一角度 來 看, 這 種 處 理 方 法 是 合 適 的。具 體模型為: TAX it = α + β i GDP it + u it ( 11 ) i = 1, 2, …, 54 ; t = 1 , 2, …, 9 。 TAX it 為 各 其中, GDP it 為各開發(fā)區(qū) 在 個開發(fā)區(qū)在某一年的稅收收入, α 是模型的截距項, β i 為斜率系 某一年的生產(chǎn)總值, u it 是隨機誤差項 。 數(shù), 其隨開發(fā)區(qū)的不同而不同, 我們利用廣義最小二乘法對上述模型進行了估 計 。 從檢驗結果可 以 看 出, 面板數(shù)據(jù)模型中的截距 項和各開發(fā)區(qū)的斜 率 系 數(shù) 非 常 顯 著, 同時調(diào)整后的 R 2 達到了 0. 976 , 模 型 整 體 擬 合 效 果 較 好。這 為 我 們下一步分析提供了較好的基礎 。

6. 3596 9. 0590 1. 2042 12. 9646 10. 7981 6. 2312

注: 表中帶 * 的數(shù)據(jù)表示大于顯著性水平 10% 的臨界值 。

6 個 指 標 的 相 關 系 數(shù) 中, 表 4 的數(shù)據(jù) 表 明, 除 “稅 收 收 入 ” 為 0. 9791 外 , 其 他 5 個 指 標 都 在 0. 99 6 個指標的 χ 值都小于 左右。從 χ 統(tǒng)計 量 來 看, 10 % 顯 著 性 水 平 的 臨 界 值, “稅 收 收 入 ” 的 χ 值是 其中最大的; 從 V V
* N * N 2 2 2

檢 驗 來 看, 只 有“稅 收 收 入 ” 的
* N

統(tǒng) 計 量 值 大 于 顯 著 性 水 平 10 % 的 V

臨界值;

“稅 收 收 入 ” 另 外, 的 m 值和 d 值在 6 個指標中也 是最大的。所 以, 雖然各種擬合優(yōu)度檢驗的結果 不大一樣, 但 可 以 推 斷 出“稅 收 收 入 ” 這個指標的 數(shù)據(jù)可能存在一定的質(zhì)量問題。從 其 首 位 數(shù) 分 布 7、 8 及 9 的數(shù)據(jù)的頻 情況看, 該 指 標 首 位 數(shù) 為 1、

· 78 ·

統(tǒng)計研究

2012 年 11 月

( 四) 根 據(jù) 殘 差 分 析 查 找 稅 收 收 入 異 常 的 開 發(fā)區(qū) 在面 板 數(shù) 據(jù) 模 型 的 結 果 中, 利用殘差所提供的 如 信息可以對數(shù)據(jù) 的 質(zhì) 量 進 行 診 斷 。 一 般 情 況 下, 果模型可靠, 則殘差 特 別 大 的 樣 本 點 數(shù) 據(jù) 出 現(xiàn) 質(zhì) 量 問題的可能性較大 。 根據(jù) 2002 - 2010 年的殘差數(shù)據(jù), 我們計算了每 即: 個開發(fā)區(qū)每年殘差的標準化數(shù)值, z ij = x ij - x 珋 i σi ( 12 )

參考文獻
[ 1 ]George Judge , Laura Schechter. Detecting Problems in Survey Data Using Benford ’ s Law[J]. The Jounal of Human Resources , 2009 , 44 : 1 - 24 . [ 2 ]Hill T. P. A Statistical Derivation of the Significant-Digit Law[J]. Stat. Sci , 1996 , 10 : 354 - 363 . [ 3 ]許滌龍, 金瑛 . 基 于 Benford 法 則 的 M2 統(tǒng) 計 數(shù) 據(jù) 準 確 性 研 究 [J]. 統(tǒng)計與信息論壇, 2010 ( 8 ) . [ 4 ]Mark J. Nigrini. The Detection of Income Tax Evasion Through an Analysis of Digital Frequencies [D]. Ph. D. thesis. Cincinnati ,, University of Cincinnati , 1992. [ 5 ]張?zhí)K彤 . 奔福德定律: 一 種 舞 弊 審 計 的 數(shù) 值 分 析 方 法[J]. 中 國 2005 ( 11 ) . 注冊會計師, [ 6 ]王福勝, 李勛, 孫遜 . 奔福德定律及其在審計 中 的 應 用 研 究[J]. 2007 ( 3 ) . 財會通訊, [ 7 ]狄為, 施鵬仙 . 基于 Benford 定律的會計舞弊發(fā) 現(xiàn) 研 究[J]. 會 計 2010 ( 9 ) . 之友, [ 8 ]Giles , David E. Benford ’ s Law and Naturally Occurring Prices in Certain EBay Auctions[J]. Applied Economics Letters , 2007 , 14 ( 3 ) : 157 - 61 . [ 9 ]Stephens , Michael A. Use of the Kolmogorov-Smirnov , Cramer-Von Mises and Related Statistics without Extensive Tables[J]. Journal of the Royal Statistical Society , Series B , 1970 , 32 ( 1 ) : 115 - 22. [ 10]許存興, 王大江, 張 芙 蓉. 上 市 公 司 審 計 意 見 實 證 分 析 - 基 于 Benford 法則的造假檢測[J]. 南京財經(jīng)大學學報, 2009 ( 4 ) .

x ij 是第 i 年第 j 個開發(fā)區(qū)的殘差, x 其中, 珋 i 是第 i 年所有開發(fā)區(qū)殘差 的 平 均 值, σi 是 第 i 年 所 有 開 發(fā) 區(qū)殘差的標 準 差 。 如 果 某 個 開 發(fā) 區(qū) 的 z ij 值 大 于 2 , 就可以認為該開發(fā)區(qū)稅收收入數(shù)據(jù)很可能是異常數(shù) 我們發(fā)現(xiàn) 9 年間各開發(fā)區(qū)共有 28 個異常 據(jù) 。 據(jù)此, 數(shù)據(jù) 。 觀察這些異 常 數(shù) 據(jù) 的 首 位 數(shù) 分 布, 結合前述 Benford 法則的分析結果( 即首位數(shù)為 1 、 7、 8及9的 數(shù)據(jù)可能存 在 質(zhì) 量 問 題 ) , 我們發(fā)現(xiàn)面板模型檢驗 發(fā)現(xiàn) 的 28 個 異 常 數(shù) 據(jù) 中 有 18 個 數(shù) 據(jù) 同 時 也 是 Benford 法則診 斷 可 能 存 在 問 題 的 數(shù) 據(jù) 。 對 這 些 開 發(fā)區(qū)這些年份的稅 收 數(shù) 據(jù) 有 必 要 做 進 一 步 的 檢 查, 查出其可能存在問題的原因 。 這 18 個數(shù)據(jù)主要集中在 9 個開發(fā)區(qū), 即與其他 開發(fā)區(qū)相比, 這 9 個開發(fā)區(qū) GDP 的回歸系數(shù)明顯較 高 。 將各開發(fā)區(qū) GDP 的 回 歸 系 數(shù) 從 高 到 低 排 序 之 后發(fā)現(xiàn), 排名前 6 位 的 開 發(fā) 區(qū) 中 有 5 個 開 發(fā) 區(qū) 屬 于 稅收數(shù)據(jù)可能存 在 問 題 的 開 發(fā) 區(qū) 。 對 此, 一個可能 區(qū)內(nèi)企 的解釋是: 由于各個開發(fā)區(qū)所處的地區(qū)不同, 業(yè)類型也不同, 導致開發(fā)區(qū)之間 GDP 與稅收的關系 本來就存在差異 。 相比平均稅負比較低的開發(fā)區(qū)而 言, 平均稅負較高的 開 發(fā) 區(qū) 人 為 調(diào) 低 稅 收 的 沖 動 更 大, 這就導致這些開 發(fā) 區(qū) 在 某 些 時 期 上 報 的 稅 收 收 入可能會低于其應有的真實水平 。

作者簡介 34 歲, 劉云霞, 女, 山西省人, 廈門大學經(jīng)濟學院統(tǒng)計系 助理教授, 碩士生導師 。 研究方向為統(tǒng)計分析與數(shù)據(jù)挖掘 。 37 歲, 吳曦明, 男, 廈門大學 經(jīng) 濟 學 院 統(tǒng) 計 系 講 座 教 授 、 ( 美) 《美 國 農(nóng) 美國得克薩斯農(nóng)機大學農(nóng)業(yè) 經(jīng) 濟 學 系 副 教 授, 業(yè)經(jīng)濟 》 雜 志 副 主 編。研 究 方 向 為 計 量 經(jīng) 濟 學、 金 融 計 量、 宏觀經(jīng)濟 、 勞動經(jīng)濟 。 59 歲, 曾五一, 男, 福建省人, 廈門大學經(jīng)濟學院統(tǒng)計系 博士生導師, 中國統(tǒng)計學會顧問 、 教育部統(tǒng)計學 教 學 指 教授 、 導分委員會副主任委員 、 國家統(tǒng)計局咨詢委員 。 研究 方 向 為 國民經(jīng)濟統(tǒng)計 、 統(tǒng)計理論與方法 。

( 責任編輯: 程 晞)



  本文關鍵詞:關于綜合運用Benford法則和面板模型檢測統(tǒng)計數(shù)據(jù)質(zhì)量的研究,由筆耕文化傳播整理發(fā)布。



本文編號:169494

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/jjtj/169494.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶a83bb***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
五月综合激情婷婷丁香| 国产欧美另类激情久久久| 日韩成人免费性生活视频| 久久综合日韩精品免费观看| 日韩成人免费性生活视频| 初尝人妻少妇中文字幕在线| 精品女同一区二区三区| 天海翼精品久久中文字幕| 我想看亚洲一级黄色录像| 美女激情免费在线观看| 日本高清加勒比免费在线| 亚洲一区在线观看蜜桃| 国产一区二区久久综合| 国产日韩欧美专区一区| 国产欧美性成人精品午夜| 91在线爽的少妇嗷嗷叫| 国产日本欧美韩国在线| 精品视频一区二区不卡| 中文字幕区自拍偷拍区| 欧美黄色成人真人视频| 久久国内午夜福利直播| 五月婷日韩中文字幕四虎| 国产高清在线不卡一区| 国产a天堂一区二区专区| 日韩欧美91在线视频| 亚洲综合日韩精品欧美综合区| 自拍偷女厕所拍偷区亚洲综合| 人体偷拍一区二区三区| 欧美日韩精品人妻二区三区| 国产性色精品福利在线观看| 国产性情片一区二区三区| 国产日韩欧美专区一区| 女生更色还是男生更色 | 亚洲欧美日本国产有色| 麻豆国产精品一区二区| 国产精品偷拍视频一区| 中文日韩精品视频在线| 日韩综合国产欧美一区| 亚洲精品黄色片中文字幕| 欧美日韩视频中文字幕| 中文字幕一区久久综合|