基于數(shù)據(jù)挖掘的企業(yè)欠稅預(yù)測研究
發(fā)布時間:2021-07-07 20:01
隨著數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用,通過數(shù)據(jù)挖掘等方法發(fā)現(xiàn)隱藏在大量業(yè)務(wù)數(shù)據(jù)背后的知識,將這些知識應(yīng)用于決策支撐、商品營銷等多個場景,可以為政府工作帶來很多便利、為企業(yè)帶來更多營收。利用數(shù)據(jù)挖掘技術(shù)針對稅務(wù)數(shù)據(jù)進行企業(yè)欠稅預(yù)測研究可以保障國家稅收收入,同時為稅務(wù)稽查部門帶來很多便利。本文以某省地稅局提供的稅額征收記錄以及企業(yè)注冊信息為基礎(chǔ)開展稅源欠稅研究,首先分析了稅務(wù)記錄的數(shù)據(jù)特點,如各字段的含義以及字段之間的關(guān)聯(lián),并據(jù)此制定了對應(yīng)的過濾策略。為研究企業(yè)納稅行為與宏觀經(jīng)濟及所在地區(qū)的關(guān)系,本文基于征收記錄以及稅務(wù)部門提供的數(shù)據(jù)字典建立事實表和維度表,從而建立數(shù)據(jù)倉庫進行多維主題分析。通過多維主題分析發(fā)現(xiàn),企業(yè)納稅稅額及欠稅行為與行業(yè)發(fā)展、所在地區(qū)存在一定的時間關(guān)聯(lián)性,因此本文統(tǒng)計企業(yè)的稅務(wù)數(shù)據(jù)包括每個企業(yè)每月的繳稅數(shù)據(jù)、企業(yè)所在行業(yè)每月的繳稅數(shù)據(jù)、企業(yè)所在區(qū)域每月的繳稅數(shù)據(jù)作為判斷企業(yè)是否欠稅的一類決策特征,同時建立基于投資人、法人等關(guān)聯(lián)人的企業(yè)網(wǎng)絡(luò),統(tǒng)計企業(yè)所關(guān)聯(lián)企業(yè)每月的繳稅情況作為描述企業(yè)營收情況的一類特征。為保障國家稅收收入,本文根據(jù)企業(yè)之前一段時間的繳稅信息預(yù)測下一個月企業(yè)是否欠稅...
【文章來源】:重慶大學(xué)重慶市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【部分圖文】:
數(shù)據(jù)倉庫關(guān)系圖
料數(shù)據(jù)存儲與管理OLAP服務(wù) 前端數(shù)據(jù)集市圖 2.4 數(shù)據(jù)倉庫關(guān)系圖Figure 2.4 Data warehouse diagram供了支持決策分析全過程的解決方案,包括:從出決策所需要的數(shù)據(jù);對源數(shù)據(jù)進行清理和整合;根據(jù)所需要的支持決策,對數(shù)據(jù)進行組織和分現(xiàn)出來。數(shù)據(jù)倉庫層次結(jié)構(gòu)包括第一層的數(shù)據(jù)獲高層為數(shù)據(jù)挖掘?qū)印?shù)據(jù)挖掘?qū)?
圖 3.1 納稅數(shù)據(jù)雪花模型Figure 3.1 Snowflake model of tax data根據(jù)圖 3.1 中的雪花數(shù)據(jù)模型,它由一個事實表和 3 個維度表(真實分析時不止 4 個)組成,事實表表示的是一段時間內(nèi)某一地區(qū)某一行業(yè)內(nèi)企業(yè)繳稅的所有記錄,時間表通過年、月、日的組合來表示稅收數(shù)據(jù)產(chǎn)生的時間,稅務(wù)機關(guān)表通過稅務(wù)局、稅務(wù)所的組合在空間上表示稅收數(shù)據(jù)的歸屬,行業(yè)則是從企業(yè)所屬的國標類別進行劃分,分析各行業(yè)的稅收分布情況。3.3.3數(shù)據(jù)庫維度表數(shù)據(jù)準備依據(jù)設(shè)計好的雪花模型,在使用 SQL Server Data Tools 建立數(shù)據(jù)倉庫之前,整理數(shù)據(jù)庫內(nèi)事實表中相應(yīng)字段的數(shù)據(jù)字典,作為維度表對事實表中關(guān)鍵屬性進行解釋、描述。因此,本文涉及到的維度表有:DimCZLX(處置類型)、DimDate(時間)、DimDjzclx(登記注冊類型)、DimDwlsgx(單位隸屬關(guān)系)、DimGDGHLX(國地共管)、DimIndustry(行業(yè))、DimJdxz(街道鄉(xiāng)鎮(zhèn))、DimNSRZT(納稅人主體)、DimSbfs(申報發(fā)生)、DimSbsx(申報屬性)、DimSjgsdq(數(shù)據(jù)歸屬地區(qū))
【參考文獻】:
期刊論文
[1]大數(shù)據(jù)時代強化稅收風(fēng)險管理的思考[J]. 彭驥鳴,陳愛明,韓曉琴. 稅收經(jīng)濟研究. 2014(05)
[2]大數(shù)據(jù)時代的機遇與挑戰(zhàn)[J]. 鄔賀銓. 中國經(jīng)貿(mào). 2013(06)
[3]特征選擇方法綜述[J]. 姚旭,王曉丹,張玉璽,權(quán)文. 控制與決策. 2012(02)
[4]數(shù)據(jù)挖掘中分類算法綜述[J]. 李玲俐. 重慶師范大學(xué)學(xué)報(自然科學(xué)版). 2011(04)
[5]關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘在稅務(wù)稽查系統(tǒng)中的應(yīng)用[J]. 徐慎剛. 財政監(jiān)督. 2011(19)
[6]一種基于信息增益的特征優(yōu)化選擇方法[J]. 劉慶和,梁正友. 計算機工程與應(yīng)用. 2011(12)
[7]基于聚類分析的稅種分類方法[J]. 岳為民. 武漢理工大學(xué)學(xué)報(信息與管理工程版). 2009(03)
[8]稅收收入預(yù)測的時間序列方法選擇[J]. 郭劍川,劉黎明. 統(tǒng)計與決策. 2009(05)
[9]遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)在納稅評估中的應(yīng)用[J]. 蔡偉鴻,郭陳熹. 汕頭大學(xué)學(xué)報(自然科學(xué)版). 2008(02)
[10]一個高效的KNN分類算法[J]. 張著英,黃玉龍,王翰虎. 計算機科學(xué). 2008(03)
碩士論文
[1]數(shù)據(jù)挖掘在稅收分析中的應(yīng)用研究[D]. 劉文楠.財政部財政科學(xué)研究所 2014
[2]基于聚類的數(shù)據(jù)挖掘技術(shù)在稅源監(jiān)控中的應(yīng)用[D]. 張佳瑤.財政部財政科學(xué)研究所 2013
[3]基于關(guān)聯(lián)規(guī)則挖掘的分類算法研究[D]. 許立莎.西安科技大學(xué) 2012
[4]基于數(shù)據(jù)倉庫技術(shù)的稅收分析系統(tǒng)的研究與設(shè)計[D]. 王慧林.河南理工大學(xué) 2009
[5]納稅信用等級評定分類方法應(yīng)用研究[D]. 徐邵兵.合肥工業(yè)大學(xué) 2007
[6]聚類分析在稅源管理中的應(yīng)用研究[D]. 張建民.合肥工業(yè)大學(xué) 2007
[7]數(shù)據(jù)倉庫在納稅評估系統(tǒng)中的應(yīng)用[D]. 于曉紅.中國海洋大學(xué) 2006
[8]我國稅收收入預(yù)測模型探討及實證分析[D]. 朱爭.蘇州大學(xué) 2006
本文編號:3270274
【文章來源】:重慶大學(xué)重慶市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【部分圖文】:
數(shù)據(jù)倉庫關(guān)系圖
料數(shù)據(jù)存儲與管理OLAP服務(wù) 前端數(shù)據(jù)集市圖 2.4 數(shù)據(jù)倉庫關(guān)系圖Figure 2.4 Data warehouse diagram供了支持決策分析全過程的解決方案,包括:從出決策所需要的數(shù)據(jù);對源數(shù)據(jù)進行清理和整合;根據(jù)所需要的支持決策,對數(shù)據(jù)進行組織和分現(xiàn)出來。數(shù)據(jù)倉庫層次結(jié)構(gòu)包括第一層的數(shù)據(jù)獲高層為數(shù)據(jù)挖掘?qū)印?shù)據(jù)挖掘?qū)?
圖 3.1 納稅數(shù)據(jù)雪花模型Figure 3.1 Snowflake model of tax data根據(jù)圖 3.1 中的雪花數(shù)據(jù)模型,它由一個事實表和 3 個維度表(真實分析時不止 4 個)組成,事實表表示的是一段時間內(nèi)某一地區(qū)某一行業(yè)內(nèi)企業(yè)繳稅的所有記錄,時間表通過年、月、日的組合來表示稅收數(shù)據(jù)產(chǎn)生的時間,稅務(wù)機關(guān)表通過稅務(wù)局、稅務(wù)所的組合在空間上表示稅收數(shù)據(jù)的歸屬,行業(yè)則是從企業(yè)所屬的國標類別進行劃分,分析各行業(yè)的稅收分布情況。3.3.3數(shù)據(jù)庫維度表數(shù)據(jù)準備依據(jù)設(shè)計好的雪花模型,在使用 SQL Server Data Tools 建立數(shù)據(jù)倉庫之前,整理數(shù)據(jù)庫內(nèi)事實表中相應(yīng)字段的數(shù)據(jù)字典,作為維度表對事實表中關(guān)鍵屬性進行解釋、描述。因此,本文涉及到的維度表有:DimCZLX(處置類型)、DimDate(時間)、DimDjzclx(登記注冊類型)、DimDwlsgx(單位隸屬關(guān)系)、DimGDGHLX(國地共管)、DimIndustry(行業(yè))、DimJdxz(街道鄉(xiāng)鎮(zhèn))、DimNSRZT(納稅人主體)、DimSbfs(申報發(fā)生)、DimSbsx(申報屬性)、DimSjgsdq(數(shù)據(jù)歸屬地區(qū))
【參考文獻】:
期刊論文
[1]大數(shù)據(jù)時代強化稅收風(fēng)險管理的思考[J]. 彭驥鳴,陳愛明,韓曉琴. 稅收經(jīng)濟研究. 2014(05)
[2]大數(shù)據(jù)時代的機遇與挑戰(zhàn)[J]. 鄔賀銓. 中國經(jīng)貿(mào). 2013(06)
[3]特征選擇方法綜述[J]. 姚旭,王曉丹,張玉璽,權(quán)文. 控制與決策. 2012(02)
[4]數(shù)據(jù)挖掘中分類算法綜述[J]. 李玲俐. 重慶師范大學(xué)學(xué)報(自然科學(xué)版). 2011(04)
[5]關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘在稅務(wù)稽查系統(tǒng)中的應(yīng)用[J]. 徐慎剛. 財政監(jiān)督. 2011(19)
[6]一種基于信息增益的特征優(yōu)化選擇方法[J]. 劉慶和,梁正友. 計算機工程與應(yīng)用. 2011(12)
[7]基于聚類分析的稅種分類方法[J]. 岳為民. 武漢理工大學(xué)學(xué)報(信息與管理工程版). 2009(03)
[8]稅收收入預(yù)測的時間序列方法選擇[J]. 郭劍川,劉黎明. 統(tǒng)計與決策. 2009(05)
[9]遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)在納稅評估中的應(yīng)用[J]. 蔡偉鴻,郭陳熹. 汕頭大學(xué)學(xué)報(自然科學(xué)版). 2008(02)
[10]一個高效的KNN分類算法[J]. 張著英,黃玉龍,王翰虎. 計算機科學(xué). 2008(03)
碩士論文
[1]數(shù)據(jù)挖掘在稅收分析中的應(yīng)用研究[D]. 劉文楠.財政部財政科學(xué)研究所 2014
[2]基于聚類的數(shù)據(jù)挖掘技術(shù)在稅源監(jiān)控中的應(yīng)用[D]. 張佳瑤.財政部財政科學(xué)研究所 2013
[3]基于關(guān)聯(lián)規(guī)則挖掘的分類算法研究[D]. 許立莎.西安科技大學(xué) 2012
[4]基于數(shù)據(jù)倉庫技術(shù)的稅收分析系統(tǒng)的研究與設(shè)計[D]. 王慧林.河南理工大學(xué) 2009
[5]納稅信用等級評定分類方法應(yīng)用研究[D]. 徐邵兵.合肥工業(yè)大學(xué) 2007
[6]聚類分析在稅源管理中的應(yīng)用研究[D]. 張建民.合肥工業(yè)大學(xué) 2007
[7]數(shù)據(jù)倉庫在納稅評估系統(tǒng)中的應(yīng)用[D]. 于曉紅.中國海洋大學(xué) 2006
[8]我國稅收收入預(yù)測模型探討及實證分析[D]. 朱爭.蘇州大學(xué) 2006
本文編號:3270274
本文鏈接:http://sikaile.net/jingjilunwen/jiliangjingjilunwen/3270274.html
最近更新
教材專著