分類算法在納稅評估模型的實證分析
發(fā)布時間:2020-12-20 17:13
稅務(wù)評估是指收稅單位運用財稅信息依法對監(jiān)管對象的涉稅行為進行評估。金稅三期工程加強了大數(shù)據(jù)納稅風險評估的實施力度,納稅評估系統(tǒng)的信息化得到全面的提升。大數(shù)據(jù)時代下的稅務(wù)管理需要結(jié)合人工智能技術(shù)和數(shù)據(jù)挖掘算法交叉分析企業(yè)納稅數(shù)據(jù),實時監(jiān)控企業(yè)的涉稅行為。本文將納稅評估系統(tǒng)和機器學習相互融合,創(chuàng)新出了更具智能化的分類算法。首先探討了稅務(wù)評估的內(nèi)涵、特點及目前學術(shù)界關(guān)于此課題的研究程度。其次介紹了現(xiàn)在機器學習中的五種分類算法及理論知識,并闡述了每種分類算法的好壞及適用的場景。然后,針對重慶市企業(yè)房產(chǎn)稅數(shù)據(jù),我們對數(shù)據(jù)進行了預處理和清洗,然后利用特征工程挑選了重要指標。本文分別對隨機森林、GBDT、XGBOOST和LightGBM算法展開了實證分析;贚ightGBM算法,提出了LightGBM和Logistic混合分類算法,改進了LightGBM算法。最后,對比五種算法的結(jié)果,剖析結(jié)果產(chǎn)生的原因。本文研究表明,XGBOOST算法在企業(yè)房產(chǎn)稅納稅評估數(shù)據(jù)中分類效果最好,GBDT算法的分類效果次之。
【文章來源】:重慶大學重慶市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:51 頁
【學位級別】:碩士
【文章目錄】:
中文摘要
英文摘要
1 緒論
1.1 研究背景目的及意義
1.1.1 研究背景
1.1.2 研究目的
1.1.3 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國內(nèi)研究現(xiàn)狀
1.2.2 國外研究現(xiàn)狀
1.3 行業(yè)研究的不足
1.4 論文的創(chuàng)新點和框架
1.4.1 論文的創(chuàng)新點
1.4.2 論文的框架
2 算法介紹
2.1 隨機森林算法
2.2 GBDT算法
2.2.1 回歸決策樹(Regression Decision Tree)
2.2.2 梯度迭代(Gradient Boosting)
2.2.3 縮減(Shrinkage)
2.3 XGBOOST算法
2.4 Light GBM算法
2.5 Logistic回歸算法
3 模型指標體系構(gòu)造
3.1 數(shù)據(jù)準備
3.2 數(shù)據(jù)預處理
3.2.1 數(shù)據(jù)清洗
3.2.2 數(shù)據(jù)集成
3.2.3 數(shù)據(jù)變換
3.3 特征選擇
3.4 模型評價
3.4.1 分類評估指標
3.4.2 ROC曲線和AUC面積
3.4.3 K-S圖
4 模型實證分析
4.1 隨機森林算法的實證分析
4.2 GBDT算法的實證分析
4.3 XGBOOST算法的實證分析
4.4 Light GBM算法的實證分析
4.5 基于Light GBM和Logistic混合分類算法的實證分析
4.6 實驗及結(jié)果分析
5 總結(jié)與展望
致謝
參考文獻
附錄
【參考文獻】:
期刊論文
[1]基于GBDT的線上交易欺詐偵測研究[J]. 趙金濤,邱雪濤,何東杰. 微型電腦應用. 2017(10)
[2]基于遺傳算法的BP神經(jīng)網(wǎng)絡(luò)隧道施工參數(shù)正反演分析與應用[J]. 王睿,漆泰岳,馮劍,雷波,李延. 鐵道學報. 2016(04)
[3]模糊粗糙集理論在納稅評估中的應用[J]. 屈世富,萬旺根,劉維曉,劉晗. 計算機仿真. 2010(07)
[4]規(guī)則和流程管理在納稅評估系統(tǒng)中的應用研究[J]. 高萍,胡恒,宋興彬,王勇. 計算機工程與設(shè)計. 2010(09)
[5]基于正態(tài)分布的增值稅納稅評估研究[J]. 唐文娟,王喜成. 大眾科技. 2009(11)
[6]基于C4.5挖掘算法的納稅評估模型設(shè)計[J]. 倪濤,劉耀. 現(xiàn)代計算機(專業(yè)版). 2007(09)
[7]納稅評估制度國際比較與借鑒[J]. 蘇強. 財會月刊. 2007(05)
[8]納稅評估制度框架的構(gòu)建要素[J]. 梁云鳳,徐光濤,吳婧. 稅務(wù)研究. 2006(02)
[9]Tobit模型與稅收稽查[J]. 李選舉. 統(tǒng)計研究. 2000(01)
博士論文
[1]針對類別不平衡和代價敏感分類問題的特征選擇和分類算法[D]. 王瑞.中國科學技術(shù)大學 2013
碩士論文
[1]基于R+Hadoop中藥材大數(shù)據(jù)的分析及預測[D]. 王莎莎.蘭州理工大學 2016
[2]中小企業(yè)納稅遵從成本影響因素研究[D]. 胡艷容.江西農(nóng)業(yè)大學 2013
本文編號:2928243
【文章來源】:重慶大學重慶市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:51 頁
【學位級別】:碩士
【文章目錄】:
中文摘要
英文摘要
1 緒論
1.1 研究背景目的及意義
1.1.1 研究背景
1.1.2 研究目的
1.1.3 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國內(nèi)研究現(xiàn)狀
1.2.2 國外研究現(xiàn)狀
1.3 行業(yè)研究的不足
1.4 論文的創(chuàng)新點和框架
1.4.1 論文的創(chuàng)新點
1.4.2 論文的框架
2 算法介紹
2.1 隨機森林算法
2.2 GBDT算法
2.2.1 回歸決策樹(Regression Decision Tree)
2.2.2 梯度迭代(Gradient Boosting)
2.2.3 縮減(Shrinkage)
2.3 XGBOOST算法
2.4 Light GBM算法
2.5 Logistic回歸算法
3 模型指標體系構(gòu)造
3.1 數(shù)據(jù)準備
3.2 數(shù)據(jù)預處理
3.2.1 數(shù)據(jù)清洗
3.2.2 數(shù)據(jù)集成
3.2.3 數(shù)據(jù)變換
3.3 特征選擇
3.4 模型評價
3.4.1 分類評估指標
3.4.2 ROC曲線和AUC面積
3.4.3 K-S圖
4 模型實證分析
4.1 隨機森林算法的實證分析
4.2 GBDT算法的實證分析
4.3 XGBOOST算法的實證分析
4.4 Light GBM算法的實證分析
4.5 基于Light GBM和Logistic混合分類算法的實證分析
4.6 實驗及結(jié)果分析
5 總結(jié)與展望
致謝
參考文獻
附錄
【參考文獻】:
期刊論文
[1]基于GBDT的線上交易欺詐偵測研究[J]. 趙金濤,邱雪濤,何東杰. 微型電腦應用. 2017(10)
[2]基于遺傳算法的BP神經(jīng)網(wǎng)絡(luò)隧道施工參數(shù)正反演分析與應用[J]. 王睿,漆泰岳,馮劍,雷波,李延. 鐵道學報. 2016(04)
[3]模糊粗糙集理論在納稅評估中的應用[J]. 屈世富,萬旺根,劉維曉,劉晗. 計算機仿真. 2010(07)
[4]規(guī)則和流程管理在納稅評估系統(tǒng)中的應用研究[J]. 高萍,胡恒,宋興彬,王勇. 計算機工程與設(shè)計. 2010(09)
[5]基于正態(tài)分布的增值稅納稅評估研究[J]. 唐文娟,王喜成. 大眾科技. 2009(11)
[6]基于C4.5挖掘算法的納稅評估模型設(shè)計[J]. 倪濤,劉耀. 現(xiàn)代計算機(專業(yè)版). 2007(09)
[7]納稅評估制度國際比較與借鑒[J]. 蘇強. 財會月刊. 2007(05)
[8]納稅評估制度框架的構(gòu)建要素[J]. 梁云鳳,徐光濤,吳婧. 稅務(wù)研究. 2006(02)
[9]Tobit模型與稅收稽查[J]. 李選舉. 統(tǒng)計研究. 2000(01)
博士論文
[1]針對類別不平衡和代價敏感分類問題的特征選擇和分類算法[D]. 王瑞.中國科學技術(shù)大學 2013
碩士論文
[1]基于R+Hadoop中藥材大數(shù)據(jù)的分析及預測[D]. 王莎莎.蘭州理工大學 2016
[2]中小企業(yè)納稅遵從成本影響因素研究[D]. 胡艷容.江西農(nóng)業(yè)大學 2013
本文編號:2928243
本文鏈接:http://sikaile.net/guanlilunwen/shuishoucaizhenglunwen/2928243.html
教材專著