基于集成學(xué)習(xí)的非均衡財(cái)務(wù)數(shù)據(jù)的分類(lèi)研究
發(fā)布時(shí)間:2021-04-14 04:55
隨著經(jīng)濟(jì)全球化的快速發(fā)展,市場(chǎng)競(jìng)爭(zhēng)日趨激烈,給企業(yè)帶來(lái)發(fā)展和機(jī)遇的同時(shí),也帶來(lái)了大量的風(fēng)險(xiǎn)和挑戰(zhàn)。及時(shí)發(fā)現(xiàn)企業(yè)自身可能存在的財(cái)務(wù)風(fēng)險(xiǎn),不僅能避免相關(guān)者的利益受損,也有利于宏觀經(jīng)濟(jì)的穩(wěn)定發(fā)展。研究人員在財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)方面構(gòu)建了大量相關(guān)模型,但這些方法較少考慮到財(cái)務(wù)數(shù)據(jù)非均衡的特性,使得少數(shù)類(lèi)樣本的識(shí)別率較低,模型的分類(lèi)性能較差。鑒于此,本文使用集成學(xué)習(xí)算法對(duì)非均衡的財(cái)務(wù)數(shù)據(jù)分類(lèi)進(jìn)行研究,補(bǔ)充優(yōu)化理論的同時(shí),經(jīng)實(shí)證分析后還可以得到性能更好的分類(lèi)模型,解決傳統(tǒng)模型未將財(cái)務(wù)數(shù)據(jù)作為非均衡數(shù)據(jù)處理而導(dǎo)致的分類(lèi)不合理的問(wèn)題。本文選取2014至2018年間被特別處理的124家制造業(yè)上市公司作為研究樣本,沒(méi)有按照傳統(tǒng)模型中1:1的比例選擇正常經(jīng)營(yíng)的公司,而是基于前人研究的成果使用1:3的比例選擇了372家正常公司來(lái)增加原始數(shù)據(jù)集的真實(shí)性。從盈利能力、償債能力、成長(zhǎng)能力、營(yíng)運(yùn)能力、現(xiàn)金流量、資本結(jié)構(gòu)、股權(quán)治理結(jié)構(gòu)、宏觀經(jīng)濟(jì)觀測(cè)指標(biāo)和影響制造業(yè)發(fā)展的重要因素中初步選出2大類(lèi)8小類(lèi)共28項(xiàng)比率指標(biāo)。本文主要針對(duì)非均衡財(cái)務(wù)數(shù)據(jù)分類(lèi)指標(biāo)的選定和模型的構(gòu)建與評(píng)估兩個(gè)方面進(jìn)行研究:(1)構(gòu)建分類(lèi)指標(biāo)體系。在建立模型前...
【文章來(lái)源】:山西大學(xué)山西省
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
006--2019年退市公司數(shù)量匯總
基于集成學(xué)習(xí)的非均衡財(cái)務(wù)數(shù)據(jù)的分類(lèi)研究21.1.2研究意義基于理論層面,研究人員在財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)方面構(gòu)建了大量相關(guān)模型,但這些方法在實(shí)驗(yàn)驗(yàn)證中卻沒(méi)有充分考慮到數(shù)據(jù)的特性,使得少數(shù)類(lèi)樣本的識(shí)別率較低,模型的分類(lèi)性能較差;谟脕(lái)進(jìn)行分類(lèi)的財(cái)務(wù)數(shù)據(jù)大多是非均衡的,因此需要構(gòu)建滿足數(shù)據(jù)特性的模型,補(bǔ)充優(yōu)化理論研究的同時(shí),還可以得到性能更好的分類(lèi)模型,解決傳統(tǒng)模型未將財(cái)務(wù)數(shù)據(jù)作為非均衡數(shù)據(jù)處理而導(dǎo)致的分類(lèi)不合理的問(wèn)題;趯(shí)踐層面,企業(yè)能否正常平穩(wěn)運(yùn)行、市場(chǎng)能否持續(xù)保持穩(wěn)定、國(guó)家能否保障金融安全,財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)都起到了至關(guān)重要的作用。隨著經(jīng)濟(jì)全球化的快速發(fā)展,市場(chǎng)競(jìng)爭(zhēng)日趨激烈,給企業(yè)帶來(lái)發(fā)展和機(jī)遇的同時(shí),也帶來(lái)了大量的風(fēng)險(xiǎn)和挑戰(zhàn)。及時(shí)發(fā)現(xiàn)企業(yè)自身可能存在的財(cái)務(wù)風(fēng)險(xiǎn),不僅能避免相關(guān)者的利益受損,也有利于宏觀經(jīng)濟(jì)的穩(wěn)定發(fā)展。1.2研究思路和方法1.2.1研究思路圖1.2論文整體研究思路本文的研究思路包含三個(gè)階段:選題階段注重文獻(xiàn)資料的收集整理;準(zhǔn)備階段注重理論的學(xué)習(xí)和原始數(shù)據(jù)的收集;實(shí)證分析階段注重?cái)?shù)據(jù)的分析和模型的建立。1.2.2研究方法本文在進(jìn)行研究分析時(shí)主要用到了以下方法:第一,文獻(xiàn)分析研究法。本文在現(xiàn)有文獻(xiàn)的基礎(chǔ)上,總結(jié)了當(dāng)前非均衡數(shù)據(jù)分
第三章集成學(xué)習(xí)相關(guān)理論算法的介紹11第三章集成學(xué)習(xí)相關(guān)理論算法的介紹3.1集成學(xué)習(xí)聚合一組模型進(jìn)行預(yù)測(cè),得到的預(yù)測(cè)結(jié)果通常比單個(gè)模型的效果要好,這樣的一組模型稱(chēng)為集成。這種組合技術(shù),稱(chēng)為集成學(xué)習(xí)。集成學(xué)習(xí)的優(yōu)勢(shì)在于即使每個(gè)分類(lèi)器都是弱學(xué)習(xí)器,通過(guò)集成依然可以實(shí)現(xiàn)一個(gè)強(qiáng)學(xué)習(xí)器,克服單一分類(lèi)器產(chǎn)生的弊端,提升整體算法的性能,且有較高的準(zhǔn)確率,這使得集成學(xué)習(xí)成為機(jī)器學(xué)習(xí)領(lǐng)域中較為熱門(mén)的學(xué)習(xí)方法。集成學(xué)習(xí)(EnsembleLearning)屬于有監(jiān)督學(xué)習(xí),是一個(gè)戰(zhàn)略性地生成和組合多個(gè)模型以更好地解決特定機(jī)器學(xué)習(xí)問(wèn)題的過(guò)程,以改善單個(gè)模型的性能和減少選擇效果不佳模型的可能性為目的。集成學(xué)習(xí)中使用平均(Averaging)和表決(Voting)的方式將不同的分類(lèi)器結(jié)合在一起,其中Voting又可分為多數(shù)投票(MajorityVoting)和加權(quán)多數(shù)投票(WeightedMajorityVoting),代表算法分別是隨機(jī)森林和Adaboost。集成學(xué)習(xí)算法能夠運(yùn)行成功并且有效解決非均衡分類(lèi)問(wèn)題的關(guān)鍵在于,它能夠更正單一分類(lèi)器所犯的錯(cuò)誤,同時(shí)根據(jù)不同的分類(lèi)器和數(shù)據(jù)類(lèi)型,只需要選擇不同的超參數(shù)就可以提升模型性能。集成學(xué)習(xí)算法可分為袋裝法(Bagging)算法和提升法(Boosting)算法,如圖3.1所示。Bagging算法屬于并行算法,單一學(xué)習(xí)器之間沒(méi)有相關(guān)關(guān)系,能夠降低樣本方差。Boosting算法屬于串行算法,各學(xué)習(xí)器之間存在很強(qiáng)的相關(guān)關(guān)系,需要根據(jù)前一個(gè)模型的結(jié)果生成下一個(gè)模型。圖3.1集成學(xué)習(xí)算法分類(lèi)
本文編號(hào):3136701
【文章來(lái)源】:山西大學(xué)山西省
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
006--2019年退市公司數(shù)量匯總
基于集成學(xué)習(xí)的非均衡財(cái)務(wù)數(shù)據(jù)的分類(lèi)研究21.1.2研究意義基于理論層面,研究人員在財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)方面構(gòu)建了大量相關(guān)模型,但這些方法在實(shí)驗(yàn)驗(yàn)證中卻沒(méi)有充分考慮到數(shù)據(jù)的特性,使得少數(shù)類(lèi)樣本的識(shí)別率較低,模型的分類(lèi)性能較差;谟脕(lái)進(jìn)行分類(lèi)的財(cái)務(wù)數(shù)據(jù)大多是非均衡的,因此需要構(gòu)建滿足數(shù)據(jù)特性的模型,補(bǔ)充優(yōu)化理論研究的同時(shí),還可以得到性能更好的分類(lèi)模型,解決傳統(tǒng)模型未將財(cái)務(wù)數(shù)據(jù)作為非均衡數(shù)據(jù)處理而導(dǎo)致的分類(lèi)不合理的問(wèn)題;趯(shí)踐層面,企業(yè)能否正常平穩(wěn)運(yùn)行、市場(chǎng)能否持續(xù)保持穩(wěn)定、國(guó)家能否保障金融安全,財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)都起到了至關(guān)重要的作用。隨著經(jīng)濟(jì)全球化的快速發(fā)展,市場(chǎng)競(jìng)爭(zhēng)日趨激烈,給企業(yè)帶來(lái)發(fā)展和機(jī)遇的同時(shí),也帶來(lái)了大量的風(fēng)險(xiǎn)和挑戰(zhàn)。及時(shí)發(fā)現(xiàn)企業(yè)自身可能存在的財(cái)務(wù)風(fēng)險(xiǎn),不僅能避免相關(guān)者的利益受損,也有利于宏觀經(jīng)濟(jì)的穩(wěn)定發(fā)展。1.2研究思路和方法1.2.1研究思路圖1.2論文整體研究思路本文的研究思路包含三個(gè)階段:選題階段注重文獻(xiàn)資料的收集整理;準(zhǔn)備階段注重理論的學(xué)習(xí)和原始數(shù)據(jù)的收集;實(shí)證分析階段注重?cái)?shù)據(jù)的分析和模型的建立。1.2.2研究方法本文在進(jìn)行研究分析時(shí)主要用到了以下方法:第一,文獻(xiàn)分析研究法。本文在現(xiàn)有文獻(xiàn)的基礎(chǔ)上,總結(jié)了當(dāng)前非均衡數(shù)據(jù)分
第三章集成學(xué)習(xí)相關(guān)理論算法的介紹11第三章集成學(xué)習(xí)相關(guān)理論算法的介紹3.1集成學(xué)習(xí)聚合一組模型進(jìn)行預(yù)測(cè),得到的預(yù)測(cè)結(jié)果通常比單個(gè)模型的效果要好,這樣的一組模型稱(chēng)為集成。這種組合技術(shù),稱(chēng)為集成學(xué)習(xí)。集成學(xué)習(xí)的優(yōu)勢(shì)在于即使每個(gè)分類(lèi)器都是弱學(xué)習(xí)器,通過(guò)集成依然可以實(shí)現(xiàn)一個(gè)強(qiáng)學(xué)習(xí)器,克服單一分類(lèi)器產(chǎn)生的弊端,提升整體算法的性能,且有較高的準(zhǔn)確率,這使得集成學(xué)習(xí)成為機(jī)器學(xué)習(xí)領(lǐng)域中較為熱門(mén)的學(xué)習(xí)方法。集成學(xué)習(xí)(EnsembleLearning)屬于有監(jiān)督學(xué)習(xí),是一個(gè)戰(zhàn)略性地生成和組合多個(gè)模型以更好地解決特定機(jī)器學(xué)習(xí)問(wèn)題的過(guò)程,以改善單個(gè)模型的性能和減少選擇效果不佳模型的可能性為目的。集成學(xué)習(xí)中使用平均(Averaging)和表決(Voting)的方式將不同的分類(lèi)器結(jié)合在一起,其中Voting又可分為多數(shù)投票(MajorityVoting)和加權(quán)多數(shù)投票(WeightedMajorityVoting),代表算法分別是隨機(jī)森林和Adaboost。集成學(xué)習(xí)算法能夠運(yùn)行成功并且有效解決非均衡分類(lèi)問(wèn)題的關(guān)鍵在于,它能夠更正單一分類(lèi)器所犯的錯(cuò)誤,同時(shí)根據(jù)不同的分類(lèi)器和數(shù)據(jù)類(lèi)型,只需要選擇不同的超參數(shù)就可以提升模型性能。集成學(xué)習(xí)算法可分為袋裝法(Bagging)算法和提升法(Boosting)算法,如圖3.1所示。Bagging算法屬于并行算法,單一學(xué)習(xí)器之間沒(méi)有相關(guān)關(guān)系,能夠降低樣本方差。Boosting算法屬于串行算法,各學(xué)習(xí)器之間存在很強(qiáng)的相關(guān)關(guān)系,需要根據(jù)前一個(gè)模型的結(jié)果生成下一個(gè)模型。圖3.1集成學(xué)習(xí)算法分類(lèi)
本文編號(hào):3136701
本文鏈接:http://sikaile.net/shoufeilunwen/jjglss/3136701.html
最近更新
教材專(zhuān)著