基于數(shù)據(jù)挖掘的員工流失預(yù)測研究
發(fā)布時(shí)間:2021-10-02 01:37
一個(gè)企業(yè)的成功不僅僅是靠偶然的運(yùn)氣,更多的是靠團(tuán)隊(duì)的努力,靠員工對公司的奮斗,正是這些因素使公司可以做強(qiáng)做大。由此看來,員工對企業(yè)的重要性不言而喻。雖然“舊人去,新人來”的現(xiàn)象在企業(yè)中很普遍,一定范圍內(nèi)的員工流動(dòng)對企業(yè)的生存發(fā)展沒有太大影響,而且可能會(huì)讓企業(yè)充滿生機(jī),增強(qiáng)員工活力,但高比例的員工流失,不僅會(huì)增加企業(yè)的財(cái)政負(fù)擔(dān),而且由于新員工對于公司業(yè)務(wù)不熟悉而導(dǎo)致的效率低下所產(chǎn)生的一系列經(jīng)濟(jì)損失,嚴(yán)重來說,甚至可能會(huì)造成公司核心機(jī)密泄露,從而使企業(yè)陷入困境。如果對這種問題不加以有效的控制,最終將會(huì)對企業(yè)的可持續(xù)健康發(fā)展造成影響,甚至有可能會(huì)讓企業(yè)轟然倒下。因此,幫助企業(yè)建立一個(gè)合理高效的員工流失預(yù)測模型,幫助企業(yè)鎖定具有高流失傾向的員工,減少損失,顯得尤為重要。本文以XYZ公司所提供的4410條人力資源員工數(shù)據(jù)為基礎(chǔ),借助SPSS Statistics 20.0軟件,在對數(shù)據(jù)進(jìn)行類型轉(zhuǎn)換、刪除缺失值等預(yù)處理工作后,運(yùn)用SPSS Modeler 18.0軟件,對無關(guān)變量進(jìn)行剔除,再對剔除后的變量進(jìn)行單變量流失預(yù)測能力檢驗(yàn),最后采用正態(tài)分布檢驗(yàn)和兩獨(dú)立樣本非參數(shù)檢驗(yàn)確定最終預(yù)測建模指標(biāo),采...
【文章來源】:長江大學(xué)湖北省
【文章頁數(shù)】:81 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-2支持向量機(jī)數(shù)學(xué)模型
第2章數(shù)據(jù)挖掘理論82maxb,(2-1)s.t.ii,,2,101))*((nibxy,(2-2)顯然,要想使2/||ω||取得最大值其實(shí)就是要讓||ω||最校則公式(2-1)也可這樣寫:2,21minb(2-3)s.t.ii,,2,101))*((nibxy,(2-4)之后可以使用Lagrange系數(shù)方法對公式(2-3)和公式(2-4)進(jìn)行求解,得到ω和b的最優(yōu)值ω*、b*。最后得到?jīng)Q策函數(shù):)sgn()(**bxxf(2-5)然而在現(xiàn)實(shí)中,實(shí)際遇到的問題可能沒有像圖2-2中那樣樂觀,在現(xiàn)實(shí)中很難遇到合適的核函數(shù)使訓(xùn)練集在樣本空間中線性可分,這時(shí)候就是線性不可分問題,如圖2-3所示。圖2-3線性不可分Figure2-3LinearInseparability線性不可分意味著某些樣本點(diǎn)落在超平面與邊界之間。為解決這一問題,可以對訓(xùn)練集中的所有樣本點(diǎn)都引入一個(gè)松弛變量i,使所有樣本點(diǎn)的間隔都大于等于1,這樣限制條件就成為:iii,,2,1-1))*((nibxy,(2-6)其中,i0。同時(shí),每引入一個(gè)松弛變量i,支付一個(gè)代價(jià)i0,則目標(biāo)函數(shù)就變?yōu)椋?
第2章數(shù)據(jù)挖掘理論15圖2-4ROC曲線Figure2-4ROCCurveROC曲線下方面積簡稱為AUC,是評(píng)價(jià)二分類模型性能的一個(gè)可靠的整體度量。AUC值的范圍為0.0到1.0。若AUC<0.5,不符合真實(shí)情況,在實(shí)際生活中很少出現(xiàn);若AUC=0.5,說明建立的模型沒有參考價(jià)值;在AUC值>0.5的情況下,AUC越接近1,說明二分類預(yù)測模型的效果越好;AUC在0.5到0.7之間,說明模型的預(yù)測效果準(zhǔn)確性較低;AUC在0.7到0.9之間,說明模型的預(yù)測效果雖然具有一定的準(zhǔn)確性,但是有待提高;AUC值>0.9時(shí),說明模型有非常好的效果。2.4本章小結(jié)本章主要介紹了數(shù)據(jù)挖掘相關(guān)理論。首先系統(tǒng)介紹了數(shù)據(jù)挖掘概念、任務(wù)和流程,接著介紹了分類建模原理,之后重點(diǎn)介紹了本文使用的支持向量機(jī)算法、隨機(jī)森林算法、C5.0決策樹算法和樸素貝葉斯算法,最后講述模型評(píng)價(jià)方法,即混淆矩陣、ROC曲線和AUC值。
【參考文獻(xiàn)】:
期刊論文
[1]隨機(jī)森林模型分析大學(xué)生體質(zhì)健康影響因素:來源于同濟(jì)大學(xué)568名學(xué)生的問卷調(diào)查[J]. 馮敏,馮輝,張一雨,王樂軍. 中國組織工程研究. 2019(23)
[2]公立醫(yī)院人員流失因素分析及對策研究[J]. 王玉芳,張彤,朱虹,錢玉琪. 江蘇衛(wèi)生事業(yè)管理. 2019(05)
[3]小米智能手機(jī)定價(jià)現(xiàn)狀及問題分析——基于隨機(jī)森林模型[J]. 段剛龍,張興冉,馬鑫,王建仁. 當(dāng)代經(jīng)濟(jì). 2019(05)
[4]Study on Prediction Model of Number of Rainstorm Days in Summer Based on C5.0 Decision Tree Algorithm[J]. Shi Yimin,Chen Weiwei,Zhu Yunfeng. Meteorological and Environmental Research. 2019(02)
[5]基于樸素貝葉斯的高校教師工作量考核分類預(yù)測研究[J]. 劉占波,閆實(shí),王曉麗. 軟件. 2019(03)
[6]基于支持向量機(jī)模型的地鐵進(jìn)站客流量預(yù)測[J]. 郭文,肖為周,秦菲菲. 河北工業(yè)科技. 2019(01)
[7]一種基于樸素貝葉斯分類算法的數(shù)據(jù)預(yù)測[J]. 刁海軍,尹釗. 電大理工. 2018(04)
[8]醫(yī)院骨干人才流失的原因及其對策探討[J]. 倪婧妍,邵茵,張穎,蔡璇斐. 江蘇衛(wèi)生事業(yè)管理. 2018(06)
[9]電信客戶流失的組合預(yù)測模型[J]. 余路. 華僑大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(05)
[10]數(shù)據(jù)挖掘中SVM模型與貝葉斯模型的比較分析——基于電信客戶的流失分析[J]. 張慧,徐勇. 平頂山學(xué)院學(xué)報(bào). 2016(02)
碩士論文
[1]基于財(cái)經(jīng)新聞文本數(shù)據(jù)挖掘的股市預(yù)測研究[D]. 雍舜.浙江財(cái)經(jīng)大學(xué) 2019
[2]基于算法融合的客戶流失預(yù)測方法研究[D]. 趙婷婷.東北財(cái)經(jīng)大學(xué) 2018
[3]基于隨機(jī)森林與GBDT的社會(huì)醫(yī)療保險(xiǎn)欺詐識(shí)別問題研究[D]. 裴晨.東北財(cái)經(jīng)大學(xué) 2018
[4]基于數(shù)據(jù)挖掘的陌生人社交APP用戶流失預(yù)測模型研究[D]. 鐘文鑫.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2018
[5]基于COX比例風(fēng)險(xiǎn)模型的在線游戲玩家流失預(yù)測研究[D]. 王嬌.暨南大學(xué) 2018
[6]基于Price-Mueller(2000)模型的L公司人才流失問題研究[D]. 張妍.青島大學(xué) 2018
[7]基于數(shù)據(jù)挖掘的用戶流失預(yù)測[D]. 游子吟.南京師范大學(xué) 2018
[8]數(shù)據(jù)挖掘在電信客戶分析中的應(yīng)用研究[D]. 南曉敏.西安理工大學(xué) 2016
[9]基于COX模型的某跨國企業(yè)人員流失預(yù)測模型研究[D]. 杜彩蘭.大連理工大學(xué) 2016
[10]基于決策樹的員工流失預(yù)警信息系統(tǒng)研究[D]. 何正強(qiáng).成都理工大學(xué) 2016
本文編號(hào):3417748
【文章來源】:長江大學(xué)湖北省
【文章頁數(shù)】:81 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-2支持向量機(jī)數(shù)學(xué)模型
第2章數(shù)據(jù)挖掘理論82maxb,(2-1)s.t.ii,,2,101))*((nibxy,(2-2)顯然,要想使2/||ω||取得最大值其實(shí)就是要讓||ω||最校則公式(2-1)也可這樣寫:2,21minb(2-3)s.t.ii,,2,101))*((nibxy,(2-4)之后可以使用Lagrange系數(shù)方法對公式(2-3)和公式(2-4)進(jìn)行求解,得到ω和b的最優(yōu)值ω*、b*。最后得到?jīng)Q策函數(shù):)sgn()(**bxxf(2-5)然而在現(xiàn)實(shí)中,實(shí)際遇到的問題可能沒有像圖2-2中那樣樂觀,在現(xiàn)實(shí)中很難遇到合適的核函數(shù)使訓(xùn)練集在樣本空間中線性可分,這時(shí)候就是線性不可分問題,如圖2-3所示。圖2-3線性不可分Figure2-3LinearInseparability線性不可分意味著某些樣本點(diǎn)落在超平面與邊界之間。為解決這一問題,可以對訓(xùn)練集中的所有樣本點(diǎn)都引入一個(gè)松弛變量i,使所有樣本點(diǎn)的間隔都大于等于1,這樣限制條件就成為:iii,,2,1-1))*((nibxy,(2-6)其中,i0。同時(shí),每引入一個(gè)松弛變量i,支付一個(gè)代價(jià)i0,則目標(biāo)函數(shù)就變?yōu)椋?
第2章數(shù)據(jù)挖掘理論15圖2-4ROC曲線Figure2-4ROCCurveROC曲線下方面積簡稱為AUC,是評(píng)價(jià)二分類模型性能的一個(gè)可靠的整體度量。AUC值的范圍為0.0到1.0。若AUC<0.5,不符合真實(shí)情況,在實(shí)際生活中很少出現(xiàn);若AUC=0.5,說明建立的模型沒有參考價(jià)值;在AUC值>0.5的情況下,AUC越接近1,說明二分類預(yù)測模型的效果越好;AUC在0.5到0.7之間,說明模型的預(yù)測效果準(zhǔn)確性較低;AUC在0.7到0.9之間,說明模型的預(yù)測效果雖然具有一定的準(zhǔn)確性,但是有待提高;AUC值>0.9時(shí),說明模型有非常好的效果。2.4本章小結(jié)本章主要介紹了數(shù)據(jù)挖掘相關(guān)理論。首先系統(tǒng)介紹了數(shù)據(jù)挖掘概念、任務(wù)和流程,接著介紹了分類建模原理,之后重點(diǎn)介紹了本文使用的支持向量機(jī)算法、隨機(jī)森林算法、C5.0決策樹算法和樸素貝葉斯算法,最后講述模型評(píng)價(jià)方法,即混淆矩陣、ROC曲線和AUC值。
【參考文獻(xiàn)】:
期刊論文
[1]隨機(jī)森林模型分析大學(xué)生體質(zhì)健康影響因素:來源于同濟(jì)大學(xué)568名學(xué)生的問卷調(diào)查[J]. 馮敏,馮輝,張一雨,王樂軍. 中國組織工程研究. 2019(23)
[2]公立醫(yī)院人員流失因素分析及對策研究[J]. 王玉芳,張彤,朱虹,錢玉琪. 江蘇衛(wèi)生事業(yè)管理. 2019(05)
[3]小米智能手機(jī)定價(jià)現(xiàn)狀及問題分析——基于隨機(jī)森林模型[J]. 段剛龍,張興冉,馬鑫,王建仁. 當(dāng)代經(jīng)濟(jì). 2019(05)
[4]Study on Prediction Model of Number of Rainstorm Days in Summer Based on C5.0 Decision Tree Algorithm[J]. Shi Yimin,Chen Weiwei,Zhu Yunfeng. Meteorological and Environmental Research. 2019(02)
[5]基于樸素貝葉斯的高校教師工作量考核分類預(yù)測研究[J]. 劉占波,閆實(shí),王曉麗. 軟件. 2019(03)
[6]基于支持向量機(jī)模型的地鐵進(jìn)站客流量預(yù)測[J]. 郭文,肖為周,秦菲菲. 河北工業(yè)科技. 2019(01)
[7]一種基于樸素貝葉斯分類算法的數(shù)據(jù)預(yù)測[J]. 刁海軍,尹釗. 電大理工. 2018(04)
[8]醫(yī)院骨干人才流失的原因及其對策探討[J]. 倪婧妍,邵茵,張穎,蔡璇斐. 江蘇衛(wèi)生事業(yè)管理. 2018(06)
[9]電信客戶流失的組合預(yù)測模型[J]. 余路. 華僑大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(05)
[10]數(shù)據(jù)挖掘中SVM模型與貝葉斯模型的比較分析——基于電信客戶的流失分析[J]. 張慧,徐勇. 平頂山學(xué)院學(xué)報(bào). 2016(02)
碩士論文
[1]基于財(cái)經(jīng)新聞文本數(shù)據(jù)挖掘的股市預(yù)測研究[D]. 雍舜.浙江財(cái)經(jīng)大學(xué) 2019
[2]基于算法融合的客戶流失預(yù)測方法研究[D]. 趙婷婷.東北財(cái)經(jīng)大學(xué) 2018
[3]基于隨機(jī)森林與GBDT的社會(huì)醫(yī)療保險(xiǎn)欺詐識(shí)別問題研究[D]. 裴晨.東北財(cái)經(jīng)大學(xué) 2018
[4]基于數(shù)據(jù)挖掘的陌生人社交APP用戶流失預(yù)測模型研究[D]. 鐘文鑫.首都經(jīng)濟(jì)貿(mào)易大學(xué) 2018
[5]基于COX比例風(fēng)險(xiǎn)模型的在線游戲玩家流失預(yù)測研究[D]. 王嬌.暨南大學(xué) 2018
[6]基于Price-Mueller(2000)模型的L公司人才流失問題研究[D]. 張妍.青島大學(xué) 2018
[7]基于數(shù)據(jù)挖掘的用戶流失預(yù)測[D]. 游子吟.南京師范大學(xué) 2018
[8]數(shù)據(jù)挖掘在電信客戶分析中的應(yīng)用研究[D]. 南曉敏.西安理工大學(xué) 2016
[9]基于COX模型的某跨國企業(yè)人員流失預(yù)測模型研究[D]. 杜彩蘭.大連理工大學(xué) 2016
[10]基于決策樹的員工流失預(yù)警信息系統(tǒng)研究[D]. 何正強(qiáng).成都理工大學(xué) 2016
本文編號(hào):3417748
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3417748.html
最近更新
教材專著