數(shù)據(jù)挖掘中分類算法的比較分析
本文選題:數(shù)據(jù)挖掘 切入點(diǎn):分類 出處:《天津財(cái)經(jīng)大學(xué)》2016年碩士論文
【摘要】:數(shù)據(jù)的快速大量增長以及廣泛可用使我們步入了真正的數(shù)據(jù)時(shí)代。如何從海量數(shù)據(jù)中挖掘出有價(jià)值的信息已成為人們關(guān)注的重點(diǎn),尤其是數(shù)據(jù)挖掘中的分類技術(shù)研究。從商業(yè)領(lǐng)域到工程實(shí)踐領(lǐng)域再到生物醫(yī)學(xué)領(lǐng)域,只要是涉及將地區(qū)、商品、人群等目標(biāo)變量按照不同屬性區(qū)分開來的問題,都可以使用分類技術(shù)解決。分類算法多種多樣,其中常用算法主要有樸素貝葉斯方法、決策樹、支持向量機(jī)、集成學(xué)習(xí)等等。然而,沒有任何一種算法能夠適用于所有實(shí)際問題,每種分類算法均有其各自不同特點(diǎn)。人們開始不僅僅滿足于通過分類技術(shù)對數(shù)據(jù)集進(jìn)行分析建模來為決策者提供更好的決策依據(jù),同時(shí)更加希望能夠提高解決分類問題的效率,以創(chuàng)造更多的價(jià)值。因此,為高效解決好分類問題,找到不同分類算法的適用環(huán)境及其優(yōu)勢與不足,甚至實(shí)現(xiàn)分類模型的自動(dòng)篩選功能以提高解決分類問題的效率已成為重要需求。但國內(nèi)很少有學(xué)者對原有算法的應(yīng)用進(jìn)行比較,國外學(xué)者M(jìn)ichieet曾對神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)分類和機(jī)器學(xué)習(xí)三種分類技術(shù)進(jìn)行了比較,并將其應(yīng)用到了實(shí)際工業(yè)問題當(dāng)中。而本文將更具體的對樸素貝葉斯、決策樹C5.0、支持向量機(jī)三種分類算法進(jìn)行比較。在對以上算法原理與分類結(jié)果比較準(zhǔn)則進(jìn)行基礎(chǔ)介紹之后,分別選用了涉及社會(huì)、商業(yè)、生物、經(jīng)濟(jì)領(lǐng)域的四個(gè)具有不同實(shí)例數(shù)、缺失值個(gè)數(shù)、用于預(yù)測的屬性個(gè)數(shù)、目標(biāo)類別個(gè)數(shù)的具有一定代表性的實(shí)驗(yàn)案例,然后應(yīng)用以上三種典型分類算法分別建立分類模型,最后在分類結(jié)果準(zhǔn)確率、分類算法穩(wěn)定性、分類算法所得結(jié)果的可解釋性、分類器運(yùn)行速度、處理含有缺失值數(shù)據(jù)集的效果等方面分別對三種算法進(jìn)行比較與分析,得出了以上三種算法應(yīng)用于不同特點(diǎn)數(shù)據(jù)集時(shí)的優(yōu)點(diǎn)與不足。最終通過實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),支持向量機(jī)分類算法在對歷史數(shù)據(jù)的依賴性、分類結(jié)果準(zhǔn)確率、算法穩(wěn)定性方面,較其他兩種分類算法均具有明顯的優(yōu)勢。決策樹算法在運(yùn)行速度、所得結(jié)果的可解釋性方面,較其他兩種算法均具有明顯的優(yōu)勢。樸素貝葉斯算法在處理含有缺失值數(shù)據(jù)集時(shí)效果均好于其他兩個(gè)算法。因此,當(dāng)實(shí)際問題中所能獲取的樣本量相對較少時(shí),采用支持向量機(jī)算法的效果最佳,而面對海量數(shù)據(jù),決策樹算法最具效率,當(dāng)所收集到的數(shù)據(jù)集包含大量缺失值時(shí),樸素貝葉斯算法的效果更好。
[Abstract]:The rapid growth and wide availability of data has ushered in a real data age.How to mine valuable information from massive data has become the focus of attention, especially the research of classification technology in data mining.From the commercial field to the engineering practice field to the biomedical field, as long as the target variables, such as region, commodity, crowd and so on, are distinguished according to different attributes, the classification technology can be used to solve the problem.There are many kinds of classification algorithms, such as naive Bayes method, decision tree, support vector machine, ensemble learning and so on.However, none of the algorithms can be applied to all practical problems, and each classification algorithm has its own characteristics.People are not only satisfied with the analysis and modeling of data sets through classification technology to provide better decision basis for decision makers, but also hope to improve the efficiency of solving classification problems and create more value.Therefore, in order to efficiently solve the classification problem, find out the applicable environment, advantages and disadvantages of different classification algorithms, and even realize the automatic screening function of classification model to improve the efficiency of classification problems has become an important requirement.However, few domestic scholars have compared the application of the original algorithm. Michieet, a foreign scholar, has compared the neural network, statistical classification and machine learning techniques, and applied them to practical industrial problems.In this paper, three classification algorithms, namely naive Bayes, decision tree C5.0 and support vector machine, are compared in detail.After the basic introduction of the above algorithm principle and the comparison criterion of classification results, the four fields of social, commercial, biological and economic are selected respectively, which have different instance numbers, missing values, and the number of attributes used for prediction.The experimental cases of the number of target categories are representative, and then the classification models are established by using the above three typical classification algorithms. Finally, the accuracy of the classification results, the stability of the classification algorithm, the interpretability of the results obtained by the classification algorithms are discussed.This paper compares and analyzes the three algorithms in terms of the running speed of classifier and the effect of dealing with data sets with missing values. The advantages and disadvantages of the above three algorithms when applied to different characteristic data sets are obtained.Finally, the experimental results show that the SVM classification algorithm has obvious advantages over the other two classification algorithms in terms of dependence on historical data, accuracy of classification results and stability of the algorithm.Decision tree algorithm has obvious advantages over other two algorithms in terms of running speed and interpretability of the results obtained.The naive Bayes algorithm is better than the other two algorithms in dealing with data sets with missing values.Therefore, when the sample size is relatively small in practical problems, the support vector machine algorithm is the best, and the decision tree algorithm is the most efficient in the face of massive data, when the collected data set contains a large number of missing values.The effect of naive Bayes algorithm is better.
【學(xué)位授予單位】:天津財(cái)經(jīng)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 黃源,張福炎;數(shù)據(jù)挖掘及其技術(shù)實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2001年12期
2 香麗蕓;淺談數(shù)據(jù)挖掘及其應(yīng)用[J];昌吉師專學(xué)報(bào);2001年02期
3 鄭雪燕,張杰明,岳洋;數(shù)據(jù)挖掘語言[J];計(jì)算機(jī)時(shí)代;2001年11期
4 劉明晶;數(shù)據(jù)挖掘[J];華南金融電腦;2001年04期
5 張偉;劉勇國;彭軍;廖曉峰;吳中福;;數(shù)據(jù)挖掘發(fā)展研究[J];計(jì)算機(jī)科學(xué);2001年07期
6 鐘曉;馬少平;張鈸;俞瑞釗;;數(shù)據(jù)挖掘綜述[J];模式識(shí)別與人工智能;2001年01期
7 朱建平,張潤楚;數(shù)據(jù)挖掘的發(fā)展及其特點(diǎn)[J];統(tǒng)計(jì)與決策;2002年07期
8 傅嵐;在數(shù)據(jù)海洋中打撈信息數(shù)據(jù)挖掘[J];科技廣場;2002年11期
9 李峻;數(shù)據(jù)挖掘,企業(yè)洞察先機(jī)的“慧眼”[J];中國計(jì)算機(jī)用戶;2002年48期
10 羅可,蔡碧野,卜勝賢,謝中科;數(shù)據(jù)挖掘及其發(fā)展研究[J];計(jì)算機(jī)工程與應(yīng)用;2002年14期
相關(guān)會(huì)議論文 前10條
1 史東輝;蔡慶生;張春陽;;一種新的數(shù)據(jù)挖掘多策略方法研究[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年
2 張弦;;數(shù)據(jù)挖掘在農(nóng)業(yè)中的應(yīng)用[A];紀(jì)念中國農(nóng)業(yè)工程學(xué)會(huì)成立30周年暨中國農(nóng)業(yè)工程學(xué)會(huì)2009年學(xué)術(shù)年會(huì)(CSAE 2009)論文集[C];2009年
3 魏順平;;教育數(shù)據(jù)挖掘:現(xiàn)狀與趨勢[A];信息化、工業(yè)化融合與服務(wù)創(chuàng)新——第十三屆計(jì)算機(jī)模擬與信息技術(shù)學(xué)術(shù)會(huì)議論文集[C];2011年
4 關(guān)清平;沉培輝;;概率網(wǎng)絡(luò)在數(shù)據(jù)挖掘上的應(yīng)用[A];科技、工程與經(jīng)濟(jì)社會(huì)協(xié)調(diào)發(fā)展——中國科協(xié)第五屆青年學(xué)術(shù)年會(huì)論文集[C];2004年
5 丁瑾;;基于Web數(shù)據(jù)挖掘的綜述[A];山西省科學(xué)技術(shù)情報(bào)學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2004年
6 聶茹;田森平;;Web數(shù)據(jù)挖掘及其在電子商務(wù)中的應(yīng)用[A];中南六。▍^(qū))自動(dòng)化學(xué)會(huì)第24屆學(xué)術(shù)年會(huì)會(huì)議論文集[C];2006年
7 李菊;王軍;;數(shù)據(jù)挖掘在客戶關(guān)系管理的應(yīng)用[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展·2007——全國第18屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集[C];2007年
8 肖陽;李啟賢;;數(shù)據(jù)挖掘在中國鋼鐵行業(yè)中的應(yīng)用[A];中國計(jì)量協(xié)會(huì)冶金分會(huì)2012年會(huì)暨能源計(jì)量與節(jié)能降耗經(jīng)驗(yàn)交流會(huì)論文集[C];2012年
9 楊磊;王貴成;汪勇;張占勝;;SQL Server 2005在數(shù)據(jù)挖掘中的應(yīng)用[A];2009年中國智能自動(dòng)化會(huì)議論文集(第二分冊)[C];2009年
10 謝中;邱玉輝;;面向商務(wù)網(wǎng)站有效性的數(shù)據(jù)挖掘方法[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年
相關(guān)重要報(bào)紙文章 前10條
1 本報(bào)記者褚寧;數(shù)據(jù)挖掘如“挖金”[N];解放日報(bào);2002年
2 周蓉蓉;數(shù)據(jù)挖掘需要點(diǎn)想像力[N];計(jì)算機(jī)世界;2004年
3 □中國電信股份有限公司北京研究院 張舒博 □北京郵電大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 牛琨;走出數(shù)據(jù)挖掘的誤區(qū)[N];人民郵電;2006年
4 《網(wǎng)絡(luò)世界》記者 王瑩;數(shù)據(jù)挖掘保險(xiǎn)業(yè)的新藍(lán)海[N];網(wǎng)絡(luò)世界;2012年
5 劉俊麗;基于地理化的網(wǎng)絡(luò)數(shù)據(jù)挖掘與分析提升投資有效性[N];人民郵電;2014年
6 本報(bào)記者 連曉東;數(shù)據(jù)挖掘:金融信息化新熱點(diǎn)[N];中國電子報(bào);2002年
7 本報(bào)記者 鳳小華 朱仁康;“數(shù)字挖掘軟件”引領(lǐng)中國信息化新浪潮[N];中國電子報(bào);2003年
8 本報(bào)記者 史延廷;“成功企業(yè)數(shù)據(jù)挖掘暨數(shù)量化管理論壇”在京舉辦[N];中國旅游報(bào);2002年
9 朱小寧;數(shù)據(jù)挖掘:信息化戰(zhàn)爭的基礎(chǔ)工程[N];解放軍報(bào);2005年
10 本報(bào)記者 王小平;從“大集中”走向數(shù)據(jù)挖掘[N];金融時(shí)報(bào);2002年
相關(guān)博士學(xué)位論文 前10條
1 于自強(qiáng);海量流數(shù)據(jù)挖掘相關(guān)問題研究[D];山東大學(xué);2015年
2 張馨;全基因組SNP芯片應(yīng)用于CNV和L0H分析的軟件比對與數(shù)據(jù)挖掘[D];復(fù)旦大學(xué);2011年
3 彭計(jì)紅;基于數(shù)據(jù)挖掘的癡呆中醫(yī)證的研究[D];南京中醫(yī)藥大學(xué);2015年
4 李秋虹;基于MapReduce的大規(guī)模數(shù)據(jù)挖掘技術(shù)研究[D];復(fù)旦大學(xué);2013年
5 鄔文帥;基于多目標(biāo)決策的數(shù)據(jù)挖掘方法評估與應(yīng)用[D];電子科技大學(xué);2015年
6 謝邦彥;整合數(shù)據(jù)挖掘與TRIZ理論的質(zhì)量管理方法研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2010年
7 何偉全;云南高校學(xué)生意外傷害因素關(guān)聯(lián)規(guī)則挖掘及風(fēng)險(xiǎn)管控體系研究[D];昆明理工大學(xué);2015年
8 段功豪;基于多結(jié)構(gòu)數(shù)據(jù)挖掘的滑坡災(zāi)害預(yù)測模型研究[D];中國地質(zhì)大學(xué);2016年
9 白曉明;基于數(shù)據(jù)挖掘的復(fù)合材料宏—細(xì)觀力學(xué)模型研究[D];哈爾濱工業(yè)大學(xué);2016年
10 藍(lán)永豪(LAM Wing Ho);基于數(shù)據(jù)挖掘技術(shù)分析當(dāng)代中醫(yī)名家痤瘡驗(yàn)方經(jīng)驗(yàn)研究[D];南京中醫(yī)藥大學(xué);2016年
相關(guān)碩士學(xué)位論文 前10條
1 林仁紅;基于數(shù)據(jù)挖掘的機(jī)遇識(shí)別與評價(jià)研究[D];首都經(jīng)濟(jì)貿(mào)易大學(xué);2007年
2 張彥俊;游戲運(yùn)營中的數(shù)據(jù)挖掘[D];復(fù)旦大學(xué);2011年
3 焦亞召;基于多核函數(shù)FCM算法在數(shù)據(jù)挖掘聚類中的應(yīng)用研究[D];昆明理工大學(xué);2015年
4 王杰鋒;物聯(lián)網(wǎng)能耗數(shù)據(jù)智能分析及其應(yīng)用平臺(tái)設(shè)計(jì)[D];江南大學(xué);2015年
5 劉學(xué)建;數(shù)據(jù)挖掘在電子商務(wù)推薦系統(tǒng)中的應(yīng)用研究[D];昆明理工大學(xué);2015年
6 戴陽陽;基于數(shù)據(jù)挖掘的金融時(shí)間序列預(yù)測研究與應(yīng)用[D];江南大學(xué);2015年
7 石思優(yōu);基于主題模型的醫(yī)療數(shù)據(jù)挖掘研究[D];廣東技術(shù)師范學(xué)院;2015年
8 陳丹;移動(dòng)互聯(lián)網(wǎng)信令挖掘?qū)崿F(xiàn)智慧營銷的設(shè)計(jì)與實(shí)現(xiàn)應(yīng)用研究[D];華南理工大學(xué);2015年
9 陳思;基于數(shù)據(jù)挖掘的大學(xué)生客戶識(shí)別模型的研究[D];昆明理工大學(xué);2015年
10 位長帥;基于客戶數(shù)據(jù)挖掘的電信客戶關(guān)系管理研究[D];西南交通大學(xué);2015年
,本文編號(hào):1721321
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1721321.html