樸素貝葉斯分類算法的改進(jìn)研究Research onNaive Bayesian ClassifierAlgorithm
樸素貝葉斯分類算法的改進(jìn)研究Research onNaive Bayesian ClassifierAlgorithm
摘要
NBC模型具有計(jì)算簡(jiǎn)單,分類性能優(yōu)越等特點(diǎn),而受到各類科學(xué)工作者的青睞,成為目前應(yīng)用最廣泛的分類器之一關(guān)于其應(yīng)用和研究也成為一個(gè)熱點(diǎn)。然而,在實(shí)際應(yīng)用中,條件獨(dú)立性的假設(shè)難以得到滿足,削弱NBC模型的分類效果。本文針對(duì)不同的數(shù)據(jù)類型分別從特征變量的提取和特征變量的篩選的角度提出了樸素貝葉斯分類器的兩種改進(jìn)模型:基于費(fèi)希爾判別的樸素貝葉斯分類模型和基于R型聚類的樸素貝葉斯分類模型。
基于費(fèi)希爾判別的樸素貝葉斯分類模型FI-NBC,利用費(fèi)希爾判別提取獨(dú)立特征的性質(zhì),對(duì)原來(lái)的屬性集做費(fèi)希爾判別,萃取判別式,構(gòu)建近似滿足獨(dú)立性假設(shè)的新屬性集,使用NBC模型對(duì)新的屬性集進(jìn)行分類。通過(guò)UCI數(shù)據(jù)集上的對(duì)照實(shí)驗(yàn),結(jié)果表明:FI-NBC分類模型相對(duì)于NBC模型而言具有較好的分類效果。
基于相關(guān)性測(cè)度和R型聚類的樸素貝葉斯分類模型RC-NBC,首先利用本文定義的相關(guān)性測(cè)度作為屬性間的相似系數(shù)對(duì)R型聚類做了改進(jìn),利用改進(jìn)的R型聚類方法將原屬性集劃分為若干子集,從每個(gè)子集中挑選典型屬性構(gòu)建新的屬性集,用NBC模型對(duì)新的數(shù)據(jù)集進(jìn)行分類,,實(shí)驗(yàn)結(jié)果表明提高了分類準(zhǔn)確率。
關(guān)鍵詞:數(shù)據(jù)挖掘;樸素貝葉斯分類;費(fèi)希爾判別;R型聚類;互信息
[Abstract]
NaïveBayesian classifier which based on the assumption of conditionattributesindependent of each other,with simple structure,high classification accuracy , little consumption of running time and storage space and solid theoretical foundation of mathematics, isoneof the efficient classifiers.Therefore,the research and application of naive Bayesianclassifier is popular now.However,in many practical cases, the performance of naïvebayesianclassifier is affected for the violation of the assumption of conditional independence.Two improvedclassifiers,naive bayesian classifierbased on fisher discriminant analysis and naive bayesianclassifier based on mutual information and R-type clustering analyses are proposed from the perspective of feature selection for data sets of different types.
NaïveBayesianclassifierbasedon fisher discriminant analysis ,FI-NBC,constructs newattribute set from the original propertysetusing fisher discriminantanalysis.Naivebayesianclassifier is built on the new attribute set which meets the assumption of conditional independence approximately.Theexperimental results on UCI data sets show that the performance of FI-NBC is better than naive bayesian classifier on the feasible data set.
Naïvebayesian classifier based on mutual information and R-typeclustering analyses,RC-NBC, changes theR-typeclustering by measures the correlation of propertiesthroughmutual information. Theorigin attribute set is classified into some independent attribute subsets by th changed R-typeclustering.Select one typical attributes from each sub-construct to form a new set of properties,and then builtNaive bayesianclassifieron the new attribute set.The comparative experiments on UCI data sets show that the performance of RC-NBC improves significantly compared to naive bayesian classifier .
[Keyword]data mining ,naïvebayesian classifier,fisher discriminant analysis, R-typeclustering,mutual information
目錄
第一章緒論 3
1.1論文的研究背景 3
1.2 研究現(xiàn)狀 8
1.3論文的研究?jī)?nèi)容與組織結(jié)構(gòu) 10
第二章樸素貝葉斯分類模型 11
2.1貝葉斯理論概況 11
2.2樸素貝葉斯分類模型 13
本章小結(jié) 17
第三章基于FISHER判別的貝葉斯分類模型 18
3.1 FISHER判別 18
3.2 FI-NBC模型 22
3.3 實(shí)驗(yàn)及結(jié)果分析 24
本章小結(jié) 28
第四章基于R型聚類分析改進(jìn)的樸素貝葉斯分類模型 29
4.1 R型聚類分析 29
4.2 基于屬性聚類的改進(jìn)的樸素貝葉斯分類算法 34
4.3 基于R型聚類和互信息改進(jìn)的貝葉斯分類方法 34
4.4 實(shí)驗(yàn)及結(jié)果分析 37
本章小結(jié) 39
第五章總結(jié)與展望 40
參考文獻(xiàn): 42
致謝 44
第一章緒論
1.1論文的研究背景
1.1.1數(shù)據(jù)挖掘
計(jì)算科學(xué)與信息技術(shù)經(jīng)過(guò)半個(gè)多世紀(jì)的迅猛發(fā)展,推動(dòng)了社會(huì)的進(jìn)步。隨著數(shù)據(jù)搜集、數(shù)據(jù)處理、及數(shù)據(jù)庫(kù)管理技術(shù)的發(fā)展,人們?cè)絹?lái)越能夠高效的收集、利用信息。在全國(guó)各地建立起來(lái)了大量的數(shù)據(jù)庫(kù)廣泛應(yīng)用于商務(wù)管理、科學(xué)探索、生產(chǎn)控制、工業(yè)設(shè)計(jì),工程開(kāi)發(fā)、市場(chǎng)營(yíng)銷等各個(gè)方面。存儲(chǔ)在人們計(jì)算機(jī)和數(shù)據(jù)庫(kù)中的信息在以指數(shù)級(jí)數(shù)增長(zhǎng)。數(shù)據(jù)是知識(shí)的源泉。但是,擁有數(shù)據(jù)并不等同于擁有知識(shí)。面對(duì)人們被海量數(shù)據(jù)淹沒(méi)卻渴求于知識(shí)的困境,一個(gè)新的挑戰(zhàn)被提了出來(lái):、怎樣才能既不被繁蕪的海量信息所吞沒(méi),又能從中有效地發(fā)現(xiàn)所需要的,于己有用的知識(shí)模式,使數(shù)據(jù)真正為轉(zhuǎn)化為知識(shí)財(cái)富呢?,數(shù)據(jù)挖掘技術(shù)就在這樣的背景下應(yīng)運(yùn)而生了。
第五章總結(jié)與展望
本文主要研究了以統(tǒng)計(jì)學(xué)中貝葉斯定理為理論基礎(chǔ)的NBC模型,考慮到NBC模型所要求的類條件獨(dú)立性假設(shè)在實(shí)際應(yīng)用中難以得到滿足的情況,分別從特征提取和特征選擇提出了兩種樸素貝葉斯方法的改進(jìn)算法:
基于費(fèi)希爾判別的樸素貝葉斯分類模型FI-NBC,利用費(fèi)希爾判別提取獨(dú)立特征的性質(zhì),對(duì)原屬性集進(jìn)行線性投影降維,簡(jiǎn)化數(shù)據(jù)集的同時(shí),剔除了因冗余導(dǎo)致的屬性間的相關(guān)性,并且投影方向正交得到的新屬性獨(dú)立性增強(qiáng),可以近似的逼近樸素貝葉斯方法要求的條件獨(dú)立的假設(shè)。
基于相關(guān)性測(cè)度和R型聚類的樸素貝葉斯分類模型RC-NBC,首先引入了相關(guān)性測(cè)度作為屬性間的相似系數(shù)對(duì)R型聚類做了改進(jìn),利用改進(jìn)的R型聚類方法將原屬性集劃分為若干子集,從每個(gè)子集中挑選典型屬性構(gòu)建新的屬性集構(gòu)建樸素NBC模型,剔除了因冗余導(dǎo)致的相關(guān)性影響因素同時(shí)達(dá)到了降維的目。
并且通過(guò)使用UCI上數(shù)據(jù)集做對(duì)比試驗(yàn),驗(yàn)證了能夠提高樸NBC模型的分類準(zhǔn)確率。
然而,由于作者學(xué)識(shí)有限,本文的研究和討論還存在許多不足之處,有不少需要進(jìn)一步深入探討的問(wèn)題。主要有以下幾個(gè)方面:
第一:本文引進(jìn)了相關(guān)性測(cè)度的概念度量?jī)蓚(gè)屬性間的相關(guān)程度大小,在計(jì)算屬性間的相關(guān)性測(cè)度時(shí)計(jì)算量非常大,當(dāng)屬性變量特別多時(shí)會(huì)產(chǎn)生組合爆炸。例如,當(dāng)有30個(gè)屬性變量,每個(gè)變量有4個(gè)取值,類別變量時(shí)二值變量,那么它需要計(jì)算大約個(gè)組合值。今后,可對(duì)提高特征提取效率的算法方面進(jìn)行研究。
第二,本文在進(jìn)行特征選擇時(shí),是從每個(gè)屬性簇中挑選一個(gè)作為典型屬性構(gòu)建新的屬性集,可能會(huì)導(dǎo)致樣本所包含信息量的損失,今后可以考慮屬性簇中屬性的組合方法。
第三:在實(shí)驗(yàn)的數(shù)據(jù)選擇上,我們沒(méi)有考慮缺失數(shù)據(jù),而且變量都屬于同種性質(zhì)的,今后可以對(duì)有缺失數(shù)據(jù)和混合變量的實(shí)驗(yàn)樣本進(jìn)行深入研究。
參考文獻(xiàn):
[1]陳安, 陳寧, 周龍?bào)J等. 數(shù)據(jù)挖掘技術(shù)及應(yīng)用[M]. 北京: 科學(xué)出版社, 2006: 111-112
[2]Han J. W, Kamber M. Data Mining Concepts and Techniques[M]. San Francisco: Morgan Kaufmann Publishers, 2001: 3-6
[3] Kononenko I.Semi-native Bayesian classifier[A].In:Proceedings of the 6th European Working Session on Learning.New York:Springer-Verlag , 1991. 206-219.
[4]Langley P, Sage S. Induction of Selective Bayesian Classifiers [A]. In: Proceedings of the Tenth Conference on Uncertainty in Artificial Intelligence[C]. Seattle, WA: Morgan Kaufmann Publishers, 1994. 339-406.
[5]沈黎,周麗. 基于屬性聚類的貝葉斯分類算法.河南教育學(xué)院學(xué)報(bào)(自然科學(xué)版).2013.22.22-24
[6] 張靜,王建民,何華燦.基于屬性相關(guān)性的屬性約簡(jiǎn)新方法[J]. 計(jì)算機(jī)工程與應(yīng)用. 2005. 28:57- 59.
[7] Harry Zhang, Shengli Sheng. Learning Weighted NaiveBayeswith Accurate Ranking[C]. IEEE International Conference on Data Mining - ICDM , pp. 567-570, 2004
[8] 程克非,張聰. 基于特征加權(quán)的樸素貝葉斯分類器[J].計(jì)算機(jī)仿真,2006, 23: 92-94.
[9] Geoffrey I. Webb, Michael J. Pazzani. Adjusted Probability Naive Bayesian Induction[C].Australian Joint Conference on Artificial Intelligence - AUS-AI , pp. 285-295, 1998
[10] Hall M. A decision tree-based attribute weighting filter for Naive Bayes[J].Knowledge- Based Systems, 2007.20 : 120- 126.
[11] Pazzani M J. Constructive Induction of Cartesian Product Attributes[A]. In: Proceedings of the Conference on Information, Statistics and Induction in Science [C]. Singapore: World Scientific, 1996. 66-77.
[12] 王志海,張播.一種基于粗糙集合理論的樹(shù)擴(kuò)張型貝葉斯網(wǎng)絡(luò)分類器川.復(fù)旦學(xué)報(bào)(自然科學(xué)版).2004.43(5):725一728
[13] 閉樂(lè)鵬,徐偉,宋瀚濤. 基于一類 SVM 的貝葉斯分類算法[J]. 北京理工大學(xué)學(xué)報(bào),2006. 26:143-146.
[14]李海龍,王鉦旋,王利民,苑淼淼.基于主成分分析提升貝葉斯.儀器儀表學(xué)報(bào).2004.25:384-386
[15]Kohavi R. Scaling up the Accuracy of Native-Bayes Classifiers: A Decision-Tree Hybrid[A]. In: Simoudis E, Han J W, Fayyad U M. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining[C]. Menlo Park, CA: AAAI Press, 1996. 202-207.
[16] 鄧維斌,黃蜀江,周玉敏. 基于條件信息熵的自主式樸素貝葉斯分類算法[J], 計(jì)算機(jī)應(yīng)用, 2007. 27: 888-891.
[17] Ting K M, Zheng Z. Improving the performance of boosting for Naive Bayesian classification. NingZhong, Li zhu Zhou eds. Proc of the 3rdPacific一Asia Conf on Knowledge Discovery and Data Mining Berlin Germany: Springer -Verlag, 1999. 296-305.
[18] 張璠. 多種策略改進(jìn)樸素貝葉斯分類器[J]. 微機(jī)發(fā)展, 2005. 15:125-127.
[19]茆詩(shī)松,程依明,濮曉龍。概率論與數(shù)理統(tǒng)計(jì)教程。北京:高等教育出版社。2004;38-45
[20] 鐘路, 潘昊等. 模式識(shí)別[M]. 武漢: 武漢大學(xué)出版社, 2006.
[21] 杜會(huì)鋒. 基于 Copula 理論的兩種分類算法研究[D]. 重慶:重慶大學(xué)統(tǒng)計(jì)系,2008.
[22] 李雄飛, 李軍. 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)[M]. 北京: 高等教育出版社, 2003.
[23] Mia K, Stern, Joseph E. Beverly Park Wolf. Native Bayes Classifiers for User Modeling.
[24] Pedro Domingos, Michael Pazzzani. On the Optimality of the Simple Bayesian Classifier under Zero-One Loss[J]. Machine Learning, 1997. 29: 103-130.
[25]王學(xué)民.應(yīng)用多元分析.上海.上海財(cái)經(jīng)大學(xué)出版社.2004.20-21
[26]于秀林.任雪松.多遠(yuǎn)統(tǒng)計(jì)分析.北京.中國(guó)統(tǒng)計(jì)出版社.1999.115-125
[27]WanSJ ,Wong5K.Ameasureforconeeptdissimilariryanditsapplicationsinmaehinelearning.ProeeedingsoftheInternationalConfereneeonComputingandInforma-
tion,1989,267~273.
[28]HAN J W, KAMBER M. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 范明, 孟小峰, 譯. 北京: 機(jī)械工業(yè)出版社, 2001.
[29] 陳路瑩. 高維數(shù)據(jù)的聚類分析方法研究及其應(yīng)用[D]. 廈門大學(xué)博士學(xué)位論文,2009.
[30]任若恩.王惠文.多元統(tǒng)計(jì)數(shù)據(jù)分析.北京:國(guó)防工業(yè)出版社.1997:56-84
[31] 余瑞康.聚類思想在貝葉斯算法中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用, 2006. 28: 159-163.
[32] 陳弋蘭.基于模糊聚類的混合樸素貝葉斯分類模型[D].安徽建筑工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版), 2009. 17: 88-91.
[33]Cover T.M, Thomas J.A. 信息論基礎(chǔ)[M]. 2 版. 阮吉壽, 張華. 北京: 清華大學(xué)出版社, 2003: 7-13
[34]Pang-Ning Tan, Michael Steinbach,Vioin Kumar [M]范明,范宏建,譯.北京.人民郵電出版社.2012
[35]張志涌.精通MATLAB R2011a.北京.北京航空航天大學(xué)出版社.2013
[36]謝中華.MATLAB統(tǒng)計(jì)分析與應(yīng)用:40個(gè)案例分析.北京.北京航空航天大學(xué)出版社.2010
本文編號(hào):19097
本文鏈接:http://sikaile.net/jingjilunwen/shijiejingjilunwen/19097.html