樸素貝葉斯分類算法的改進及其應用
本文關鍵詞:樸素貝葉斯分類算法的改進及其應用,,由筆耕文化傳播整理發(fā)布。
【摘要】:分類能力是人類在社會活動中最重要而基本的能力之一,分類技術是數(shù)據(jù)挖掘領域研究的一項核心內(nèi)容。樸素貝葉斯分類算法以完善的理論體系、清晰簡單的星形結構、良好的適應能力和較高的分類正確率而聞名,但其前提假設在現(xiàn)實運用中往往無法成立。為了解決這一問題并提高算法性能,本文以樸素貝葉斯分類算法為基礎,研究現(xiàn)有的屬性加權樸素貝葉斯算法,并考慮了實際應用中數(shù)據(jù)類型對分類算法的影響,提出了基于Tau-y相關系數(shù)的加權樸素貝葉斯分類算法和基于Kendall τ相關系數(shù)的加權樸素貝葉斯分類算法。具體研究工作如下:(1)通過研究樸素貝葉斯分類算法及其各種改進算法,提出了基于Tau-y相關系數(shù)的加權樸素貝葉斯分類算法,以Tau-y系數(shù)確定權值,并通過實驗檢驗其分類性能,新改進算法能有效的提高分類效率,特別是在樣本總量較小的數(shù)據(jù)集中展現(xiàn)了良好的分類效果。(2)為了更好的提取數(shù)據(jù)中的有用信息,解決實際中的某些特殊問題,引入非參數(shù)統(tǒng)計中的Kendall τ相關系數(shù),提出了基于Kendall τ相關系數(shù)的加權樸素貝葉斯分類算法,實驗結果顯示該算法能獲得較高的分類正確率,且在類標記數(shù)量較多的數(shù)據(jù)中性能更佳。(3)對新算法在銀行個人客戶分類這一實際問題中的應用進行了研究,在一定程度上進一步驗證了新算法的性能。
【關鍵詞】:分類算法 樸素貝葉斯 權值 相關系數(shù)
【學位授予單位】:北京林業(yè)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:F830.91;F224
【目錄】:
- 摘要3-4
- ABSTRACT4-9
- 1 緒論9-14
- 1.1 研究背景及意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-12
- 1.3 研究目的與研究內(nèi)容12-13
- 1.4 論文的組織結構13-14
- 2 基礎理論概述14-25
- 2.1 概率論基礎14-16
- 2.1.1 條件概率和乘法原理14
- 2.1.2 全概率公式與貝葉斯定理14-15
- 2.1.3 極大后驗假設與極大似然假設15-16
- 2.1.4 事件的獨立性16
- 2.2 樸素貝葉斯分類算法16-20
- 2.2.1 貝葉斯分類算法16-17
- 2.2.2 樸素貝葉斯分類算法(NB)17-20
- 2.3 樸素貝葉斯改進算法20-24
- 2.3.1 樹增強型樸素貝葉斯分類算法(TAN)20-22
- 2.3.2 貝葉斯網(wǎng)絡(BN)22-23
- 2.3.3 樸素貝葉斯樹算法(NBTree)23-24
- 2.4 本章小結24-25
- 3 加權樸素貝葉斯分類算法25-28
- 3.1 引言25
- 3.2 算法步驟25-26
- 3.3 常見的加權樸素貝葉斯分類算法26-27
- 3.3.1 基于卡方統(tǒng)計量的加權樸素貝葉斯分類算法26-27
- 3.3.2 基于粗糙集的加權樸素貝葉斯分類算法27
- 3.4 本章小結27-28
- 4 基于相關關系的加權樸素貝葉斯分類算法28-36
- 4.1 引言28
- 4.2 相關關系和相關系數(shù)28-30
- 4.2.1 相關關系28-29
- 4.2.2 相關系數(shù)29-30
- 4.3 基于Tau-y系數(shù)的加權樸素貝葉斯分類算法30-32
- 4.3.1 算法的構造30-31
- 4.3.2 權值的確定31-32
- 4.3.3 算法步驟32
- 4.4 基于Kendall τ相關系數(shù)的加權樸素貝葉斯分類算法32-35
- 4.4.1 算法提出的背景32-33
- 4.4.2 Kendall τ的思想及計算33-35
- 4.4.3 算法步驟35
- 4.5 本章小結35-36
- 5 實驗驗證與結果分析36-46
- 5.1 實驗背景36
- 5.2 實驗數(shù)據(jù)36-38
- 5.3 實驗流程38-39
- 5.3.1 數(shù)據(jù)準備38
- 5.3.2 數(shù)據(jù)處理38-39
- 5.3.3 算法性能比較39
- 5.4 實驗結果及其分析39-45
- 5.4.1 實驗Ⅰ39-42
- 5.4.2 實驗Ⅱ42-45
- 5.5 本章小結45-46
- 6 改進的樸素貝葉斯分類算法在銀行客戶分類中的應用46-52
- 6.1 引言46-47
- 6.2 數(shù)據(jù)與變量47-49
- 6.2.1 評估指標概述47-48
- 6.2.2 數(shù)據(jù)來源及預處理48-49
- 6.3 實驗結果與分析49-51
- 6.3.1 算法的應用49
- 6.3.2 實驗結果分析及建議49-51
- 6.4 本章小結51-52
- 7 總結及展望52-54
- 7.1 本文的貢獻及創(chuàng)新點52
- 7.2 工作展望52-54
- 參考文獻54-57
- 個人簡介57-58
- 導師簡介58-59
- 獲得成果目錄清單59-60
- 致謝60
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 董毅;;統(tǒng)計中一些相關系數(shù)的關系及其在投資組合中的應用研究[J];蚌埠學院學報;2012年01期
2 俞純權;;關于相關系數(shù)應注意的兩個問題[J];廣西商專學報;1993年03期
3 傅德印;;直線相關系數(shù)是計算各種其它相關系數(shù)的基礎[J];蘭州商學院學報;1993年03期
4 傅德印;相關系數(shù)體系探討[J];財經(jīng)問題研究;1994年01期
5 蘇為華;應用斯庇爾曼相關系數(shù)應注意的兩個問題[J];浙江統(tǒng)計;1994年09期
6 韓雪峰;淺議相關系數(shù)與偏相關系數(shù)的使用[J];山西統(tǒng)計;1994年05期
7 周沅帆;;擔保債券違約相關系數(shù)求解模式及增信有效性[J];中央財經(jīng)大學學報;2008年09期
8 郭斌;;多元資產(chǎn)組合中的收益與風險[J];價值工程;2011年30期
9 范文正;論相關系數(shù)的實質[J];統(tǒng)計與決策;2002年06期
10 李秀敏;江衛(wèi)華;;相關系數(shù)與相關性度量[J];數(shù)學的實踐與認識;2006年12期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 黃文楠;吳英秦;方志行;陳俊成;鄧清政;陳思翰;;基于相關系數(shù)概念之電性測試規(guī)劃探討[A];2006中國電工技術學會電力電子學會第十屆學術年會論文摘要集[C];2006年
2 趙剛;;用相關系數(shù)表征沖擊波形相似程度[A];2006全國電工測試技術學術交流會論文集[C];2006年
3 許婧婧;楊子生;;云南省耕地數(shù)量分布的影響因素分析[A];中國土地資源可持續(xù)利用與新農(nóng)村建設研究[C];2008年
4 蔣文瀚;陳炳為;鄭建光;李萬慶;李杰;;相關系數(shù)meta分析在R語言中的實現(xiàn)[A];2011年中國衛(wèi)生統(tǒng)計學年會會議論文集[C];2011年
5 宋金常;王曉鈞;羅蘇梅;;相關系數(shù)的meta分析方法述評[A];第十一屆全國心理學學術會議論文摘要集[C];2007年
6 唐凌;楊海萍;張巖;李艷;陸娟;盛軍;;基于TE48C系列的大氣自動監(jiān)測中CO分析儀的原理及維護[A];自動化技術與冶金流程節(jié)能減排——全國冶金自動化信息網(wǎng)2008年會論文集[C];2008年
7 高翔;白麗娜;;基于廣義相關系數(shù)的多元軌跡預測及數(shù)據(jù)恢復方法[A];2007中國控制與決策學術年會論文集[C];2007年
8 陳思寶;姚志強;胡郁;王仁華;;基于樹的相關系數(shù)補償滿方差建模技術研究[A];第九屆全國人機語音通訊學術會議論文集[C];2007年
9 李衛(wèi)國;張俊梅;;相關系數(shù)MA(q)序列與其威利譜的關系[A];全國第十屆企業(yè)信息化與工業(yè)工程學術年會論文集[C];2006年
10 蔡秀華;曹鴻興;牛保山;;列序分析及其在大氣環(huán)境中的應用[A];新世紀氣象科技創(chuàng)新與大氣科學發(fā)展——中國氣象學會2003年年會“大氣氣溶膠及其對氣候環(huán)境的影響”分會論文集[C];2003年
中國重要報紙全文數(shù)據(jù)庫 前4條
1 張光平;上海期銅與國際期銅市場相關性分析[N];期貨日報;2003年
2 中國社會科學院學部委員、經(jīng)濟學部副主任 劉樹成;不可忽視GDP[N];中國經(jīng)濟時報;2012年
3 高潮生;滬深證交所同一屋檐成對手[N];國際金融報;2003年
4 代立軍;LLDPE運行還看上游“臉色”[N];期貨日報;2009年
中國博士學位論文全文數(shù)據(jù)庫 前2條
1 宋棟鳴;復雜金融網(wǎng)絡若干問題研究[D];華東理工大學;2013年
2 孫立力;電性距離矢量用于藥物定量構效關系研究[D];重慶大學;2004年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 劉丹;互斥風險性質的幾種新的證明[D];曲阜師范大學;2015年
2 蔣敬;負相關二元泊松變量的生成方法研究[D];上海交通大學;2015年
3 喻凱西;樸素貝葉斯分類算法的改進及其應用[D];北京林業(yè)大學;2016年
4 李飛;基于局部相關系數(shù)的美國次債危機傳染分析[D];中國科學技術大學;2015年
5 郭華峰;尾部相關系數(shù)與資產(chǎn)選擇研究[D];廈門大學;2014年
6 白華寧;基于相關系數(shù)的過程控制系統(tǒng)故障檢測與診斷研究[D];西安科技大學;2014年
7 王玲玉;文獻共引分析中的關聯(lián)強度和相關系數(shù)改進研究[D];鄭州大學;2011年
8 吳婉瑩;猶豫模糊信息的相關系數(shù)和熵測度及其在群決策中的應用[D];安徽大學;2014年
9 李宏偉;廣義相關測量的穩(wěn)健性估計[D];東北師范大學;2013年
10 鄧斌;上證A股板塊指數(shù)收益率相關系數(shù)和股市波動的關系研究[D];湖南大學;2011年
本文關鍵詞:樸素貝葉斯分類算法的改進及其應用,由筆耕文化傳播整理發(fā)布。
本文編號:275990
本文鏈接:http://sikaile.net/jingjilunwen/guojijinrong/275990.html