數(shù)據(jù)挖掘?qū)д撚⑽陌鎋數(shù)據(jù)挖掘?qū)д?中文版)pdf格式【完整電子版】
本文關(guān)鍵詞:數(shù)據(jù)挖掘?qū)д?/strong>,由筆耕文化傳播整理發(fā)布。
數(shù)據(jù)挖掘?qū)д?/strong>一書基本上涵蓋了數(shù)據(jù)挖掘的許多經(jīng)典算法,分類,聚類,,關(guān)聯(lián)規(guī)則,是一本比較適合對(duì)數(shù)據(jù)挖掘感興趣的人閱讀的書籍。該書內(nèi)容以實(shí)例為重,給出了常用算法的偽代碼,和《模式識(shí)別》、《模式分類》等專著比起來,該書略去了各個(gè)定理的證明部分,并通過大量枚舉具體的分類實(shí)例,來簡(jiǎn)要說明算法的流程和意義。本節(jié)內(nèi)容東坡小編為大家整理帶來的是一份pdf格式完整電子版數(shù)據(jù)挖掘?qū)д?/strong>(中文版),歡迎有需要的朋友前來下載查閱。
數(shù)據(jù)挖掘?qū)д?/strong>(中文版)簡(jiǎn)介本書是明尼蘇達(dá)大學(xué)和密歇根州立大學(xué)數(shù)據(jù)挖掘課程的教材,由于獨(dú)具特色,正式出版之前就已經(jīng)被斯坦福大學(xué)、得克薩斯大學(xué)奧斯汀分校等眾多名校采用。
該書全面介紹了數(shù)據(jù)挖掘,涵蓋了五個(gè)主題:數(shù)據(jù)、分類、關(guān)聯(lián)分析、聚類和異常檢測(cè)。除異常檢測(cè)外,每個(gè)主題都有兩章。前一章涵蓋基本概念、代表性算法和評(píng)估技術(shù),而后一章討論高級(jí)概念和算法。這樣讀者在透徹地理解數(shù)據(jù)挖掘的基礎(chǔ)的同時(shí),還能夠了解更多重要的高級(jí)主題。
數(shù)據(jù)挖掘中文版目錄第1章 緒論1
1.1 什么是數(shù)據(jù)挖掘2
1.2 數(shù)據(jù)挖掘要解決的問題2
1.3 數(shù)據(jù)挖掘的起源3
1.4 數(shù)據(jù)挖掘任務(wù)4
1.5 本書的內(nèi)容與組織7
文獻(xiàn)注釋7
參考文獻(xiàn)8
習(xí)題10
第2章 數(shù)據(jù)13
2.1 數(shù)據(jù)類型14
2.1.1 屬性與度量15
2.1.2 數(shù)據(jù)集的類型18
2.2 數(shù)據(jù)質(zhì)量22
2.2.1 測(cè)量和數(shù)據(jù)收集問題22
2.2.2 關(guān)于應(yīng)用的問題26
2.3 數(shù)據(jù)預(yù)處理27
2.3.1 聚集27
2.3.2 抽樣28
2.3.3 維歸約30
2.3.4 特征子集選擇31
2.3.5 特征創(chuàng)建33
2.3.6 離散化和二元化34
2.3.7 變量變換38
2.4 相似性和相異性的度量38
2.4.1 基礎(chǔ)39
2.4.2 簡(jiǎn)單屬性之間的相似度和相異度40
2.4.3 數(shù)據(jù)對(duì)象之間的相異度41
2.4.4 數(shù)據(jù)對(duì)象之間的相似度43
2.4.5 鄰近性度量的例子43
2.4.6 鄰近度計(jì)算問題48
2.4.7 選取正確的鄰近性度量50
文獻(xiàn)注釋50
參考文獻(xiàn)52
習(xí)題53
第3章 探索數(shù)據(jù)59
3.1 鳶尾花數(shù)據(jù)集59
3.2 匯總統(tǒng)計(jì)60
3.2.1 頻率和眾數(shù)60
3.2.2 百分位數(shù)61
3.2.3 位置度量:均值和中位數(shù)61
3.2.4 散布度量:極差和方差62
3.2.5 多元匯總統(tǒng)計(jì)63
3.2.6 匯總數(shù)據(jù)的其他方法64
3.3 可視化64
3.3.1 可視化的動(dòng)機(jī)64
3.3.2 一般概念65
3.3.3 技術(shù)67
3.3.4 可視化高維數(shù)據(jù)75
3.3.5 注意事項(xiàng)79
3.4 OLAP和多維數(shù)據(jù)分析79
3.4.1 用多維數(shù)組表示鳶尾花數(shù)據(jù)80
3.4.2 多維數(shù)據(jù):一般情況81
3.4.3 分析多維數(shù)據(jù)82
3.4.4 關(guān)于多維數(shù)據(jù)分析的最后評(píng)述84
文獻(xiàn)注釋84
參考文獻(xiàn)85
習(xí)題86
第4章 分類:基本概念、決策樹與模型評(píng)估89
4.1 預(yù)備知識(shí)89
4.2 解決分類問題的一般方法90
4.3 決策樹歸納92
4.3.1 決策樹的工作原理92
4.3.2 如何建立決策樹93
4.3.3 表示屬性測(cè)試條件的方法95
4.3.4 選擇最佳劃分的度量96
4.3.5 決策樹歸納算法101
4.3.6 例子:Web 機(jī)器人檢測(cè)102
4.3.7 決策樹歸納的特點(diǎn)103
4.4 模型的過分?jǐn)M合106
4.4.1 噪聲導(dǎo)致的過分?jǐn)M合107
4.4.2 缺乏代表性樣本導(dǎo)致的過分?jǐn)M合109
4.4.3 過分?jǐn)M合與多重比較過程109
4.4.4 泛化誤差估計(jì)110
4.4.5 處理決策樹歸納中的過分?jǐn)M合113
4.5 評(píng)估分類器的性能114
4.5.1 保持方法114
4.5.2 隨機(jī)二次抽樣115
4.5.3 交叉驗(yàn)證115
4.5.4 自助法115
4.6 比較分類器的方法116
4.6.1 估計(jì)準(zhǔn)確度的置信區(qū)間116
4.6.2 比較兩個(gè)模型的性能117
4.6.3 比較兩種分類法的性能118
文獻(xiàn)注釋118
參考文獻(xiàn)120
習(xí)題122
第5章 分類:其他技術(shù)127
5.1 基于規(guī)則的分類器127
5.1.1 基于規(guī)則的分類器的工作原理128
5.1.2 規(guī)則的排序方案129
5.1.3 如何建立基于規(guī)則的分類器130
5.1.4 規(guī)則提取的直接方法130
5.1.5 規(guī)則提取的間接方法135
5.1.6 基于規(guī)則的分類器的特征136
5.2 最近鄰分類器137
5.2.1 算法138
5.2.2 最近鄰分類器的特征138
5.3 貝葉斯分類器139
5.3.1 貝葉斯定理139
5.3.2 貝葉斯定理在分類中的應(yīng)用140
5.3.3 樸素貝葉斯分類器141
5.3.4 貝葉斯誤差率145
5.3.5 貝葉斯信念網(wǎng)絡(luò)147
5.4 人工神經(jīng)網(wǎng)絡(luò)150
5.4.1 感知器151
5.4.2 多層人工神經(jīng)網(wǎng)絡(luò)153
5.4.3 人工神經(jīng)網(wǎng)絡(luò)的特點(diǎn)155
5.5 支持向量機(jī)156
5.5.1 最大邊緣超平面156
5.5.2 線性支持向量機(jī):可分情況157
5.5.3 線性支持向量機(jī):不可分情況162
5.5.4 非線性支持向量機(jī)164
5.5.5 支持向量機(jī)的特征168
5.6 組合方法168
5.6.1 組合方法的基本原理168
5.6.2 構(gòu)建組合分類器的方法169
5.6.3 偏倚—方差分解171
5.6.4 裝袋173
5.6.5 提升175
5.6.6 隨機(jī)森林178
5.6.7 組合方法的實(shí)驗(yàn)比較179
5.7 不平衡類問題180
5.7.1 可選度量180
5.7.2 接受者操作特征曲線182
5.7.3 代價(jià)敏感學(xué)習(xí)184
5.7.4 基于抽樣的方法186
5.8 多類問題187
文獻(xiàn)注釋189
參考文獻(xiàn)190
習(xí)題193
第6章 關(guān)聯(lián)分析:基本概念和算法201
6.1 問題定義202
6.2 頻繁項(xiàng)集的產(chǎn)生204
6.2.1 先驗(yàn)原理205
6.2.2 Apriori算法的頻繁項(xiàng)集產(chǎn)生206
6.2.3 候選的產(chǎn)生與剪枝208
6.2.4 支持度計(jì)數(shù)210
6.2.5 計(jì)算復(fù)雜度213
6.3 規(guī)則產(chǎn)生215
6.3.1 基于置信度的剪枝215
6.3.2 Apriori算法中規(guī)則的產(chǎn)生215
6.3.3 例:美國(guó)國(guó)會(huì)投票記錄217
6.4 頻繁項(xiàng)集的緊湊表示217
6.4.1 極大頻繁項(xiàng)集217
6.4.2 閉頻繁項(xiàng)集219
6.5 產(chǎn)生頻繁項(xiàng)集的其他方法221
6.6 FP增長(zhǎng)算法223
6.6.1 FP樹表示法224
6.6.2 FP增長(zhǎng)算法的頻繁項(xiàng)集產(chǎn)生225
6.7 關(guān)聯(lián)模式的評(píng)估228
6.7.1 興趣度的客觀度量228
6.7.2 多個(gè)二元變量的度量235
6.7.3 辛普森悖論236
6.8 傾斜支持度分布的影響237
文獻(xiàn)注釋240
參考文獻(xiàn)244
習(xí)題250
第7章 關(guān)聯(lián)分析:高級(jí)概念259
7.1 處理分類屬性259
7.2 處理連續(xù)屬性261
7.2.1 基于離散化的方法261
7.2.2 基于統(tǒng)計(jì)學(xué)的方法263
7.2.3 非離散化方法265
7.3 處理概念分層266
7.4 序列模式267
7.4.1 問題描述267
7.4.2 序列模式發(fā)現(xiàn)269
7.4.3 時(shí)限約束271
7.4.4 可選計(jì)數(shù)方案274
7.5 子圖模式275
7.5.1 圖與子圖276
7.5.2 頻繁子圖挖掘277
7.5.3 類Apriori方法278
7.5.4 候選產(chǎn)生279
7.5.5 候選剪枝282
7.5.6 支持度計(jì)數(shù)285
7.6 非頻繁模式285
7.6.1 負(fù)模式285
7.6.2 負(fù)相關(guān)模式286
7.6.3 非頻繁模式、負(fù)模式和負(fù)相關(guān)模式比較287
7.6.4 挖掘有趣的非頻繁模式的技術(shù)288
7.6.5 基于挖掘負(fù)模式的技術(shù)288
7.6.6 基于支持度期望的技術(shù)290
文獻(xiàn)注釋292
參考文獻(xiàn)293
習(xí)題295
第8章 聚類分析:基本概念和算法305
8.1 概述306
8.1.1 什么是聚類分析306
8.1.2 不同的聚類類型307
8.1.3 不同的簇類型308
8.2 K均值310
8.2.1 基本K均值算法310
8.2.2 K均值:附加的問題315
8.2.3 二分K均值316
8.2.4 K均值和不同的簇類型317
8.2.5 優(yōu)點(diǎn)與缺點(diǎn)318
8.2.6 K均值作為優(yōu)化問題319
8.3 凝聚層次聚類320
8.3.1 基本凝聚層次聚類算法321
8.3.2 特殊技術(shù)322
8.3.3 簇鄰近度的Lance-Williams公式325
8.3.4 層次聚類的主要問題326
8.3.5 優(yōu)點(diǎn)與缺點(diǎn)327
8.4 DBSCAN327
8.4.1 傳統(tǒng)的密度:基于中心的方法327
8.4.2 DBSCAN算法328
8.4.3 優(yōu)點(diǎn)與缺點(diǎn)329
8.5 簇評(píng)估330
8.5.1 概述332
8.5.2 非監(jiān)督簇評(píng)估:使用凝聚度和分離度332
8.5.3 非監(jiān)督簇評(píng)估:使用鄰近度矩陣336
8.5.4 層次聚類的非監(jiān)督評(píng)估338
8.5.5 確定正確的簇個(gè)數(shù)339
8.5.6 聚類趨勢(shì)339
8.5.7 簇有效性的監(jiān)督度量340
8.5.8 評(píng)估簇有效性度量的顯著性343
文獻(xiàn)注釋344
參考文獻(xiàn)345
習(xí)題347
第9章 聚類分析:其他問題與算法355
9.1 數(shù)據(jù)、簇和聚類算法的特性355
9.1.1 例子:比較K均值和DBSCAN355
9.1.2 數(shù)據(jù)特性356
9.1.3 簇特性357
9.1.4 聚類算法的一般特性358
9.2 基于原型的聚類359
9.2.1 模糊聚類359
9.2.2 使用混合模型的聚類362
9.2.3 自組織映射369
9.3 基于密度的聚類372
9.3.1 基于網(wǎng)格的聚類372
9.3.2 子空間聚類374
9.3.3 DENCLUE:基于密度聚類的一種基于核的方案377
9.4 基于圖的聚類379
9.4.1 稀疏化379
9.4.2 最小生成樹聚類380
9.4.3 OPOSSUM:使用METIS的稀疏相似度最優(yōu)劃分381
9.4.4 Chameleon:使用動(dòng)態(tài)建模的層次聚類381
9.4.5 共享最近鄰相似度385
9.4.6 Jarvis-Patrick聚類算法387
9.4.7 SNN密度388
9.4.8 基于SNN密度的聚類389
9.5 可伸縮的聚類算法390
9.5.1 可伸縮:一般問題和方法391
9.5.2 BIRCH392
9.5.3 CURE393
9.6 使用哪種聚類算法395
文獻(xiàn)注釋397
參考文獻(xiàn)398
習(xí)題400
第10章 異常檢測(cè)403
10.1 預(yù)備知識(shí)404
10.1.1 異常的成因404
10.1.2 異常檢測(cè)方法404
10.1.3 類標(biāo)號(hào)的使用405
10.1.4 問題405
10.2 統(tǒng)計(jì)方法406
10.2.1 檢測(cè)一元正態(tài)分布中的離群點(diǎn)407
10.2.2 多元正態(tài)分布的離群點(diǎn)408
10.2.3 異常檢測(cè)的混合模型方法410
10.2.4 優(yōu)點(diǎn)與缺點(diǎn)411
10.3 基于鄰近度的離群點(diǎn)檢測(cè)411
10.4 基于密度的離群點(diǎn)檢測(cè)412
10.4.1 使用相對(duì)密度的離群點(diǎn)檢測(cè)413
10.4.2 優(yōu)點(diǎn)與缺點(diǎn)414
10.5 基于聚類的技術(shù)414
10.5.1 評(píng)估對(duì)象屬于簇的程度415
10.5.2 離群點(diǎn)對(duì)初始聚類的影響416
10.5.3 使用簇的個(gè)數(shù)416
10.5.4 優(yōu)點(diǎn)與缺點(diǎn)416
文獻(xiàn)注釋417
參考文獻(xiàn)418
習(xí)題420
附錄A 線性代數(shù)423
附錄B 維歸約433
附錄C 概率統(tǒng)計(jì)445
附錄D 回歸451
附錄E 優(yōu)化457
數(shù)據(jù)挖掘中文版內(nèi)容截圖PC官方版 安卓官方手機(jī)版 IOS官方手機(jī)版
本文關(guān)鍵詞:數(shù)據(jù)挖掘?qū)д?/strong>,由筆耕文化傳播整理發(fā)布。
本文編號(hào):178346
本文鏈接:http://sikaile.net/wenshubaike/mishujinen/178346.html