數(shù)據(jù)挖掘?qū)д撚⑽陌鎋數(shù)據(jù)挖掘?qū)д?中文版)pdf格式【完整電子版】
本文關(guān)鍵詞:數(shù)據(jù)挖掘?qū)д?/strong>,由筆耕文化傳播整理發(fā)布。
數(shù)據(jù)挖掘?qū)д?/strong>一書基本上涵蓋了數(shù)據(jù)挖掘的許多經(jīng)典算法,分類,聚類,,關(guān)聯(lián)規(guī)則,是一本比較適合對數(shù)據(jù)挖掘感興趣的人閱讀的書籍。該書內(nèi)容以實例為重,給出了常用算法的偽代碼,和《模式識別》、《模式分類》等專著比起來,該書略去了各個定理的證明部分,并通過大量枚舉具體的分類實例,來簡要說明算法的流程和意義。本節(jié)內(nèi)容東坡小編為大家整理帶來的是一份pdf格式完整電子版數(shù)據(jù)挖掘?qū)д?/strong>(中文版),歡迎有需要的朋友前來下載查閱。
數(shù)據(jù)挖掘?qū)д?/strong>(中文版)簡介本書是明尼蘇達大學和密歇根州立大學數(shù)據(jù)挖掘課程的教材,由于獨具特色,正式出版之前就已經(jīng)被斯坦福大學、得克薩斯大學奧斯汀分校等眾多名校采用。
該書全面介紹了數(shù)據(jù)挖掘,涵蓋了五個主題:數(shù)據(jù)、分類、關(guān)聯(lián)分析、聚類和異常檢測。除異常檢測外,每個主題都有兩章。前一章涵蓋基本概念、代表性算法和評估技術(shù),而后一章討論高級概念和算法。這樣讀者在透徹地理解數(shù)據(jù)挖掘的基礎(chǔ)的同時,還能夠了解更多重要的高級主題。
數(shù)據(jù)挖掘中文版目錄第1章 緒論1
1.1 什么是數(shù)據(jù)挖掘2
1.2 數(shù)據(jù)挖掘要解決的問題2
1.3 數(shù)據(jù)挖掘的起源3
1.4 數(shù)據(jù)挖掘任務4
1.5 本書的內(nèi)容與組織7
文獻注釋7
參考文獻8
習題10
第2章 數(shù)據(jù)13
2.1 數(shù)據(jù)類型14
2.1.1 屬性與度量15
2.1.2 數(shù)據(jù)集的類型18
2.2 數(shù)據(jù)質(zhì)量22
2.2.1 測量和數(shù)據(jù)收集問題22
2.2.2 關(guān)于應用的問題26
2.3 數(shù)據(jù)預處理27
2.3.1 聚集27
2.3.2 抽樣28
2.3.3 維歸約30
2.3.4 特征子集選擇31
2.3.5 特征創(chuàng)建33
2.3.6 離散化和二元化34
2.3.7 變量變換38
2.4 相似性和相異性的度量38
2.4.1 基礎(chǔ)39
2.4.2 簡單屬性之間的相似度和相異度40
2.4.3 數(shù)據(jù)對象之間的相異度41
2.4.4 數(shù)據(jù)對象之間的相似度43
2.4.5 鄰近性度量的例子43
2.4.6 鄰近度計算問題48
2.4.7 選取正確的鄰近性度量50
文獻注釋50
參考文獻52
習題53
第3章 探索數(shù)據(jù)59
3.1 鳶尾花數(shù)據(jù)集59
3.2 匯總統(tǒng)計60
3.2.1 頻率和眾數(shù)60
3.2.2 百分位數(shù)61
3.2.3 位置度量:均值和中位數(shù)61
3.2.4 散布度量:極差和方差62
3.2.5 多元匯總統(tǒng)計63
3.2.6 匯總數(shù)據(jù)的其他方法64
3.3 可視化64
3.3.1 可視化的動機64
3.3.2 一般概念65
3.3.3 技術(shù)67
3.3.4 可視化高維數(shù)據(jù)75
3.3.5 注意事項79
3.4 OLAP和多維數(shù)據(jù)分析79
3.4.1 用多維數(shù)組表示鳶尾花數(shù)據(jù)80
3.4.2 多維數(shù)據(jù):一般情況81
3.4.3 分析多維數(shù)據(jù)82
3.4.4 關(guān)于多維數(shù)據(jù)分析的最后評述84
文獻注釋84
參考文獻85
習題86
第4章 分類:基本概念、決策樹與模型評估89
4.1 預備知識89
4.2 解決分類問題的一般方法90
4.3 決策樹歸納92
4.3.1 決策樹的工作原理92
4.3.2 如何建立決策樹93
4.3.3 表示屬性測試條件的方法95
4.3.4 選擇最佳劃分的度量96
4.3.5 決策樹歸納算法101
4.3.6 例子:Web 機器人檢測102
4.3.7 決策樹歸納的特點103
4.4 模型的過分擬合106
4.4.1 噪聲導致的過分擬合107
4.4.2 缺乏代表性樣本導致的過分擬合109
4.4.3 過分擬合與多重比較過程109
4.4.4 泛化誤差估計110
4.4.5 處理決策樹歸納中的過分擬合113
4.5 評估分類器的性能114
4.5.1 保持方法114
4.5.2 隨機二次抽樣115
4.5.3 交叉驗證115
4.5.4 自助法115
4.6 比較分類器的方法116
4.6.1 估計準確度的置信區(qū)間116
4.6.2 比較兩個模型的性能117
4.6.3 比較兩種分類法的性能118
文獻注釋118
參考文獻120
習題122
第5章 分類:其他技術(shù)127
5.1 基于規(guī)則的分類器127
5.1.1 基于規(guī)則的分類器的工作原理128
5.1.2 規(guī)則的排序方案129
5.1.3 如何建立基于規(guī)則的分類器130
5.1.4 規(guī)則提取的直接方法130
5.1.5 規(guī)則提取的間接方法135
5.1.6 基于規(guī)則的分類器的特征136
5.2 最近鄰分類器137
5.2.1 算法138
5.2.2 最近鄰分類器的特征138
5.3 貝葉斯分類器139
5.3.1 貝葉斯定理139
5.3.2 貝葉斯定理在分類中的應用140
5.3.3 樸素貝葉斯分類器141
5.3.4 貝葉斯誤差率145
5.3.5 貝葉斯信念網(wǎng)絡(luò)147
5.4 人工神經(jīng)網(wǎng)絡(luò)150
5.4.1 感知器151
5.4.2 多層人工神經(jīng)網(wǎng)絡(luò)153
5.4.3 人工神經(jīng)網(wǎng)絡(luò)的特點155
5.5 支持向量機156
5.5.1 最大邊緣超平面156
5.5.2 線性支持向量機:可分情況157
5.5.3 線性支持向量機:不可分情況162
5.5.4 非線性支持向量機164
5.5.5 支持向量機的特征168
5.6 組合方法168
5.6.1 組合方法的基本原理168
5.6.2 構(gòu)建組合分類器的方法169
5.6.3 偏倚—方差分解171
5.6.4 裝袋173
5.6.5 提升175
5.6.6 隨機森林178
5.6.7 組合方法的實驗比較179
5.7 不平衡類問題180
5.7.1 可選度量180
5.7.2 接受者操作特征曲線182
5.7.3 代價敏感學習184
5.7.4 基于抽樣的方法186
5.8 多類問題187
文獻注釋189
參考文獻190
習題193
第6章 關(guān)聯(lián)分析:基本概念和算法201
6.1 問題定義202
6.2 頻繁項集的產(chǎn)生204
6.2.1 先驗原理205
6.2.2 Apriori算法的頻繁項集產(chǎn)生206
6.2.3 候選的產(chǎn)生與剪枝208
6.2.4 支持度計數(shù)210
6.2.5 計算復雜度213
6.3 規(guī)則產(chǎn)生215
6.3.1 基于置信度的剪枝215
6.3.2 Apriori算法中規(guī)則的產(chǎn)生215
6.3.3 例:美國國會投票記錄217
6.4 頻繁項集的緊湊表示217
6.4.1 極大頻繁項集217
6.4.2 閉頻繁項集219
6.5 產(chǎn)生頻繁項集的其他方法221
6.6 FP增長算法223
6.6.1 FP樹表示法224
6.6.2 FP增長算法的頻繁項集產(chǎn)生225
6.7 關(guān)聯(lián)模式的評估228
6.7.1 興趣度的客觀度量228
6.7.2 多個二元變量的度量235
6.7.3 辛普森悖論236
6.8 傾斜支持度分布的影響237
文獻注釋240
參考文獻244
習題250
第7章 關(guān)聯(lián)分析:高級概念259
7.1 處理分類屬性259
7.2 處理連續(xù)屬性261
7.2.1 基于離散化的方法261
7.2.2 基于統(tǒng)計學的方法263
7.2.3 非離散化方法265
7.3 處理概念分層266
7.4 序列模式267
7.4.1 問題描述267
7.4.2 序列模式發(fā)現(xiàn)269
7.4.3 時限約束271
7.4.4 可選計數(shù)方案274
7.5 子圖模式275
7.5.1 圖與子圖276
7.5.2 頻繁子圖挖掘277
7.5.3 類Apriori方法278
7.5.4 候選產(chǎn)生279
7.5.5 候選剪枝282
7.5.6 支持度計數(shù)285
7.6 非頻繁模式285
7.6.1 負模式285
7.6.2 負相關(guān)模式286
7.6.3 非頻繁模式、負模式和負相關(guān)模式比較287
7.6.4 挖掘有趣的非頻繁模式的技術(shù)288
7.6.5 基于挖掘負模式的技術(shù)288
7.6.6 基于支持度期望的技術(shù)290
文獻注釋292
參考文獻293
習題295
第8章 聚類分析:基本概念和算法305
8.1 概述306
8.1.1 什么是聚類分析306
8.1.2 不同的聚類類型307
8.1.3 不同的簇類型308
8.2 K均值310
8.2.1 基本K均值算法310
8.2.2 K均值:附加的問題315
8.2.3 二分K均值316
8.2.4 K均值和不同的簇類型317
8.2.5 優(yōu)點與缺點318
8.2.6 K均值作為優(yōu)化問題319
8.3 凝聚層次聚類320
8.3.1 基本凝聚層次聚類算法321
8.3.2 特殊技術(shù)322
8.3.3 簇鄰近度的Lance-Williams公式325
8.3.4 層次聚類的主要問題326
8.3.5 優(yōu)點與缺點327
8.4 DBSCAN327
8.4.1 傳統(tǒng)的密度:基于中心的方法327
8.4.2 DBSCAN算法328
8.4.3 優(yōu)點與缺點329
8.5 簇評估330
8.5.1 概述332
8.5.2 非監(jiān)督簇評估:使用凝聚度和分離度332
8.5.3 非監(jiān)督簇評估:使用鄰近度矩陣336
8.5.4 層次聚類的非監(jiān)督評估338
8.5.5 確定正確的簇個數(shù)339
8.5.6 聚類趨勢339
8.5.7 簇有效性的監(jiān)督度量340
8.5.8 評估簇有效性度量的顯著性343
文獻注釋344
參考文獻345
習題347
第9章 聚類分析:其他問題與算法355
9.1 數(shù)據(jù)、簇和聚類算法的特性355
9.1.1 例子:比較K均值和DBSCAN355
9.1.2 數(shù)據(jù)特性356
9.1.3 簇特性357
9.1.4 聚類算法的一般特性358
9.2 基于原型的聚類359
9.2.1 模糊聚類359
9.2.2 使用混合模型的聚類362
9.2.3 自組織映射369
9.3 基于密度的聚類372
9.3.1 基于網(wǎng)格的聚類372
9.3.2 子空間聚類374
9.3.3 DENCLUE:基于密度聚類的一種基于核的方案377
9.4 基于圖的聚類379
9.4.1 稀疏化379
9.4.2 最小生成樹聚類380
9.4.3 OPOSSUM:使用METIS的稀疏相似度最優(yōu)劃分381
9.4.4 Chameleon:使用動態(tài)建模的層次聚類381
9.4.5 共享最近鄰相似度385
9.4.6 Jarvis-Patrick聚類算法387
9.4.7 SNN密度388
9.4.8 基于SNN密度的聚類389
9.5 可伸縮的聚類算法390
9.5.1 可伸縮:一般問題和方法391
9.5.2 BIRCH392
9.5.3 CURE393
9.6 使用哪種聚類算法395
文獻注釋397
參考文獻398
習題400
第10章 異常檢測403
10.1 預備知識404
10.1.1 異常的成因404
10.1.2 異常檢測方法404
10.1.3 類標號的使用405
10.1.4 問題405
10.2 統(tǒng)計方法406
10.2.1 檢測一元正態(tài)分布中的離群點407
10.2.2 多元正態(tài)分布的離群點408
10.2.3 異常檢測的混合模型方法410
10.2.4 優(yōu)點與缺點411
10.3 基于鄰近度的離群點檢測411
10.4 基于密度的離群點檢測412
10.4.1 使用相對密度的離群點檢測413
10.4.2 優(yōu)點與缺點414
10.5 基于聚類的技術(shù)414
10.5.1 評估對象屬于簇的程度415
10.5.2 離群點對初始聚類的影響416
10.5.3 使用簇的個數(shù)416
10.5.4 優(yōu)點與缺點416
文獻注釋417
參考文獻418
習題420
附錄A 線性代數(shù)423
附錄B 維歸約433
附錄C 概率統(tǒng)計445
附錄D 回歸451
附錄E 優(yōu)化457
數(shù)據(jù)挖掘中文版內(nèi)容截圖PC官方版 安卓官方手機版 IOS官方手機版
本文關(guān)鍵詞:數(shù)據(jù)挖掘?qū)д?/strong>,由筆耕文化傳播整理發(fā)布。
本文編號:178346
本文鏈接:http://sikaile.net/wenshubaike/mishujinen/178346.html