決策樹(Decision Tree)模型筆記
本文關(guān)鍵詞:決策樹模型,由筆耕文化傳播整理發(fā)布。
決策樹(Decision Tree)模型筆記
標簽: 決策樹
本文章已收錄于:
分類:
版權(quán)聲明:本文為博主原創(chuàng)文章,未經(jīng)博主允許不得轉(zhuǎn)載。
以前看集體智慧編程時覺得決策樹模型沒什么大不了的,看得不仔細.昨天知道網(wǎng)頁正文抽取(full-text extraction)中對boilerplate和content塊的判斷就是使用該模型,終于有點直觀了,復(fù)習一下吧.
集體智慧編程中以預(yù)測用戶是否選擇付費,付費是basic還是premium的分類問題為例講解.
決策樹每一步分支都采用貪心策略,熵(entropy)或基尼不純度(gini impurity)降低最大的那組,作為新的分支條件.最后得到的結(jié)果不一定是一個100%的結(jié)果,而是可以給出不同結(jié)果的概率,這一點非常實在.
實際中的決策樹可以讓機器幫助專家做出預(yù)測,可以方便以圖像呈現(xiàn).但決策樹如果過度擬合(overfitted),結(jié)果就變得過于針對訓練數(shù)據(jù)了,這是可以指定一個熵的閾值,只要達到這個閾值就不再分支.
對于某列數(shù)據(jù)缺失的記錄,預(yù)測最終結(jié)果和概率時,應(yīng)該讓它進入不同分支,按概率加權(quán).
不僅使用分類,還可以用于價格預(yù)測,只不過評分不是熵和基尼不純度,而是用方差.例子如zillow,可以預(yù)測房子的價格.我很愛玩游戲足球經(jīng)理,估計球員身價這種,應(yīng)該很適用決策樹模型吧?
決策樹廣泛用于金融分析,對于有大量數(shù)值型輸入和輸出的問題,還有數(shù)值之間互相關(guān)聯(lián),決策樹可能并不適合.
從使用上感覺貝葉斯是對獨立特征做計算,決策樹的特征可以有依賴.
頂 0 踩 0
我的同類文章
本文關(guān)鍵詞:決策樹模型,,由筆耕文化傳播整理發(fā)布。
本文編號:48379
本文鏈接:http://sikaile.net/wenshubaike/shangbiaozhuanli/48379.html