當前位置：主頁 > 論文百科 > 病蟲害防治論文 >

python_xuanyuansen的專欄

發(fā)布時間：2016-09-16 13:05

本文關(guān)鍵詞：scikit-learn，由筆耕文化傳播整理發(fā)布。

scikit-learn是基于python的機器學習模塊，基于BSD開源許可證。這個項目最早由DavidCournapeau 在2007 年發(fā)起的，目前也是由社區(qū)自愿者進行維護。

scikit-learn的官方網(wǎng)站是，在上面可以找到相關(guān)的scikit-learn的資源，模塊下載，文檔，例程等等。

scikit-learn的安裝需要numpy，scipy，matplotlib等模塊，windows用戶可以到

~gohlke/pythonlibs直接下載編譯好的安裝包以及依賴，也可以到這個網(wǎng)站下載。

scikit-learn的基本功能主要被分為六個部分，分類，回歸，聚類，數(shù)據(jù)降維，模型選擇，數(shù)據(jù)預(yù)處理，具體可以參考官方網(wǎng)站上的文檔。

對于具體的機器學習問題，通常可以分為三個步驟，數(shù)據(jù)準備與預(yù)處理，模型選擇與訓練，模型驗證與參數(shù)調(diào)優(yōu)，這里以邏輯回歸模型為例說明。

scikit-learn支持多種格式的數(shù)據(jù)，包括經(jīng)典的iris數(shù)據(jù)，LibSVM格式數(shù)據(jù)等等。為了方便起見，推薦使用LibSVM格式的數(shù)據(jù)，詳細見LibSVM的官網(wǎng)。

from sklearn.datasets importload_svmlight_file，導入這個模塊就可以加載LibSVM模塊的數(shù)據(jù)，

t_X,t_y=load_svmlight_file("filename")

機器學習模型也要導入相應(yīng)的模塊，邏輯回歸模型在下面的模塊中。

from sklearn.linear_modelimport LogisticRegression

regressionFunc =LogisticRegression(C=10, penalty='l2', tol=0.0001)

train_sco=regressionFunc.fit(train_X,train_y).score(train_X,train_y)

test_sco=regressionFunc.score(test_X,test_y)

就可以完成模型的訓練和測試了。

為了選擇更好地模型可以進行交叉實驗，或者使用貪心算法進行參數(shù)調(diào)優(yōu)。

導入如下模塊就可以，

CV：

from sklearn importcross_validation

X_train_m, X_test_m,y_train_m, y_test_m = cross_validation.train_test_split(t_X,t_y, test_size=0.5,random_state=seed_i)

regressionFunc_2.fit(X_train_m,y_train_m)

sco=regressionFunc_2.score(X_test_m,y_test_m, sample_weight=None)

GridSearch：

from sklearn.grid_searchimport GridSearchCV

tuned_parameters =[{'penalty': ['l1'], 'tol': [1e-3, 1e-4],

'C': [1, 10, 100, 1000]},

{'penalty': ['l2'], 'tol':[1e-3, 1e-4],

'C': [1, 10, 100, 1000]}]

clf =GridSearchCV(LogisticRegression(), tuned_parameters, cv=5, scoring=['precision','recall'])

print(clf.best_estimator_)

當然可以利用matplotlib繪制學習曲線，需要導入相應(yīng)模塊如下：

from sklearn.learning_curveimport learning_curve,validation_curve

核心代碼如下，具體參見scikit-learn的官方文檔：

rain_sizes, train_scores,test_scores = learning_curve(

estimator, X, y, cv=cv, n_jobs=n_jobs,train_sizes=train_sizes)

train_scores, test_scores =validation_curve(

estimator, X, y, param_name,param_range,

cv, scoring, n_jobs)

當然，scikit-learn中的機器學習模型非常豐富，包括SVM，決策樹，GBDT，，KNN等等，可以根據(jù)問題的類型選擇合適的模型，更多內(nèi)容請參閱官方文檔。

本文關(guān)鍵詞：scikit-learn，由筆耕文化傳播整理發(fā)布。

本文編號：116387

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/wenshubaike/kaixinbaike/116387.html

上一篇：商城的商品評價體系_構(gòu)建多元評價體系_從核心期刊反思我國學術(shù)評價體系
下一篇：scikit-learn python_zouxy09的專欄

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

python_xuanyuansen的專欄