您好,登錄后才能下訂單哦!
本篇內容主要講解“怎么用Python開啟機器學習”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“怎么用Python開啟機器學習”吧!
隨著行業內機器學習的崛起,能夠幫用戶快速迭代整個過程的工具變得至關重要。Python,機器學習技術領域冉冉升起的一顆新星,帶你走向成功實現人生價值。因此,用 Python 實現機器學習是非常有必要的。
用 Python 實現機器學習的介紹
很多伙伴可能想不出為什么是 Python 而不是其他的語言?根據我的經驗,Python 是最容易學習的編程語言之一。現在需要快速迭代整個過程,與此同時,數據科學家不需要深入了解這種語言,因為他們可以快速掌握它。
有多容易呢?
for anything in the_list: print(anything)
是不是想英語一樣,哈哈。Python 的語法和英語(或人類語言,而不是機器語言)語法關系密切。在 Python 的語法中沒有愚蠢的大括號造成的困擾。我有一個從事質量保證(Quality Assurance)工作的同事,雖然不是軟件工程師,但她可以在一天內寫出產品級的 Python 代碼。(是真的!)
我將在下文中介紹幾個基于 Python 的庫。作為數據分析師和數據科學家,我們可以利用他們的杰作來幫助我們完成任務。這些不可思議的庫是用 Python 實現機器學習的必備工具。
NumPy
這是一個非常有名的數據分析庫。從計算數據分布的中位數,到處理多維數組,NumPy 都可以幫你完成。
Pandas
這是用來處理 CSV 文件的。當然了,你還需要處理一些表格、查看統計數據等,那 Pandas 就是可以滿足你的需求的工具。
Matplotlib
把數據存儲在 Pandas 的數據框后,你可能需要做一些可視化來理解數據的更多信息。畢竟一圖抵千言。
Seaborn
這是另一個可視化工具,但這個工具更側重于統計結果的可視化,比如直方圖、餅圖、曲線圖或相關性表等。
Scikit-Learn
這是用 Python 實現機器學習的終極工具。所謂用 Python 實現機器學習指的就是這個——Scikit-Learn。所有你需要的從算法到提升的內容都能在這里找到。
Tensorflow 和 Pytorch
針對這兩個工具我不會說太多。但如果你對深度學習感興趣的話,可以詳細了解一下,它們值得你花時間去學習。(我下次會再寫一篇關于深度學習的教程,敬請期待!)
Python 機器學習項目
示例項目:
泰坦尼克:從災難中進行機器學習(https://www.)
就是眾所周知的泰坦尼克號。這是一場發生在 1912 年的災難,這場災難波及到的乘客和機組成員共 2224 人,其中 1502 人遇難死亡。這項 Kaggle 競賽(或者說是教程)提供了災難中的真實數據。你的任務是解釋這些數據,并預測出災難中哪些人會活下來,哪些人不會。
用 Python 實現機器學習的教程
在深入了解泰坦尼克號的數據之前,我們要先安裝一些必需的工具。
首先當然是 Python。第一次安裝 Python 需要從官網上安裝。你要安裝 3.6 以上的版本,這樣才能跟最新版本的庫保持同步。
Python 官方網站:https://www.
然后可以用 Python 的 pip 安裝所有的庫。你剛剛下載的 Python 發行版會自動安裝 pip。
需要的其他工具都可以用 pip 安裝。打開終端、命令行或 PowerShell,命令如下:
pip install numpy pip install pandas pip install matplotlib pip install seaborn pip install scikit-learn pip install jupyter
看起來一切都運行良好。但是等一下,什么叫 jupyter?jupyter 表示 Julia、Python 和 R,因此它實際上是 Jupytr。但這個單詞看起來太奇怪了,所以他們把它變成了 Jupyter。這是一個很有名的筆記本,你可以在這個筆記本上寫交互式的 Python 代碼。
只要在終端中輸入 jupyter notebook,就可以打開瀏覽器頁面
你可以把代碼寫在綠色矩形中,而且可以交互式地編寫并評價 Python 代碼。
現在你已經安裝了所有的工具。我們開始吧!
數據探索
探索數據是第一步。你需要從 Kaggle 的 Titanic 頁面下載數據,然后將下載的數據放到你啟動 Jupyter 筆記本的文件夾中。
數據下載地址:https://www.ta
然后導入必要的庫:
import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings('ignore') %matplotlib inline
載入數據:
train_df=pd.read_csv("train.csv") train_df.head()
這就是我們的數據。它有下面幾列:
PassengerId,乘客的標識符;
Survived,他(她)是否存活了下來;
Pclass,艙室類別,也許 1 表示經濟艙,2 表示商務艙,3 表示頭等艙;
Name,乘客的名字;
Sex,性別;
Age,年齡;
SibSp,即兄弟姐妹(siblings)或配偶(spouses),表示在船上的兄弟姐妹以及配偶的數目;
Parch,即父母(Parents)或子女(Children),表示在船上的父母和子女的數目;
Ticket,船票詳情;
Cabin,艙號,NaN 表示未知;
Embarked,登船的起始地,S 表示南安普頓(Southampton),Q 表示皇后鎮(Queenstown),C 表示瑟堡(Cherbourg)
在探索數據時,常常會遇到數據缺失的問題。我們來看一下
def missingdata(data): total = data.isnull().sum().sort_values(ascending = False) percent = (data.isnull().sum()/data.isnull().count()*100).sort_values(ascending = False) ms=pd.concat([total, percent], axis=1, keys=['Total', 'Percent']) ms= ms[ms["Percent"] > 0] f,ax =plt.subplots(figsize=(8,6)) plt.xticks(rotation='90') fig=sns.barplot(ms.index, ms["Percent"],color="green",alpha=0.8) plt.xlabel('Features', fontsize=15) plt.ylabel('Percent of missing values', fontsize=15) plt.title('Percent missing data by feature', fontsize=15) return ms missingdata(train_df)
艙號、年齡以及登船地的數據都有一些缺失值,而艙號信息有大量的缺失。我們需要對它們進行處理,也就是所謂的數據清理(Data Cleaning)。
數據清理
我們 90% 的時間都花在這上面。我們要針對每一個機器學習項目進行大量的數據清理。當數據清理干凈時,我們就可以輕松地進行下一步了,什么都不用擔心。
數據清理中最常用的技術是填充缺失數據。你可以用眾數、平均數或中位數來填充缺失數據。選擇這些數據沒有絕對規則,你可以一一嘗試,然后看看它們的表現如何。但是根據經驗來講,分類數據只能用眾數,連續數據可以用中位數或平均數。所以我們用眾數來填充登船地數據,用中位數來填充年齡數據。
train_df['Embarked'].fillna(train_df['Embarked'].mode()[0], inplace = True) train_df['Age'].fillna(train_df['Age'].median(), inplace = True)
接下來的重要操作是刪除數據,尤其針對大量缺失的數據。我們針對艙號數據進行以下處理:
drop_column = ['Cabin'] train_df.drop(drop_column, axis=1, inplace = True)
現在檢查一下清理過的數據。
print('check the nan value in train data') print(train_df.isnull().sum())
特征工程
現在數據已經清理干凈了。接下來我們要進行特征工程。
特征工程基本上就是根據當前可用數據發現特征或數據的技術。有幾種方法可以實現這種技術。在很多時候這都是常識。
我們以登船地數據為例——這是用 Q、S 或 C 填充的數據。Python 庫不能處理這個,因為它只能處理數字。所以你需要用所謂的獨熱向量化(One Hot Vectorization)來處理,它可以把一列變成三列。用 0 或 1 填充 Embarked_Q、Embarked_S 和 Embarked_C,來表示這個人是不是從這個港口出發的。
再以 SibSp 和 Parch 為例。這兩列沒有什么有趣的,但是你可能會想知道某個乘客有多少家人登上了這艘船。如果家人多的話可能會增加生存幾率,因為他們可以互相幫助。從另一個角度說,單獨登船的乘客可能很難生存下去。
因此你可以創建新的一列,這一列是成員數量(family size),family size = SibSp + Parch + 1(乘客自己)。
最后一個例子是以 bin 列為例的。由于你認為很難區分具有相似值的事物,所以這種操作創建了值范圍(ranges of values),然后將多個值組合在一起。比如,5 歲和 6 歲的乘客之間有顯著的差異嗎?或者 45 和 46 歲的人之間有顯著的差異嗎?
這就是創建 bin 列的原因。也許就年齡而言,我們可以創建 4 列——幼兒(0~14 歲)、青少年(14~20 歲)、成年人(20~40 歲)以及年長的人(40 歲以上)。
編碼如下:
all_data = train_df for dataset in all_data : dataset['FamilySize'] = dataset['SibSp'] + dataset['Parch'] + 1 import re # Define function to extract titles from passenger names def get_title(name): title_search = re.search(' ([A-Za-z]+)\.', name) # If the title exists, extract and return it. if title_search: return title_search.group(1) return "" # Create a new feature Title, containing the titles of passenger names for dataset in all_data: dataset['Title'] = dataset['Name'].apply(get_title) # Group all non-common titles into one single grouping "Rare" for dataset in all_data: dataset['Title'] = dataset['Title'].replace(['Lady', 'Countess','Capt', 'Col','Don', 'Dr', 'Major', 'Rev', 'Sir', 'Jonkheer', 'Dona'], 'Rare') dataset['Title'] = dataset['Title'].replace('Mlle', 'Miss') dataset['Title'] = dataset['Title'].replace('Ms', 'Miss') dataset['Title'] = dataset['Title'].replace('Mme', 'Mrs') for dataset in all_data: dataset['Age_bin'] = pd.cut(dataset['Age'], bins=[0,14,20,40,120], labels=['Children','Teenage','Adult','Elder']) for dataset in all_data: dataset['Fare_bin'] = pd.cut(dataset['Fare'], bins=[0,7.91,14.45,31,120], labels ['Low_fare','median_fare', 'Average_fare','high_fare']) traindf=train_df for dataset in traindf: drop_column = ['Age','Fare','Name','Ticket'] dataset.drop(drop_column, axis=1, inplace = True) drop_column = ['PassengerId'] traindf.drop(drop_column, axis=1, inplace = True) traindf = pd.get_dummies(traindf, columns = ["Sex","Title","Age_bin","Embarked","Fare_bin"], prefix=["Sex","Title","Age_type","Em_type","Fare_type"])
現在,你已經創建完成所有的特征了。接著我們看看這些特征之間的相關性:
sns.heatmap(traindf.corr(),annot=True,cmap='RdYlGn',linewidths=0.2) #data.corr()-->correlation matrix fig=plt.gcf() fig.set_size_inches(20,12) plt.show()
相關值接近 1 意味著高度正相關,-1 意味著高度負相關。例如,性別為男和性別為女之間就呈負相關,因為必須將乘客識別為一種性別(或另一種)。此外,你還可以看到,除了用特征工程創建的內容外,沒有哪兩種是高度相關的。這證明我們做得對。
如果某些因素之間高度相關會怎么樣?我們可以刪除其中的一個,新列中的信息并不能給系統提供任何新信息,因為這兩者是完全一樣的。
用 Python 實現機器學習
現在我們已經到達本教程的高潮——機器學習建模。
from sklearn.model_selection import train_test_split #for split the data from sklearn.metrics import accuracy_score #for accuracy_score from sklearn.model_selection import KFold #for K-fold cross validation from sklearn.model_selection import cross_val_score #score evaluation from sklearn.model_selection import cross_val_predict #prediction from sklearn.metrics import confusion_matrix #for confusion matrix all_features = traindf.drop("Survived",axis=1) Targeted_feature = traindf["Survived"] X_train,X_test,y_train,y_test = train_test_split(all_features,Targeted_feature,test_size=0.3,random_state=42) X_train.shape,X_test.shape,y_train.shape,y_test.shape
Scikit-Learn 庫中有多種算法供你選擇:
邏輯回歸
隨機森林
支持向量機
K 最近鄰
樸素貝葉斯
決策樹
AdaBoost
LDA
梯度增強
你可能感到不知所措,想弄清什么是什么。別擔心,只要將它當做「黑箱」對待就好——選一個表現最好的。(我之后會寫一篇完整的文章討論如何選擇這些算法。)
以我最喜歡的隨機森林算法為例:
from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(criterion='gini', n_estimators=700, min_samples_split=10,min_samples_leaf=1, max_features='auto',oob_score=True, random_state=1,n_jobs=-1) model.fit(X_train,y_train) prediction_rm=model.predict(X_test) print('--------------The Accuracy of the model----------------------------') print('The accuracy of the Random Forest Classifier is', round(accuracy_score(prediction_rm,y_test)*100,2)) kfold = KFold(n_splits=10, random_state=22) # k=10, split the data into 10 equal parts result_rm=cross_val_score(model,all_features,Targeted_feature,cv=10,scoring='accuracy') print('The cross validated score for Random Forest Classifier is:',round(result_rm.mean()*100,2)) y_pred = cross_val_predict(model,all_features,Targeted_feature,cv=10) sns.heatmap(confusion_matrix(Targeted_feature,y_pred),annot=True,fmt='3.0f',cmap="summer") plt.title('Confusion_matrix', y=1.05, size=15)
哇哦!準確率高達 83%。就第一次嘗試而言,這個結果已經很好了。
交叉驗證分數的意思是 K 折驗證方法。如果 K=10,就是說要把數據分成 10 個變量,計算所有分數的均值,并將它們作為最終分數。
微調
現在你已經完成了用 Python 實現機器學習的步驟。但再加一個步驟可以讓你得到更好的結果——微調。微調的意思是為機器學習算法找到最佳參數。以上面的隨機森林代碼為例:
model = RandomForestClassifier(criterion='gini', n_estimators=700, min_samples_split=10,min_samples_leaf=1, max_features='auto',oob_score=True, random_state=1,n_jobs=-1)
你需要設置許多參數。順便說一下,上面的都是默認值。你可以根據需要改變參數。但當然了,這需要花費很多時間。
別擔心——有一種叫做網格搜索(Grid Search)的工具,它可以自動找出最佳參數。聽起來還不錯,對吧?
# Random Forest Classifier Parameters tunning model = RandomForestClassifier() n_estim=range(100,1000,100) ## Search grid for optimal parameters param_grid = {"n_estimators" :n_estim} model_rf = GridSearchCV(model,param_grid = param_grid, cv=5, scoring="accuracy", n_jobs= 4, verbose = 1) model_rf.fit(train_X,train_Y) # Best score print(model_rf.best_score_) #best estimator model_rf.best_estimator_
到此,相信大家對“怎么用Python開啟機器學習”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。