在Python中,可以使用scikit-learn
庫來實現多元線性回歸。
首先,需要導入所需的庫和模塊:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
接下來,需要準備好訓練數據集和測試數據集。假設訓練數據集包含n
個樣本,每個樣本有m
個特征,標簽為y
。可以將特征和標簽分別存儲在兩個數組X
和y
中。
然后,可以使用train_test_split
函數將數據集拆分成訓練集和測試集:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
其中,test_size=0.2
表示測試集占總數據集的比例為20%,random_state
是隨機種子,用于每次運行代碼時得到相同的拆分結果。
接下來,可以創建一個LinearRegression
對象,并使用訓練數據來擬合模型:
model = LinearRegression()
model.fit(X_train, y_train)
訓練完成后,可以使用模型對測試數據進行預測:
y_pred = model.predict(X_test)
最后,可以使用不同的評估指標來評估模型的性能,例如均方誤差(Mean Squared Error):
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, y_pred)
print("均方誤差:", mse)
以上就是使用scikit-learn
實現多元線性回歸的基本步驟。當然,還可以進行特征工程、數據標準化等進一步優化步驟來提高模型的性能。