跟着大佬学习一下机器学习100-Days-Of-ML。
Day 2 简单线性回归模型
相对来说我觉得这个坑比较小,但是还是有的。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# 数据预处理
dataset = pd.read_csv("studentscores.csv")
X = dataset.iloc[ : , : 1].values
Y = dataset.iloc[ : , 1].values
print X
最重要的是下面这里,test_size在官方代码中设置的是1/4,但是如果是1/4,后面画图的时候会报错,这里设置成0.25就没有问题,不知道为什么。
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.25, random_state=0)
print X_train
这一天的工作就是介绍线性回归。
# 训练集使用简单线性回归模型来训练
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor = regressor.fit(X_train, Y_train)
# 预测结果
Y_pred = regressor.predict(X_test)
# 可视化
plt.scatter(X_train , Y_train, color="red")
plt.plot(X_train , regressor.predict(X_train), color="blue")
plt.show()
plt.scatter(X_test , Y_test, color="red")
plt.plot(X_test , regressor.predict(X_test), color="blue")
plt.show()