ML 100 Days (2)

跟着大佬学习一下机器学习100-Days-Of-ML

Day 2 简单线性回归模型

数据下载

相对来说我觉得这个坑比较小,但是还是有的。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


# 数据预处理
dataset = pd.read_csv("studentscores.csv")
X = dataset.iloc[ : ,   : 1].values
Y = dataset.iloc[ : , 1].values
print X

最重要的是下面这里,test_size在官方代码中设置的是1/4,但是如果是1/4,后面画图的时候会报错,这里设置成0.25就没有问题,不知道为什么。

from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.25, random_state=0)
print X_train

这一天的工作就是介绍线性回归。

# 训练集使用简单线性回归模型来训练
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor = regressor.fit(X_train, Y_train)

# 预测结果
Y_pred = regressor.predict(X_test)

# 可视化
plt.scatter(X_train , Y_train, color="red")
plt.plot(X_train , regressor.predict(X_train), color="blue")
plt.show()

plt.scatter(X_test , Y_test, color="red")
plt.plot(X_test , regressor.predict(X_test), color="blue")
plt.show()