对于多项式回归方法来说,若你的数据点不适合线性回归(就是直线大部分不穿过数据点),那么使用该方法就比较合适。
并且多项式回归像线性回归一样,都是用变量 x 和 y 之间的关系来找到绘制数据点线最好的方法。
Python 中有一些方法可以找到数据点之间的关系并画出多项式回归线。
例如:研究乙醇转化率与温度的关系
# 建立一元一次方程y = ax + b
import numpy as np
import matplotlib.pyplot as plt
# A1组温度与乙醇转换率的关系图-散点图
x=np.array([250,275,300,325,350]).reshape((-1, 1))
y=np.array([2.07,5.85,14.97,19.68,36.80])
plt.scatter(x, y) # 绘制散点图
plt.title('A1')
plt.show()
结果如下:
很明显如果用线性回归的,所有的数据点不能落在同一条直线上
用多项式回归方法来做:
# 多项式拟合
import numpy
import matplotlib.pyplot as plt
x=[250,275,300,325,350]
y=[2.07,5.85,14.97,19.68,36.80]
mymodel = numpy.poly1d(numpy.polyfit(x, y, 4)) # 四阶
myline = numpy.linspace(250, 350, 100) # 从位置250开始,到位置350结束
plt.scatter(x, y) # 散点图
plt.plot(myline, mymodel(myline), label='A1') # 多项式回归
plt.legend() # 设置图例
plt.show() # 显示
print('A1组中温度与乙醇转换率的关系中阶数的系数:', numpy.polyfit(x, y, 4))
结果如下:
A1组中温度与乙醇转换率的关系中阶数的系数: [ 2.83413333e-06 -3.36325333e-03 1.49119667e+00 -2.92472967e+02
2.14005200e+04]
温度和乙醇转换率的关系为:
# y=2.83413333e-06 * x ^4 -3.36325333e-03 * x^3 + 1.49119667e+00 * x ^2 -2.92472967e+02 * x + 2.14005200e+04
上述代码详解:
import numpy
import matplotlib.pyplot as plt
x=[250,275,300,325,350]
y=[2.07,5.85,14.97,19.68,36.80]
mymodel = numpy.poly1d(numpy.polyfit(x, y, 4)) # 四阶
myline = numpy.linspace(250, 350, 100) # 从位置250开始,到位置350结束
linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
作用:在指定的大间隔内(start,stop),返回固定间隔的数据。他们返回num个等间距的样本。
参数介绍:start : scalar(标量) — 队列的开始值
stop:scalar — 队列的结束值 (当endpoint=False时,不包含该点。)
num:int,optional(可选填),生成序列的个数,默认为50,必须为整数。
endpoint:bool,True时stop是最后的样本。False时stop不被包含。默认为True。
retstep:bool,True时会改变计算的输出结果,输出为一个元组,元组的两个元素分别是需要生成的数列和数列的步长值。默认为False。
plt.scatter(x, y) # 散点图
plt.plot(myline, mymodel(myline), label='A1') # 多项式回归
polyfit对应的是多项式系数
函数原型为:
numpy.polyfit(x,y,num)
可以对一组数据进行多项式拟合。
例子:
import matplotlib.pyplot as plt
import numpy as np
# 构建噪声数据xu,yu
xu = np.random.rand(50) * 4 * np.pi - 2 * np.pi
def f(x):
return np.sin(x) + 0.5 * x
yu = f(xu)
plt.figure(figsize=(8, 4))
# 用噪声数据xu,yu,得到拟合多项式系数,自由度为5
reg = np.polyfit(xu, yu, 5)
# 计算多项式的函数值。返回在x处多项式的值,p为多项式系数,元素按多项式降幂排序
ry = np.polyval(reg, xu)
# 原先函数绘制
plt.plot(xu, yu, 'bo', label='f(x)')#蓝色虚线
# 拟合绘制
plt.plot(xu, ry, 'r.', label='regression')#红色点状
plt.legend(loc=0)# 位置
plt.show()# 显示
结果如下:
poly1d对应的就是多项式表达式
numpy.poly1d()函数有以下几个参数。
分别为:
import numpy
a= numpy.array([2,1,1])
f = numpy.poly1d(a)
print('表达式为:\n', f)
则有:(x - 2)(x - 4)(x - 5) = x^3 - 11x^2 + 38x -40
例子:
import numpy
import matplotlib.pyplot as plt
x=[250,275,300,325,350]
y=[2.07,5.85,14.97,19.68,36.80]
polyfit=numpy.polyfit(x, y, 4)# 多项式系数
poly1d = numpy.poly1d(polyfit)# 多项式表达式
myline = numpy.linspace(250, 350, 100) # 从位置250开始,到位置350结束
plt.scatter(x, y) # 散点图
plt.plot(myline, poly1d(myline), label='A1') # 多项式回归
plt.legend() # 设置图例
plt.show() # 显示
print('系数:\n', polyfit)
print('表达式:\n', poly1d)