• 机器学习-波士顿房价预测


    目录

     一.数据处理

    读入数据

    数据形状变换

     数据集划分

     数据归一化处理

    将上面封装成load data函数

    二. 模型设计

    完整封装运行代码:

     根据loss值进行梯度计算

    控制部分变量的变化图像:

     

     一.数据处理

    读入数据

    # 导入需要用到的package

    import numpy as np

    import json

    # 读入训练数据

    datafile = './work/housing.data'

    data = np.fromfile(datafile, sep=' ')//这个函数用于从文件 datafile 中读取数据。它将文件中的数据按照给定的分隔符 sep=' ' 进行分割,并将分割后的数据加载到一个 NumPy 数组中。

    数据形状变换

    1. # 读入之后的数据被转化成1维array,其中array的第0-13项是第一条数据,第14-27项是第二条数据,以此类推....
    2. # 这里对原始数据做reshape,变成N x 14的形式
    3. feature_names = [ 'CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE','DIS',
    4. 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV' ]
    5. feature_num = len(feature_names)
    6. data = data.reshape([data.shape[0] // feature_num, feature_num])
    7. //data.shape[0]返回数据矩阵data的行数,而feature_num代表每个样本的特征数。通过将数据矩阵的总行数除以特征数,可以得到样本的数量。然后将矩阵data重塑为新的形状,其中每行包含feature_num个特征。
    8. //data原本是个以空格分割的一维数组,现在变成了一个data.shape[0] // feature_num个行,feature_num个列的二位数组
    9. 形如:
    10. // 样本1的特征0 样本1的特征1 ...样本1的特征m
    11. // 样本2的特征0 ...
    12. // 样本3的特征0 ...
    13. ...
    14. // 样本N的特征0 ...

     注:

    1. x = data[0]//含义:第一个样本的所有数据,data数组的第一行
    2. print(x.shape)
    3. print(x)
    4. /*(14,)
    5. [6.320e-03 1.800e+01 2.310e+00 0.000e+00 5.380e-01 6.575e+00 6.520e+01
    6. 4.090e+00 1.000e+00 2.960e+02 1.530e+01 3.969e+02 4.980e+00 2.400e+01]*/

     数据集划分

    1. ratio = 0.8
    2. offset = int(data.shape[0] * ratio)
    3. training_data = data[:offset]/*首先,根据给定的ratio比例,计算出划分点的位置(offset),即将数据矩阵按照比例划分为两部分。
    4. 然后,通过使用切片操作(data[:offset]),将原始数据(data)的前offset行作为训练数据(training_data)。因此,这两行代码的作用是将data矩阵的前ratio比例的数据划分为训练数据集,并将其赋值给training_data。*/
    5. training_data.shape//(404, 14)

     数据归一化处理

    对每个特征进行归一化处理,使得每个特征的取值缩放到0~1之间。这样做有两个好处:一是模型训练更高效,在本节的后半部分会详细说明;二是特征前的权重大小可以代表该变量对预测结果的贡献度(因为每个特征值本身的范围相同)

    1. # 计算train数据集的最大值,最小值
    2. maximums, minimums = \
    3. training_data.max(axis=0), \
    4. training_data.min(axis=0)
    5. //通过使用maxmin函数来计算训练数据集每个特征的最大值和最小值。axis=0表示沿着列的方向进行计算。
    6. # 对数据进行归一化处理
    7. for i in range(feature_num):
    8. data[:, i] = (data[:, i] - minimums[i]) / (maximums[i] - minimums[i])
    9. //data[:, i]表示选取数据集中的第i个特征
    10. //首先,通过减去最小值,将数据转化为相对范围。然后,除以最大值和最小值之间的差,将数据缩放到01之间。这样可以确保不同特征的值在相同的尺度上进行比较。

    将上面封装成load data函数

    1. def load_data():
    2. # 从文件导入数据
    3. datafile = './work/housing.data'
    4. data = np.fromfile(datafile, sep=' ')
    5. # 每条数据包括14项,其中前面13项是影响因素,第14项是相应的房屋价格中位数
    6. feature_names = [ 'CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', \
    7. 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV' ]
    8. feature_num = len(feature_names)
    9. # 将原始数据进行Reshape,变成[N, 14]这样的形状
    10. data = data.reshape([data.shape[0] // feature_num, feature_num])
    11. # 将原数据集拆分成训练集和测试集
    12. # 这里使用80%的数据做训练,20%的数据做测试
    13. # 测试集和训练集必须是没有交集的
    14. ratio = 0.8
    15. offset = int(data.shape[0] * ratio)
    16. training_data = data[:offset]
    17. # 计算训练集的最大值,最小值
    18. maximums, minimums = training_data.max(axis=0), training_data.min(axis=0)
    19. # 对数据进行归一化处理
    20. for i in range(feature_num):
    21. data[:, i] = (data[:, i] - minimums[i]) / (maximums[i] - minimums[i])
    22. # 训练集和测试集的划分比例
    23. training_data = data[:offset]
    24. test_data = data[offset:]
    25. return training_data, test_data
    1. # 获取数据
    2. training_data, test_data = load_data()
    3. x = training_data[:, :-1]
    4. y = training_data[:, -1:]
    1. # 查看数据
    2. print(x[0])
    3. print(y[0])

    二. 模型设计

    完整封装运行代码:

    1. class Network(object):
    2. def __init__(self, num_of_weights):
    3. # 随机产生w的初始值
    4. # 为了保持程序每次运行结果的一致性,此处设置固定的随机数种子
    5. np.random.seed(0)
    6. self.w = np.random.randn(num_of_weights, 1)//num_of_weights表示权重的数量,函数生成形状为(num_of_weights, 1)的随机权重数组
    7. self.w[5] = -100.
    8. self.w[9] = -100.
    9. self.b = 0.//将self.b初始化为0,表示偏置项。
    10. def forward(self, x)://前向传播
    11. z = np.dot(x, self.w) + self.b
    12. return z
    13. def loss(self, z, y):
    14. error = z - y
    15. cost = error * error
    16. cost = np.mean(cost)
    17. return cost
    18. def gradient(self, x, y):
    19. z = self.forward(x)
    20. gradient_w = (z-y)*x
    21. gradient_w = np.mean(gradient_w, axis=0)//# axis = 0 表示把每一行做相加然后再除以总的行数,mean算平均数
    22. gradient_w = gradient_w[:, np.newaxis]//使用NumPy的矩阵操作方便地完成了gradient的计算,但引入了一个问题,gradient_w的形状是(13,),而www的维度是(13, 1)。导致该问题的原因是使用np.mean函数时消除了第0维。为了加减乘除等计算方便,gradient_w和www必须保持一致的形状。因此我们将gradient_w的维度也设置为(13,1)
    23. gradient_b = (z - y)
    24. gradient_b = np.mean(gradient_b)
    25. return gradient_w, gradient_b
    26. def update(self, gradient_w5, gradient_w9, eta=0.01):
    27. net.w[5] = net.w[5] - eta * gradient_w5
    28. net.w[9] = net.w[9] - eta * gradient_w9
    29. def train(self, x, y, iterations=100, eta=0.01):
    30. points = []
    31. losses = []
    32. for i in range(iterations):
    33. points.append([net.w[5][0], net.w[9][0]])
    34. z = self.forward(x)
    35. L = self.loss(z, y)
    36. gradient_w, gradient_b = self.gradient(x, y)
    37. gradient_w5 = gradient_w[5][0]
    38. gradient_w9 = gradient_w[9][0]
    39. self.update(gradient_w5, gradient_w9, eta)
    40. losses.append(L)
    41. if i % 50 == 0:
    42. print('iter {}, point {}, loss {}'.format(i, [net.w[5][0], net.w[9][0]], L))
    43. return points, losses
    44. # 获取数据
    45. train_data, test_data = load_data()
    46. x = train_data[:, :-1]
    47. y = train_data[:, -1:]
    48. # 创建网络
    49. net = Network(13)
    50. num_iterations=2000
    51. # 启动训练
    52. points, losses = net.train(x, y, iterations=num_iterations, eta=0.01)
    53. # 画出损失函数的变化趋势
    54. plot_x = np.arange(num_iterations)
    55. plot_y = np.array(losses)
    56. plt.plot(plot_x, plot_y)
    57. plt.show()

     根据loss值进行梯度计算

    控制部分变量的变化图像:

    1. net = Network(13)
    2. # 此处可以一次性计算多个样本的预测值和损失函数
    3. x1 = x[0:3]
    4. y1 = y[0:3]
    5. z = net.forward(x1)
    6. print('predict: ', z)
    7. loss = net.loss(z, y1)
    8. print('loss:', loss)

     这里将w0,w1,...,w12w_0, w_1, ..., w_{12}w0​,w1​,...,w12​中除w5,w9w_5, w_9w5​,w9​之外的参数和bbb都固定下来,可以用图画出L(w5,w9)L(w_5, w_9)L(w5​,w9​)的形式,并在三维空间中画出损失函数随参数变化的曲面图。

    1. net = Network(13)
    2. losses = []
    3. #只画出参数w5和w9在区间[-160, 160]的曲线部分,以及包含损失函数的极值
    4. w5 = np.arange(-160.0, 160.0, 1.0)
    5. w9 = np.arange(-160.0, 160.0, 1.0)
    6. losses = np.zeros([len(w5), len(w9)])
    7. #计算设定区域内每个参数取值所对应的Loss
    8. for i in range(len(w5)):
    9. for j in range(len(w9)):
    10. net.w[5] = w5[i]
    11. net.w[9] = w9[j]
    12. z = net.forward(x)
    13. loss = net.loss(z, y)
    14. losses[i, j] = loss
    15. # 使用matplotlib将两个变量和对应的Loss作3D图
    16. import matplotlib.pyplot as plt
    17. from mpl_toolkits.mplot3d import Axes3D
    18. fig = plt.figure()
    19. # 如果您使用较新版本的matplotlib无法出图,可以替换为ax = fig.add_axes(Axes3D(fig))
    20. ax = Axes3D(fig)
    21. w5, w9 = np.meshgrid(w5, w9)
    22. ax.plot_surface(w5, w9, losses, rstride=1, cstride=1, cmap='rainbow')
    23. plt.show()

  • 相关阅读:
    分享一些阅读Java相关框架源码的经验
    建立JDBC连接
    运行deepspeech训练,报出如下错误,不知道如何解决
    【算法】Java 算法设计模式的应用场景
    算法通关村-----动态规划高频问题
    上初三的小伙子做了个windows12网页版
    RuntimeError: size of dimension does not match previous size, operand 1, dim 1
    实训笔记8.31
    ARM异常处理(1):异常类型、优先级分组和异常向量表
    Python中如何定义类、基类、函数和变量?
  • 原文地址:https://blog.csdn.net/Che_Che_/article/details/132675426