创新编程范式,AI科学家和工程师更易使用,便于开放式创新;该计算框架可满足终端、边缘计算、云全场景需求,能更好保护数据隐私;可开源,形成广阔应用生态。
2020年3月28日,华为在开发者大会2020上宣布,全场景AI计算框架MindSpore在码云正式开源。
MindSpore着重提升易用性并降低AI开发者的开发门槛,MindSpore原生适应每个场景包括端、边缘和云,并能够在按需协同的基础上,通过实现AI算法即代码,使开发态变得更加友好,显著减少模型开发时间,降低模型开发门槛。通过MindSpore自身的技术创新及MindSpore与华为昇腾AI处理器的协同优化,实现了运行态的高效,大大提高了计算性能;MindSpore也支持GPU、CPU等其它处理器。
构建数据集。
定义神经网络模型。
定义超参、损失函数及优化器。
输入数据集进行训练与评估。
我们在使用这个框架进行模型训练的时候,我们必须在数据集和网络构建中加载一些代码,这是为了后面测试的时候可以更好地针对性训练,也是对数据训练更完整做了一个前提准备的过程。
- import mindspore
- from mindspore import nn
- from mindspore import ops
- from mindspore.dataset import vision, transforms
- from mindspore.dataset import MnistDataset
-
- # Download data from open datasets
- from download import download
-
- url = "https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/" \
- "notebook/datasets/MNIST_Data.zip"
- path = download(url, "./", kind="zip", replace=True)
-
-
- def datapipe(path, batch_size):
- image_transforms = [
- vision.Rescale(1.0 / 255.0, 0),
- vision.Normalize(mean=(0.1307,), std=(0.3081,)),
- vision.HWC2CHW()
- ]
- label_transform = transforms.TypeCast(mindspore.int32)
-
- dataset = MnistDataset(path)
- dataset = dataset.map(image_transforms, 'image')
- dataset = dataset.map(label_transform, 'label')
- dataset = dataset.batch(batch_size)
- return dataset
-
- train_dataset = datapipe('MNIST_Data/train', 64)
- test_dataset = datapipe('MNIST_Data/test', 64)
-
- class Network(nn.Cell):
- def __init__(self):
- super().__init__()
- self.flatten = nn.Flatten()
- self.dense_relu_sequential = nn.SequentialCell(
- nn.Dense(28*28, 512),
- nn.ReLU(),
- nn.Dense(512, 512),
- nn.ReLU(),
- nn.Dense(512, 10)
- )
-
- def construct(self, x):
- x = self.flatten(x)
- logits = self.dense_relu_sequential(x)
- return logits
-
- model = Network()
这里我们就必须要提到另外一个概念,就是超参
超参是可以调整的参数,可以控制模型训练优化的过程,不同的超参数值可能会影响模型训练和收敛速度。目前深度学习模型多采用批量随机梯度下降算法进行优化,随机梯度下降算法的原理
经常使用的超参
训练轮次(epoch):训练时遍历数据集的次数。这里我补充一下,这就是相当于我们在数钱的时候,数一张大拇指动一下,那么我们数多少张,大拇指所动的次数,大概就是这样的一个道理。
批次大小(batch size):数据集进行分批读取训练,设定每个批次数据的大小。batch size过小,花费时间多,同时梯度震荡严重,不利于收敛;batch size过大,不同batch的梯度方向没有任何变化,容易陷入局部极小值,因此需要选择合适的batch size,可以有效提高模型精度、全局收敛。
学习率(learning rate):如果学习率偏小,会导致收敛的速度变慢,如果学习率偏大,则可能会导致训练不收敛等不可预测的结果。梯度下降法被广泛应用在最小化模型误差的参数优化算法上。梯度下降法通过多次迭代,并在每一步中最小化损失函数来预估模型的参数。学习率就是在迭代过程中,会控制模型的学习进度。
模拟训练也就是对模型的流程大致的做一个预想方案,按照流程进行操作
训练:迭代训练数据集,并尝试收敛到最佳参数。
验证/测试:迭代测试数据集,以检查模型性能是否提升。
损失函数或代价函数是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。例如在统计学和机器学习中被用于模型的参数估计,在宏观经济学中被用于和决策 ,在控制理论中被应用于最优控制理论。
代码放在下面
-
- def train_loop(model, dataset, loss_fn, optimizer):
- # Define forward function
- def forward_fn(data, label):
- logits = model(data)
- loss = loss_fn(logits, label)
- return loss, logits
-
- # Get gradient function
- grad_fn = ops.value_and_grad(forward_fn, None, optimizer.parameters, has_aux=True)
-
- # Define function of one-step training
- def train_step(data, label):
- (loss, _), grads = grad_fn(data, label)
- loss = ops.depend(loss, optimizer(grads))
- return loss
-
- size = dataset.get_dataset_size()
- model.set_train()
- for batch, (data, label) in enumerate(dataset.create_tuple_iterator()):
- loss = train_step(data, label)
-
- if batch % 100 == 0:
- loss, current = loss.asnumpy(), batch
- print(f"loss: {loss:>7f} [{current:>3d}/{size:>3d}]")
-
-
- def test_loop(model, dataset, loss_fn):
- num_batches = dataset.get_dataset_size()
- model.set_train(False)
- total, test_loss, correct = 0, 0, 0
- for data, label in dataset.create_tuple_iterator():
- pred = model(data)
- total += len(data)
- test_loss += loss_fn(pred, label).asnumpy()
- correct += (pred.argmax(1) == label).asnumpy().sum()
- test_loss /= num_batches
- correct /= total
- print(f"Test: \n Accuracy: {(100*correct):>0.1f}%, Avg loss: {test_loss:>8f} \n")
-
-
-
- loss_fn = nn.CrossEntropyLoss()
- optimizer = nn.SGD(model.trainable_params(), learning_rate=learning_rate)
-
- epochs = 3
- for t in range(epochs):
- print(f"Epoch {t+1}\n-------------------------------")
- train_loop(model, train_dataset, loss_fn, optimizer)
- test_loop(model, test_dataset, loss_fn)
- print("Done!")
-
这里我熟悉了这个数据的训练之后,我做了一个有关模型训练的实际操作红酒分类
代码如下:
完