k-fold 交叉验证方法的工作原理如下:
1.将数据随机分成 k 个“折叠”或子集(例如 5 或 10 个子集)。
2.在所有数据上训练模型,只留下一个子集。
3.使用模型对遗漏的子集中的数据进行预测。
4.重复这个过程,直到 k 个子集的每一个都被用作测试集。
5 . 通过计算 k 个测试误差的平均值来衡量模型的质量。这被称为
交叉验证错误。
在这个例子中,我们首先将数据分成 5 个子集。然后,我们使用除一个子集以外的所有数据拟合模型。接下来,我们使用该模型对 遗漏的子集进行预测并记录测试误差(使用 R 平方、RMSE 和 MAE)。我们 重复这个过程,直到每个子集都被用作测试集。然后我们简单地计算 5 个测试 错误的平均值。
#load dplyr library used for data manipulation
library(dplyr)
#load caret library used for partitioning data into training and test set
library(caret)
#make this example reproducible
set.seed(