【课程作业】西瓜书机器学习课后习题：第二章

简介

Hello！
非常感谢您阅读海轰的文章，倘若文中有错误的地方，欢迎您指出～

ଘ(੭ˊᵕˋ)੭
昵称：海轰
标签：程序猿｜C++选手｜学生
简介：因C语言结识编程，随后转入计算机专业，获得过国家奖学金，有幸在竞赛中拿过一些国奖、省奖…已保研
学习经验：扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语！

唯有努力💪

本文仅记录自己感兴趣的内容

说明

作业要求：每章从课后习题中选取3道题做就可以了

答案来源：题目的解答过程来自于网络，依据个人所学进行了一些修改、总结

仅供参考

2.1

数据集包含1000个样本，其中500个正例、500个反例，将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估，试估算共有多少种划分方式。

题目分析：根据题意，我们需要划分出350个正例和反例作为样本的训练集，150个正例和反例作为样本的测试集，因此该题是一个典型的排列组合问题。
答案：

2.2

数据集包含100个样本，其中正、反例各一半，假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别（训练样本数相同时进行随机猜测），试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。

知识点：

十折交叉验证，英文名叫做10-fold cross-validation，用来测试算法准确性。是常用的测试方法。将数据集分成十份，轮流将其中9份作为训练数据，1份作为测试数据，进行试验。

留一法，假定数据集D中包含m个样本，若令k=m，则得到了交叉验证法的一个特例：留一法（Leave-One-Out，简称LOO）。显然，留一法不受随机样本划分方式的影响，因为m个样本只有唯一的方式划分为m个子集——每个子集包含一个样本；留一法使用的训练集与初始数据集相比只少了一个样本，这就使得在绝大多数情况下，留一法中被实际评估的模型与期望评估的用D训练出的模型很相似。因此，留一法的评估结果往往被认为比较准确。然而，留一法也有其缺陷：在数据集比较大时，训练m个模型的计算开销可能是难以忍受的（例如数据集包含1百万个样本，则需训练1百万个模型），而这还是在未考虑算法调参的情况下。另外，留一法的估计结果也未必永远比其他评估方法准确；“没有免费的午餐”定理对实验评估方法同样适用。

答案：

十折交叉验证：10折交叉验证时，每个训练集应该有45正例、45反例，验证集应该有5正例、5反例，由于训练集中正例、反例比例为1:1，则按照题目的预测算法，预测时会进行随机预测（因为训练样本数比例相同），所以错误率的期望为50%

留一法：留下来做验证集的样本有两种情况：正例、反例。当留下来的是正例时，训练集中反例比正例多一个，按照题目的算法会将验证集预测为反例，预测错误；留下来的是反例时同理，会将验证集预测为正例。所以错误率的期望为100%

2.3

若学习器A的 $F_1$ 值比学习器B高，试分析A的BEP值是否也比B高。（不确定)

知识点：

在这里插入图片描述

参考https://www.jianshu.com/p/9d70c26b73a2

2.4

试述真正例率（TPR）、假正利率（FPR）与查准率（P）、查全率（R）之间的联系。

知识点：

分类结果混淆矩阵如下

分类结果混淆矩阵

分析：

在这里插入图片描述

结语

文章仅作为个人学习笔记记录，记录从0到1的一个过程

希望对您有一点点帮助，如有错误欢迎小伙伴指正

在这里插入图片描述

相关阅读:
世上没有白走的路，白走的路是在试错｜MAC中import的maven工程无法识别java程序以及依赖包无法加载等问题的解决办法
浅谈OCR图片表格识别与目标检测的关系、异同与互相利用情况
全面分析“找不到XINPUTI_3.dll无法继续执行代码”的5个解决方法总结
最新微服务架构秘籍总结：SpringCloud+SpringCloud Alibaba 全网火爆疯传！
使用信号分析器
mysql操作 sql语句中的完整性约束有哪些，主键约束、外键约束、引用完整性约束，主键外键、唯一性
英语语法汇总（9.时态）
2024最新版Redis常见面试题包含详细讲解
macOS 中聚焦搜索的使用教程
php获取文件扩展名的三种方法

原文地址：https://blog.csdn.net/weixin_44225182/article/details/126655505

【课程作业】西瓜书 机器学习课后习题 ： 第二章

目录

简介

说明

2.1

2.2

2.3

2.4

结语

【课程作业】西瓜书机器学习课后习题：第二章