python --机器学习(基本算法详解)

介绍

数据集

在计算机中，数据集指的是任何数据集合。它可以是从数组到完整数据库的任何内容。

一个数组的例子：

[99,86,87,88,111,86,103,87,94,78,77,85,86]
1

一个数据库的例子：

在这里插入图片描述

通过查看数组，我们可以猜测平均值可能约为 80 或 90，并且我们还可以确定最大值和最小值，但是我们还能做什么？

通过查看数据库，我们可以看到最受欢迎的颜色是白色，最老的车龄是 17 年，但是如果仅通过查看其他值就可以预测汽车是否具有 AutoPass，该怎么办？

这就是机器学习的目的！分析数据并预测结果！

在机器学习中，通常使用非常大的数据集。在本教程中，我们会尝试让您尽可能容易地理解机器学习的不同概念，并将使用一些易于理解的小型数据集。

数据类型

如需分析数据，了解我们要处理的数据类型非常重要。

我们可以将数据类型分为三种主要类别：

数值数据是数字，可以分为两种数值类别：

离散数据（Discrete Data）

连续数据（Continuous Data）

分类数据是无法相互度量的值。例如：颜色值或任何 yes/no 值。

序数数据类似于分类数据，但可以相互度量。示例：A 优于 B 的学校成绩，依此类推。

通过了解数据源的数据类型，您就能够知道在分析数据时使用何种技术。

均值、中值和众数

从一组数字中我们可以学到什么？

在机器学习（和数学）中，通常存在三中我们感兴趣的值：

例如：我们已经登记了 13 辆车的速度：

speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]
1

什么是平均，中间或最常见的速度值？

均值

均值就是平均值。

要计算平均值，请找到所有值的总和，然后将总和除以值的数量：

(99+86+87+88+111+86+103+87+94+78+77+85+86) / 13 = 89.77
1

NumPy 模块拥有用于此目的的方法：

实例

import numpy

speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]

x = numpy.mean(speed)

print(x)
1
2
3
4
5
6
7

相关阅读:
【ai】pycharm设置软件仓库编译运行基于langchain的chatpdf
uniapp 登录功能实现
猿创征文｜Python快速刷题网站——牛客网数据分析篇（十二）
移动设备为何没有更多开源解决方案？
外设中断产生 + CPU响应中断并返回的控制流程
VMware17 不可恢复错误mks解决方案
《吐血整理》保姆级系列教程-玩转Fiddler抓包教程(5)-Fiddler监控面板详解
Hive知识梳理(好文)
【菜鸡学艺–Vue2–001】模板语法&声明式渲染
面试官：Go方法值接收者和指针接收者的区别?

原文地址：https://blog.csdn.net/weixin_44634704/article/details/126280578