• python --机器学习(基本算法详解)


    介绍

    数据集

    在计算机中,数据集指的是任何数据集合。它可以是从数组到完整数据库的任何内容。

    一个数组的例子:

    [99,86,87,88,111,86,103,87,94,78,77,85,86]
    
    • 1

    一个数据库的例子:

    在这里插入图片描述

    通过查看数组,我们可以猜测平均值可能约为 80 或 90,并且我们还可以确定最大值和最小值,但是我们还能做什么?

    通过查看数据库,我们可以看到最受欢迎的颜色是白色,最老的车龄是 17 年,但是如果仅通过查看其他值就可以预测汽车是否具有 AutoPass,该怎么办?

    这就是机器学习的目的!分析数据并预测结果!

    在机器学习中,通常使用非常大的数据集。在本教程中,我们会尝试让您尽可能容易地理解机器学习的不同概念,并将使用一些易于理解的小型数据集。

    数据类型

    如需分析数据,了解我们要处理的数据类型非常重要。

    我们可以将数据类型分为三种主要类别:

    • 数值(Numerical)
    • 分类(Categorical)
    • 序数(Ordinal)

    数值数据是数字,可以分为两种数值类别:

    离散数据(Discrete Data)

    • 限制为整数的数字。例如:经过的汽车数量。

    连续数据(Continuous Data)

    • 具有无限值的数字。例如:一件商品的价格或一件商品的大小。

    分类数据是无法相互度量的值。例如:颜色值或任何 yes/no 值。

    序数数据类似于分类数据,但可以相互度量。示例:A 优于 B 的学校成绩,依此类推。

    通过了解数据源的数据类型,您就能够知道在分析数据时使用何种技术。

    平均中位数模式

    均值、中值和众数

    从一组数字中我们可以学到什么?

    在机器学习(和数学)中,通常存在三中我们感兴趣的值:

    • 均值(Mean) - 平均值
    • 中值(Median) - 中点值,又称中位数
    • 众数(Mode) - 最常见的值

    例如:我们已经登记了 13 辆车的速度:

    speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]
    
    • 1

    什么是平均,中间或最常见的速度值?

    均值

    均值就是平均值。

    要计算平均值,请找到所有值的总和,然后将总和除以值的数量:

    (99+86+87+88+111+86+103+87+94+78+77+85+86) / 13 = 89.77
    
    • 1

    NumPy 模块拥有用于此目的的方法:

    实例

    import numpy
    
    speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]
    
    x = numpy.mean(speed)
    
    print(x)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
  • 相关阅读:
    【ai】pycharm设置软件仓库编译运行基于langchain的chatpdf
    uniapp 登录功能实现
    猿创征文|Python快速刷题网站——牛客网 数据分析篇(十二)
    移动设备为何没有更多开源解决方案?
    外设中断产生 + CPU响应中断并返回的控制流程
    VMware17 不可恢复错误mks解决方案
    《吐血整理》保姆级系列教程-玩转Fiddler抓包教程(5)-Fiddler监控面板详解
    Hive知识梳理(好文)
    【菜鸡学艺–Vue2–001】模板语法&声明式渲染
    面试官:Go方法值接收者和指针接收者的区别?
  • 原文地址:https://blog.csdn.net/weixin_44634704/article/details/126280578