码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 数据标准化


    1、均值方差标准化(Z-Score标准化)

    计算过程:
    对每个属性/每列分别进行一下操作,将数据按属性/按列减去其均值,并除以其方差,最终使每个属性/每列的所有数据都聚集在均值为0,方差为1附近。
    公式:(x-mean(x))/std(x)
    使用sklearn.processing()方法

    1. from sklearn import preprocessing
    2. import numpy as np
    3. scaled = preprocessing.scale(data)
    4. # 还可以自定义公式
    5. def std_ch(data):
    6. data = (data - np.mean(data,axis=0)) / np.std(data,axis=0)
    7. return data

    使用sklearn.preprocessing.StandardScaler类。

    1. from sklearn.preprocessing import StandardScaler
    2. scaler = StandradScaler().fit(train_data)
    3. # 查看数据的均值
    4. scaler.mean_
    5. # 查看数据的方差
    6. scaler.std_
    7. # 直接对测试集进行转换
    8. scaler.transform(test_data)

    2、0-1标准化(离差标准化,最大最小标准化)

    对原始数据进行线性变换,使其结果落在[0,1]区间内,转换函数如下:
    在这里插入图片描述
    其中max为样本数据的最大值,min为样本数据的最小值。
    可以通过sklearn.preprocessing.MinMaxScaler类实现。

    1. from sklearn.preprocessing import MinMaxScaler
    2. min_max_scaler = MinMaxScaler()
    3. train_scaled = min_max_scaler.fit_transform(train_data)
    4. # 同样的缩放应用到测试集数据中
    5. test_scaled = min_max_scaler.transform(test_data)
    6. # 查看缩放因子
    7. min_max_scaler.scale_
    8. # 自定义公式
    9. def deal(data):
    10. data=(data-data.min())/(data.max()-data.min())
    11. return data

    3、正态化分布

    计算的主要思想是对每个样本计算其p-范数,然后对该样本中每个元素除以该范数,这样处理的结果是使得每个处理后的样本的p-范数等于1。在文本分类和聚类分析中经常作为向量空间模型(SVM)的基础。
    使用sklearn.preprocessing.normalize()来实现。

    1. from sklearn.preprocessing import normalize
    2. data_normalized = normalize(data,norm = 'l2')
    3. # data_normalized = normalize(data,norm = 'l1')
  • 相关阅读:
    网络空间安全相关法律法规
    深度学习系列1——Pytorch 图像分类(LeNet)
    重载和重写的底层原理——虚拟机字节码执行引擎
    听懂未来:AI语音识别技术的进步与实战
    Java面向对象知识详解——三大基本特征
    【Linux】程序地址空间
    Python闭包:深入理解与应用场景解析
    翻译像机翻?4点教会你ChatGPT高质量翻译
    PMP证书真的有含金量吗?值不值得考?
    论文阅读《Omnidirectional DSO: Direct Sparse Odometry with Fisheye Cameras》
  • 原文地址:https://blog.csdn.net/qq_45100200/article/details/133128246
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号