码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 数据预处理


    目录

    一、缺失值的处理

    1.如果缺失值比例特别大的话,可以直接把该项指标删除。

    2.如果对个体精度要求不大的数据,可以考虑使用均值和众数进行插补。

     3.对指标数据有精准要求 ,可以考虑用三次样条插值

     二、异常值处理

    1、3-σ准则

    2、箱线图法

    3.异常值处理

    一、缺失值的处理

    1.如果缺失值比例特别大的话,可以直接把该项指标删除。

    1. clc, clear
    2. a=readmatrix('F:\数学建模\数学建模算法与应用(第3版)源程序\程序及数据\07第7章 数理统计\data7_18.txt');
    3. a
    4. A = ismissing(a) %显示1为缺失值
    5. [m,n]=size(A)
    6. sumj=sum(A)
    7. j=sumj./m %缺失值所占的比列

    通过缺失值的比例来判断 

    2.如果对个体精度要求不大的数据,可以考虑使用均值和众数进行插补。

    定量数据,比如一群人的年龄、身高等,可以考虑用均值插补

    定性数据,比如一群人的性别,文化程度,可以考虑用众数插补

    插补均值例子 [1500,1550,1610,NAN,NAN]  

    1. v=mean(a(1:3,4))
    2. F = fillmissing(a(:,4),'constant',v)

    结果:1.0e+03 *

        1.5000
        1.5500
        1.6100
        1.5533
        1.5533

     3.对指标数据有精准要求 ,可以考虑用三次样条插值

    1. %spline用三次样条插值
    2. x = [-4*pi:0.1:0, 0.1:0.2:4*pi];
    3. A = sin(x);
    4. A(A < 0.75 & A > 0.5) = NaN;
    5. [F,TF] = fillmissing(A,'spline','SamplePoints',x)
    6. plot(x,A,'.', x(TF),F(TF),'o')
    7. xlabel('x');
    8. ylabel('sin(x)')
    9. legend('Original Data','Filled Missing Data')

     

     二、异常值处理

    1、3-σ准则

    步骤:

    1. 要求数据服从正态分布 

    2.计算μ为数据均值,σ为数据标准差

    3.判断每个数据是否在(μ—3σ,μ+3σ)内,不在则为异常值

    2、箱线图法

     

    在箱线图中,第一四分位数Q1:又称“下四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。中位数F:又称第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。第三四分位数(Q3):又称“上四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。例如:x = [12 15 17 19 20 23 25 28 30 33 34 35 36 37];

    1、下四分位数Q1

    Q1所在的位置=(14+1)/4=3.75,

    Q1=0.25×第三项+0.75×第四项=0.25×17+0.75×19=18.5;

    2、中位数(第二个四分位数)Q2

    Q2所在的位置=2(14+1)/4=7.5,

    Q2=0.5×第七项+0.5×第八项=0.5×25+0.5×28=26.5

    3、上四分位数Q3

    Q3所在的位置=3(14+1)/4=11.25,

    Q3=0.75×第十一项+0.25×第十二项=0.75×34+0.25×35=34.25。

    4.四分位距IQR=Q3-Q1=34.25-18.5=15.75

    5、上限

    上限是非异常范围内的最大值。

    上限=Q3+1.5IQR=34.25+1.5*15.75= 57.8750

    6、下限

    下限是非异常范围内的最小值。

    下限=Q1-1.5*IQR=18.5-1.5*15.75=-5.1250

    7.异常值被定义为小于Q1-1.5*IQR或大于Q3+1.5*IQR的值,对其进行剔除。

    1. x = [12 15 17 19 20 23 25 28 30 33 34 35 36 37];
    2. boxplot(x)

     

     

    3.异常值处理

    1.直接删除

    2.设为缺失值,然后通过缺失值来处理

     

  • 相关阅读:
    git-命令行显示当前目录分支
    DevOps(十二)Jenkins实战之Web发布到远程服务器
    Python基础学习019--跳过
    spring cache (Redis方式)
    eMMC编程基础 -(二)eMMC基础介绍
    Git的基本操作和原理
    JWT简介& JWT结构& JWT示例& 前端添加JWT令牌功能& 后端程序
    Servlet —— Tomcat, 初学 Servlet 程序
    【老生谈算法】matlabBOOST电路的设计与仿真——BOOST电路
    JavaEE——Servlet生命周期
  • 原文地址:https://blog.csdn.net/herry57/article/details/125881079
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号