码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 数据建模之查文献找数据以及数据预处理


    1. 查文献

    1. 知网:先看硕博士论文
    2. 谷歌学术镜像:http://scholar.scqylaw.com/
    3. Open Access Library:https://www.oalib.com/

    2. 找数据

    1. 优先:知网,谷歌学术
    2. 国家统计局:https://data.stats.gov.cn/
    3. Github:包含经济、地理、能源、教育等数据。https://github.com/awesomedata/awesome-public-datasets
    4. EPSDATA 平台:EPSDATA平台有丰富的数据资源和大量分析处理过的数据结果,是收费的,不过可以申请7天的试用。https://www.epsnet.com.cn/index.html#/Index
    5. 其它:国家信息中心,kaggle,和鲸社区。

    2. 数据预处理

    2.1 缺失值

    比赛提供的数据发现有些单元格是 null 或者是空的。

    • 缺失太多:例如调查人口信息,发现 “年龄” 这一项缺失了 40%,就直接把该项指标删除。

    • 均值、众数插补 (最简单的处理)

      • 定量数据:例如关于一群人的身高、年龄等数据,用整体的均值来补缺失。
      • 定性数据:例如关于一群人的性别、文化程度;某些事件调查的满意度,用出现次数最多的值补缺失。
      • 适用赛题:人口的数量年龄、经济产业情况等统计数据,对个体精度要求不大的数据。
    • Newton 插值法

      • 根据固定公式,构造近似函数,补上缺失值,普遍适用性强。
      • 缺点:区间边缘处的不稳定振荡,即龙格现象。不适合对导数有要求的题目。
      • 适用赛题:热力学温度、地形测量、定位等只追求函数值精确而不关心变化的数据。
    • 样条插值法

      • 用分段光滑的曲线去插值,光滑意味着曲线不仅连续,还要有连续的曲率。
      • 适用赛题:零件加工,水库水流量,图像“基线漂移”,机器人轨迹等精度要求高,没有突变的数据。

    2.2 异常值

    样本中明显和其他数值差异很大的数据,例如一群人的身高数据中有个3米2的。

    找异常值:

    • 正态分布 3 σ \sigma σ 原则

      • 数值分布在 ( μ − 3 σ \mu-3\sigma μ−3σ, μ + 3 σ \mu+3\sigma μ+3σ) 中的概率为 99.76%,其中 μ \mu μ 为平均值, σ \sigma σ 为标准差。
      • 求解步骤:1. 计算均值和标准差;2. 判断每个数据值是都在 ( μ − 3 σ \mu-3\sigma μ−3σ, μ + 3 σ \mu+3\sigma μ+3σ) 内,不在则为异常值。
      • 适用题目:总体符合正态分布,例如人口数据、测量误差、生产加工质量、考试成绩等。
      • 不适用题目:总体符合其它分别,例如公交站人数排队论符合泊松分布。
    • 画箱型图

      • 箱型图中,把数据从小到大排序。下四分位数 Q 1 Q_1 Q1​ 是排第 25% 的数值,上四分位数 Q 3 Q_3 Q3​ 是排第 75% 的数值。
      • 四分位距 I Q R = Q 3 − Q 1 IQR = Q_3 - Q_1 IQR=Q3​−Q1​, 也就是排名第75%的减去第 25%的数值。
      • 一般设 [ Q 1 − 1.5 × I Q R , Q 3 + 1.5 × I Q R ] [Q_1 - 1.5 \times IQR, Q_3 + 1.5 \times IQR] [Q1​−1.5×IQR,Q3​+1.5×IQR] 内为正常值。
      • 适用题目:普遍使用。
      • 在这里插入图片描述
    1. 灰色预测模型:https://www.bilibili.com/read/cv14816370/
  • 相关阅读:
    如何一键转发朋友圈,快速跟圈?
    [附源码]计算机毕业设计JAVA课程资源系统管理
    应用缺少POI数据,如何开发地点深度信息?
    MySQL数据库管理及用户管理以及数据库用户授权
    java-net-php-python-SSM公共租赁住房信息管理系统录像计算机毕业设计程序
    c语言从入门到实战——数组指针与函数指针
    神经网络模型的工作原理,神经网络模型应用实例
    四、文件的属性
    【数据结构】详解堆的基本结构及其实现
    第四十九周总结——初遇http
  • 原文地址:https://blog.csdn.net/qq_41033011/article/details/126666738
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号