分割数据清洗

数据清洗是算法工作的重要组成部分，对算法模型的成功有着至关重要的作用。数据清洗总体目标是将数据中不符合算法设定的情况的数据筛除，否则会干扰模型收敛。数据清洗一种是针对“野生”数据进行清洗，然后再做进一步处理；还有一部分是已经经过一阶段清洗，还需要进行人工标注，人工标注后再做一次清洗。特别是人工标注难免会有出错的时候，错标、漏标经常难以避免。进行数据清洗最好要提前做好规划，有利于后续清洗的条理清晰。下面以个人工作总结经验：

针对分割任务；人工标注数据进行清洗；

数据情况：每种情况的数据、mask存在一个文本文件中如csv；

1.提前做好数据规划。

数据模式要提前划分好，不能有混淆。

比如空扫数据、单指、双指、三指、四指等各种情况，分别采集，其中有交叉的部分在人工标注前就应该提前裁掉，比如每次采集单多指数据的前若干帧是空扫数据，人工标注前就应该先行剔除。这样在人工标注后数据便比较容易的根据单个文件进行分情况判断、清洗。

2. 清洗规则

连通域分析

单指数据标注的 mask中应该只有一个连通域；双指mask应该只有两个连通域，以此类推三指、四指、五指等。虽然实际采集过程中途可能会有手指无意抬起的情况，但这也是我们执行数据清洗的目的，将与所属模式类别不符的数据保存（注意维持编号，方便查找）拿出来进行二次人工检查，可以比直接人工筛查减少大量工作量。

相关阅读:
LeetCode_哈希表_困难_149. 直线上最多的点数
前端框架Bootstrap
day17正则表达式作业
论文投稿前需要检查下参考文献
SpringSession ( 二 ) 项目中使用
微服务项目：尚融宝（24）（后端搭建：JWT令牌测试）
【牛客 - 剑指offer】JZ54 二叉搜索树的第k个节点递归版+非递归版 Java实现
【改进哈里鹰算法(NCHHO)】使用混沌和非线性控制参数来提高哈里鹰算法的优化性能，解决车联网相关的路由问题（Matlab代码实现）
OSPF的原理与配置
12.cuBLAS开发指南中文版--cuBLAS中的Level-1函数asum()和axpy()

原文地址：https://blog.csdn.net/Hero_Never_GIVE_UP/article/details/133747722