• 【转】大数据安全--敏感数据识别和分级打标


    原文链接:大数据安全--敏感数据识别和分级打标_Browser_hot的博客-CSDN博客_敏感数据识别算法

    文章目录
    一、信息安全技术政务信息共享数据安全技术要求
    二、敏感数据识别和分级打标
    三、敏感数据自动识别实现
            3.1、敏感字段标注方案
            3.2、敏感字段识别
    四、demo代码
            4.1、识别mysql数据库中手机号码字段
            4.2、敏感数据识别规则
                    IP地址: 正则表达式
                    MAC地址: 正则表达式
                    IPv6地址: 正则表达式
                    手机号: 正则表达式
                    银行卡: 算法
                    身份证: 算法
                    地址:自然语言处理工具包(CRF)
                    姓名:自然语言处理工具包(CRF)
                    性别: 正则表达式
                    民族: 正则表达式
                    省份: 正则表达式
                    车牌号: 正则表达式
                    电话号码: 正则表达式
                    军官证:正则表达式
                    邮箱: 正则表达式
                    护照号: 正则表达式
                    港澳通行证: 正则表达式
                    JDBC连接串: 正则表达式
                    日期:正则表达式
                    车辆识别代码:正则表达式
                    组织机构代码:算法
                    营业执照号码 :算法
                    统一社会信用代码:算法


    一、信息安全技术政务信息共享数据安全技术要求


            数据安全技术要求
    共享数据提供方在进行数据分级分类时的安全要求包括:

    应按照政务信息资源分级分类相关要求对共享数据分级分类并进行标记,根据标记可对数据安全等级进行识别,并需要保留标记记录,作为审计依据;
    应按照数据级别确定所必要的安全防护措施;
    应对共享数据分级分类的变更进行记录,并通知相关数据使用方;
    应明确使用方对共享数据的使用权限,包括是否允许数据存储、数据存储保护要求、是否允许使用方提供给第三方等。


    二、敏感数据识别和分级打标


            数据分级分类的原则

            分类: 依据数据的来源、内容和用途对数据进行分类;
            分级: 按照数据的价值、内容敏感程度、影响和分发范围不同对数据进行敏感级别划分。
                            数据分级分类方式

    根据梳理出的备案数据资产,进行敏感数据的自动探测,通过特征探测定位敏感数据分布在哪些数据资产中;
    针对敏感的数据资产进行分级分类标记,分类出敏感数据所有者(部门、系统、管理人员等);
    根据已分类的数据资产由业务部门进行敏感分级,将分类的数据资产划分公开、内部、敏感等不同的敏感级别。
    敏感数据识别

    通过用户自定义规则,自动识别敏感数据
    使用自带的规则或自定义规则,对其结构化表或者非结构化文件进行整体扫描、分级

    三、敏感数据自动识别实现


    3.1、敏感字段标注方案
    敏感字段包括:
    统一社会信用代码,车辆识别代码,营业执照号码,税务登记证号码,组织机构代码,图片,日期,IP地址,MAC地址,城市,性别,民族,省份,车牌号,电话号码,军官证,邮箱,护照号,港澳通行证,姓名,地址,手机号,身份证,银行卡。

    发现敏感字段方法

    定期全库扫描,识别敏感字段 (周期触发)。
    新增或修改表和字段,增量扫描识别出敏感字段。需要监听数据库对表或字段的操作,来指定表或字段进行敏感识别扫描,需结合数据库代理服务
    手动触发扫描
    3.2、敏感字段识别
    识别方式:正则匹配,关键字,算法

    银行卡号、证件号、手机号,有明确的规则,可以根据正则表达式和算法匹配
    姓名、特殊字段,没有明确信息,可能是任意字符串,可以通过配置关键字来进行匹配
    营业执照、地址、图片等,没有明确规则,可以通过自然语言算法来识别,使用开源算法库
    数据识别问题

    全库扫描占用资源较大,是否可以使用采样的方式
    脏数据的判断识别,有的字段是NULL或者空格的,是否可以直接默认是定义为敏感级别
    数据打标,是对全库字段打标,还是只对采样数据进行打标,并单独存库用走后期的统计分析

    四、demo代码

    4.1、识别mysql数据库中手机号码字段
    对指定的mysql实例下的所有库、所有表、所有字段,遍历去匹配正则表达式,然后进行标记。

  • 相关阅读:
    文本生成不同解码方法的具体实现
    面试准备-操作系统
    Mac的nodejs npm run build 报ERR_OSSL_EVP_UNSUPPORTED彻底解决办法
    1457_硬件设计_FCT介绍类基本知识整理
    C++ Reference: Standard C++ Library reference: C Library: cwctype: iswgraph
    IDEA Error: java: -source 1.5中不支持 lambda 表达式和 Error:java: Compilation failed
    xgp用什么加速器 xgp加速器免费推荐
    Ubuntu系统下使用apt-get安装Mysql8
    三体目标管理笔记
    贝叶斯网络是神经网络吗,贝叶斯网络和神经网络
  • 原文地址:https://blog.csdn.net/WangYouJin321/article/details/127744915