• [Kettle] 单变量统计


    单变量统计是对数据进行单个变量的数据统计,以字段为单变量,可以分别对多个字段进行数据统计,统计类型有N(统计数量)、最小值、最大值、平均值、样本标准差、中位数和任意百分位数等

    数据源

    2018年上学期期末考试成绩(Kettle数据集9).xlsicon-default.png?t=N7T8https://download.csdn.net/download/Hudas/88537342?spm=1001.2014.3001.5501需求:在"2018年上学期期末考试成绩.xls"文件中,为了解学生考试的统计数据,对语文和数学两门主科进行数据统计,使用单变量统计组件,分别统计学生的考试人数、最低分、最高分、平均分和中位数

    1.建立【单变量统计】转换工程

    使用Ctrl+N快捷键,创建【单变量统计】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【Excel输入】组件,并拖曳到右边工作区中,设置参数,导入"2018年上学期期末考试成绩.xls"文件,预览数据,如下图所示,在当前源数据中,只有各科课程的分数,没有统计分数

    在【单变量统计】转换工程中,单击【核心对象】选项卡,单击展开【统计】对象,选中【单变量统计】组件,并拖曳到右边工作区中,由【Excel输入】组件指向【单变量统计】组件,建立节点连接,如下图所示

    2.设置【单变量统计】参数

    双击【单变量统计】组件,弹出【Univariate statistics】对话框,如下图所示

    【单变量统计】组件的有关参数说明如下表所示

    参数名称说明
    Step name

    表示单变量统计组件名称,在单个转换工程中,名称必须唯一

    默认值是【单变量统计】组件名称

    Input fields and derived stats输入字段和导出的统计信息
    Input field表示进行统计的字段名称,单击下拉框选择字段名称,默认值为空
    N表示是否统计字段记录数量,从下拉框中选择,选项有True、False,默认值为空
    Mean表示是否统计字段的均值,选项有True、False,默认值为空
    Std dev表示是否统计数值字段的standard deviation标准差,选项有True、False,默认值为空
    Min表示是否统计数值字段的最小值,选项有True、False,默认值为空
    Max表示是否统计数值字段的最大值,选项有True、False,默认值为空
    Median表示是否统计数值字段的中位数,选项有True、False,默认值为空
    Percentile表示数值字段百分位数,默认值为空
    Interpolate percentile表示是否统计数值字段的插入百分位数,选项有True、False,默认值为空

    在【Univariate statistics】对话框中,设置参数,对学生语文、数学考试成绩进行统计,步骤如下所示

    (1) 设置组件名称,保留【Step name】默认值"单变量统计"

    (2) 在【Input fields andderived stats】表中,设置统计的各个字段参数

    此时完成【单变量统计】组件的参数设置如下图所示

    3.预览结果数据

    在【单变量统计】工程中,单击【单变量统计】组件,再单击工作区上方的"预览这个转换"图标,预览进行单变量统计后的数据,如下图所示

  • 相关阅读:
    Eureka服务注册与发现
    MySQL使用全文索引+ngram全文解析器进行全文检索
    8、Mip-NeRF
    【数据结构】——顺序表
    Docker从入门到部署项目
    为什么OpenCV计算的帧率是错误的?
    必看!S3File Sink Connector 使用文档
    RabbitMQ入门
    @RequestBody注解转对象中驼峰格式的参数无法接收到数据的问题解决方法
    VsCode与Sublime编辑器优缺点对比
  • 原文地址:https://blog.csdn.net/Hudas/article/details/134499452