[Kettle] 单变量统计

单变量统计是对数据进行单个变量的数据统计，以字段为单变量，可以分别对多个字段进行数据统计，统计类型有N(统计数量)、最小值、最大值、平均值、样本标准差、中位数和任意百分位数等

数据源

2018年上学期期末考试成绩(Kettle数据集9).xlshttps://download.csdn.net/download/Hudas/88537342?spm=1001.2014.3001.5501需求：在"2018年上学期期末考试成绩.xls"文件中，为了解学生考试的统计数据，对语文和数学两门主科进行数据统计，使用单变量统计组件，分别统计学生的考试人数、最低分、最高分、平均分和中位数

1.建立【单变量统计】转换工程

使用Ctrl+N快捷键，创建【单变量统计】转换工程，单击【核心对象】选项卡，展开【输入】对象，选中【Excel输入】组件，并拖曳到右边工作区中，设置参数，导入"2018年上学期期末考试成绩.xls"文件，预览数据，如下图所示，在当前源数据中，只有各科课程的分数，没有统计分数

在【单变量统计】转换工程中，单击【核心对象】选项卡，单击展开【统计】对象，选中【单变量统计】组件，并拖曳到右边工作区中，由【Excel输入】组件指向【单变量统计】组件，建立节点连接，如下图所示

双击【单变量统计】组件，弹出【Univariate statistics】对话框，如下图所示

【单变量统计】组件的有关参数说明如下表所示

参数名称	说明
Step name	表示单变量统计组件名称，在单个转换工程中，名称必须唯一默认值是【单变量统计】组件名称
Input fields and derived stats	输入字段和导出的统计信息
Input field	表示进行统计的字段名称，单击下拉框选择字段名称，默认值为空
N	表示是否统计字段记录数量，从下拉框中选择，选项有True、False，默认值为空
Mean	表示是否统计字段的均值，选项有True、False，默认值为空
Std dev	表示是否统计数值字段的standard deviation标准差，选项有True、False，默认值为空
Min	表示是否统计数值字段的最小值，选项有True、False，默认值为空
Max	表示是否统计数值字段的最大值，选项有True、False，默认值为空
Median	表示是否统计数值字段的中位数，选项有True、False，默认值为空
Percentile	表示数值字段百分位数，默认值为空
Interpolate percentile	表示是否统计数值字段的插入百分位数，选项有True、False，默认值为空

在【Univariate statistics】对话框中，设置参数，对学生语文、数学考试成绩进行统计，步骤如下所示

(1) 设置组件名称，保留【Step name】默认值"单变量统计"

(2) 在【Input fields andderived stats】表中，设置统计的各个字段参数

此时完成【单变量统计】组件的参数设置如下图所示

在【单变量统计】工程中，单击【单变量统计】组件，再单击工作区上方的"预览这个转换"图标，预览进行单变量统计后的数据，如下图所示

相关阅读:
html通过使用图像源的协议(protocol)相对 URL 来防止安全/不安全错误
javaEE -4（11000字详解多线程）
【fastapi】定时任务管理
华为“仓颉”不是中文编程，中文编程早有所属，势如破竹
everything-everything使用技巧，过滤文件语法
“图”学习提纲
Java核心工具库Guava介绍以及Optional和Preconditions使用进行非空和数据校验
Bioinformatics2021 | FraGAT+：基于分子原始片段的多尺度图注意力机制的分子性质预测模型
为什么一般一个表数据不能超过2000万
基于lightgbm的金融风控算法实践（Python版）

原文地址：https://blog.csdn.net/Hudas/article/details/134499452