单变量统计是对数据进行单个变量的数据统计,以字段为单变量,可以分别对多个字段进行数据统计,统计类型有N(统计数量)、最小值、最大值、平均值、样本标准差、中位数和任意百分位数等
数据源
2018年上学期期末考试成绩(Kettle数据集9).xlshttps://download.csdn.net/download/Hudas/88537342?spm=1001.2014.3001.5501需求:在"2018年上学期期末考试成绩.xls"文件中,为了解学生考试的统计数据,对语文和数学两门主科进行数据统计,使用单变量统计组件,分别统计学生的考试人数、最低分、最高分、平均分和中位数
使用Ctrl+N快捷键,创建【单变量统计】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【Excel输入】组件,并拖曳到右边工作区中,设置参数,导入"2018年上学期期末考试成绩.xls"文件,预览数据,如下图所示,在当前源数据中,只有各科课程的分数,没有统计分数
在【单变量统计】转换工程中,单击【核心对象】选项卡,单击展开【统计】对象,选中【单变量统计】组件,并拖曳到右边工作区中,由【Excel输入】组件指向【单变量统计】组件,建立节点连接,如下图所示
双击【单变量统计】组件,弹出【Univariate statistics】对话框,如下图所示
【单变量统计】组件的有关参数说明如下表所示
参数名称 | 说明 |
Step name | 表示单变量统计组件名称,在单个转换工程中,名称必须唯一 默认值是【单变量统计】组件名称 |
Input fields and derived stats | 输入字段和导出的统计信息 |
Input field | 表示进行统计的字段名称,单击下拉框选择字段名称,默认值为空 |
N | 表示是否统计字段记录数量,从下拉框中选择,选项有True、False,默认值为空 |
Mean | 表示是否统计字段的均值,选项有True、False,默认值为空 |
Std dev | 表示是否统计数值字段的standard deviation标准差,选项有True、False,默认值为空 |
Min | 表示是否统计数值字段的最小值,选项有True、False,默认值为空 |
Max | 表示是否统计数值字段的最大值,选项有True、False,默认值为空 |
Median | 表示是否统计数值字段的中位数,选项有True、False,默认值为空 |
Percentile | 表示数值字段百分位数,默认值为空 |
Interpolate percentile | 表示是否统计数值字段的插入百分位数,选项有True、False,默认值为空 |
在【Univariate statistics】对话框中,设置参数,对学生语文、数学考试成绩进行统计,步骤如下所示
(1) 设置组件名称,保留【Step name】默认值"单变量统计"
(2) 在【Input fields andderived stats】表中,设置统计的各个字段参数
此时完成【单变量统计】组件的参数设置如下图所示
在【单变量统计】工程中,单击【单变量统计】组件,再单击工作区上方的"预览这个转换"图标,预览进行单变量统计后的数据,如下图所示