IBM SPSS Modeler是一组数据挖掘工具
,通过这些工具可以采用商业技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。
SPSS Modeler提供了各种借助机器学习
、人工智能
和统计学
的建模方法。通过建模选项板中的方法,可以根据数据生成新的信息以及开发预测模型。
在源
中把 变量文件
拖拽出来,右键
–编辑
–引入文件
–修改编码
查看结果 ,在输出
中拉出表格
连接(F2) ,运行 (Ctrl+E)
管理面板
–管理工具
–ODBC数据源]
选择
通过对比发现是因为对于无效数据没有定义,所以导致系统没有排除出无效数据
1、先对数据通过 类型 进行实例化
2、对缺失值进行定义
3、利用 数据审核 进行输出观察
经过缺失值/异常值的处理使完整字段
和完整记录
达到100%,那么处理完的数据才是完美的
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GyFRKZqt-1664253911321)(:/78186a7939194f5c97645a7151a687ff)]
将数据中的缺失值
直接删除
从数据审核节点
–>选择生成
–缺失值过滤节点
将数据中的缺失值
进行其他数据
的添补
运行数据审核节点
–>对缺失插补进行操作–>编辑后确定–>生成缺失值超节点
最终得到:
异常值是在数据集中与其他观察值有很大差距的数据点,它的存在,会对随后的计算结果产生不适当的影响,因此检测异常值并加以适当的处理是十分必要的。
单个
变量出现异常多个
变量出现异常异常值处理的原理
处理步骤:
数据审核节点
–>质量操作
–>生成
(这个最后的输出应该是表格而不是审核节点 )
就是进行数据清洗
,将数据质量达到100%
统计建模常常要求变量服从正态分布
如果变量不服从正态分布,应对变量进行适当的转换处理。
SPSS Modeler提供了直观的图形方式用于变量的转换,大大缩短了变量分布探索的时间。
步骤:
输出的变换
节点 读入数据
选择 字段
运行 生成函数图像
–>选择符合正态分布的函数图像
–>生成超节点变换
–>表格输出
时间:01:37:26
➢二分类型相关性研究可以从图形分析
入手,也可以采用数值方法
进行分析。
问 :
➢例如,基于电信客户数据
,可分析客户流失
与套餐类型、婚姻状况、电子支付等是否相关。
➢这里,基于电信客户数据,分析套餐类型的分布特征
,以及流失客户在不同套餐类型上的分布
。
图形分析并不能准确反映二分类型之间精确的相关程度,因此进行数值分析
是必要的, 数值分析通常采用的方法是列联分析。
列联分析包括两个步骤:第一步,计算二分类型的列联表;第二步,分析列联表中行、列变量之间的.相关性。
问:
这里,对电信客户数据
进行数值分析,目标是.分析客户“流失”与“套餐类型”是否相关。
时间:01:49:05
变量重要性概念:
◆从变量本身看,重要的输入变量应是携带信息较多的变量,也就是方差较大的变量。
◆从变量与目标变量的相关性角度看,重要变量应对目标变量的分类预测有显著意义。
时间:01:51:42
时间:01:53:02
问:
◆现有一份顾客购买意愿数据表,文件名为: [购买判断.sav]
◆现需从顾客信息数据中,寻找顾客购买意愿的影响因素并训练模型用来预测。
时间:02:05:57
问:
注意将食品项的角色分配为 任意
➢时间序列是指按时间顺序排列的一组数据序列,是-一个变量在一-定时间段内不同时间点 上观测值的集合。
➢根据观察时间的不同,时间序列中的时间间隔可以是年份、季度、月份、周、日或其他时间段。
时间序列分析
➢时间序列分析是一种根据时间序列揭示系统动态结构和规律的统计方法。
➢依据时间序列的特征,产生了与之相适用的方法。
➢时间序列分析的主要目的是根据已有的历史数据对未来进行预测。
问:
●该数据是某公司2010-2019十年间服装销售情况(单位:万元)
●需求:根据过去10年的销售数据来预测其男装类的月度销售情况
●操作: 定义日期-指定目标-设置时间间隔创建模型-检查模型
填充 定义时间