以下内容学习自姚志勇老师编著的《SAS编程与数据挖掘商业案例》
前言:任何一个方法或者多个方法乃至一套解决方案在同一个商业需求中都只有一个“北斗星”,那就是商业目标。衡量一个挖掘模型价值的唯一标准也是商业目标。也就是说,为达到某一个商业目标,可能有很多种技术可以实现,但是商业人员绝对不会关注分析师使用了哪种很“高深”的方法,而只是关注很“高效”的方法。
数据挖掘:从海量的数据中“挖掘”有用的可表示的知识。包含三层意思:
- (1)挖掘对象是海量数据。海量的定义是模糊的,但有一点可以肯定,那就是已经不能用人工的方法来处理数据。
- (2)挖掘工具是现有的技术或集成技术的产品。使用正确而有效的工具不仅是挖掘成功的保证,也是挖掘效率的保证。
- (3)挖掘的结果是有用的可表示的知识。这是因为在商业领域,任何一个数据挖掘所得到的知识最终是要应用的,如果挖掘的知识是无用的或者说挖掘的结果无法理解,那么这种挖掘是失败的。
数据挖掘,在应用层面必须要有一个高效的解决方案,如果在两个能够达到类似效果的挖掘技术之间抉择,商业人员宁可选择简单易行的挖掘技术。
数据挖掘流程步骤:
- (1)数据收集
- (2)数据清洗
- (3)数据特征化
- (4)建立模型
- (5)模型打分
- (6)模型验证
- (7)模型实施
- (8)修正优化模型
流程的复杂度取决于建模的复杂度,建模的复杂度取决于需求的复杂度,需求的复杂度取决于商业目标的重要程度,最终取决于商业目标,这已经和模型无关了。
寻找可预测的因素是最困难,犹如“大海捞针”,也许永远也找不到真正的影响商业目标的因素,而只能从现有的多个因素中用一个“好”的模型去寻找“次优”的影响因素,这就是所谓的数据挖掘。
2. 数据挖掘任务
数据挖掘源于商业需求,总体上,任何一个商业需求都可以归纳为如下三个问题:
- 现状:发生了什么?
- 原因:为什么会发生?
- 预测:将来还会发生吗?
具体又可以分为以下任务:
- 描述分析:对已经发生的现象进行分析。主要的分析技术包括描述性统计分析、数据特征化分析。聚类分析、孤立点分析等。
- 因果分析:寻找发生的原因。主要的分析技术包括联机分析(OLAP)、相关分析、回归分析、关联分析、因子分析等。
- 分类和预测分析:预测未来发生的可能性。主要的分析技术包括决策树分类、判别分析、贝叶斯分类、回归分析(线性和非线性)、神经网络、支持向量机等。分类和预测的区别在于:分类的目标变量是类别标识变量,没有实际的数学意义;预测的目标变量则具有实际的数据含义。
- 时序分析:在时间维度上对未来进行预测。
3. 数据挖掘流程
建模的流程化是保证项目实施成功的关键。常见的流程:
- 1、定义商业目标:明确要度量(临时需求)或预测(建模)什么。
- 2、编制需求文档:细化商业目标。完整的需求文档应包括以下几个部分:
- (1)项目计划文档(PPT):指实现客户需求而制定的需求框架、计划内容、路线图和资源。
- ① 项目背景及商业目标
- ② 技术目标:指明实现商业目标的方向
- ③ 项目实施计划:每一步关键的实施内容及要达到的阶段目标
- ④ 项目路线图:分析团队如何实施项目的明确时间表和每一个阶段的任务。
- ⑤ 资源:每一个项目阶段所需要的参与项目人员(或部门)。
- (2)方法论设计文档(Word):建模师的留存分档,是解决商业需求的技术文档。
- (3)变量需求文档(Excel):需要分析师和商业需求人员一起完成,商业需求人员提出影响商业目标的各种外部因素,分析师把这些因素整合在一起,并和团队成员一起从建模分析和数据库是否支持等角度汇总这些信息,最终一般以Excel文件呈现。变量需求文档一般主要包括:
- 目标变量定义
- 时间窗口定义
- 历史数据表
- 近期交易表
- 对象属性表
- 其他相关表
- 各表对应的变量名称、变量属性
- 3、选择数据源:明确需要哪些变量信息后,我们需要确定这些信息从何处获取、本身的类型是什么样的、构造的建模数据集可能占多大存储空间等。
- 4、进入建模流程:建模流程是程序开发阶段的纲要,也是项目实施过程中最核心的部门,主要包括四个阶段:
- (1)数据准备阶段
- (2)模型开发阶段
- (3)模型验证阶段
- (4)模型上线阶段
3.1 定义商业目标
定义商业目标是整个建模的关键。商业目标不是由建模师定义的,而是由提出商业需求的市场部和分析团队一起制定的。
常见的商业需求:
- 如何评价营销活动的效果?
- 如何发现高价值客户的特征?
- 如何细分现有目标市场?
- 如何定位新客户以提高营销活动的效果?
- 如何发现高风险客户?
- 如何有效预测未来可能流失的客户?
- 如何提升销售和交叉销售?
这些商业需求在经过分析人员的信息转换和翻译后,会相应地通过以下解决方法实现:
- (1)如何评价营销活动的效果:通过测试组和控制组做比较分析,并排除一些外部干扰因素,如季节因素、提前消费等。
- (2)如何发现高价值客户的特征:通过特征分析,如属性因素、行为因素、消费因素等。
- (3)如何细分现有目标市场:建立动态的市场细分规则。
- (4)如何定位新客户以提高营销活动的效果:通过