本章介绍了数据挖掘实战项目(共7个),并对各项目的项目背景、项目目标、数据说明、方案建议和实现步骤进行了详细的说明,同时详细描述了项目实施过程及过程产出物要求。
《数据分析与挖掘项目实战》
1.实战项目介绍
2.实战项目要求
本项目目的:
1.分析和识别影响地方财政收入的关键属性;
2.预测2014年和2015年的财政收入。
1994年我国对财政体制进行了重大改革,影响了财政收入相关数据的连续性。在1994年前后不具有可比性,本案例仅对1994年及其以后的数据进行分析。
本案例所用数据均来自《某市统计年鉴》(1995-2014),也查询其他城市最新统计年鉴数据。
影响因素属性说明如下
指标 | 说明 | 指标 | 说明 |
---|---|---|---|
社会从业人数(x1) | 就业人数的上升伴随着居民消费水平的提高,从而间接影响财政收入的增加。 | 地区生产总值(x8) | 表示地方经济发展水平。一般来讲,政府财政收入来源于即期的地区生产总值。在国家经济政策不变、社会秩序稳定的情况下,地方经济发展水平与地方财政收入之间存在着密切的相关性,越是经济发达的地区,其财政收入的规模就越大。 |
在岗职工工资总额(x2) | 反映的是社会分配情况,主要影响财政收入中的个人所得税、房产税以及潜在消费能力。 | 第一产业产值(x9) | 取消农业税、实施三农政策,第一产业对财政收入的影响更小。 |
社会消费品零售总额(x3) | 代表社会整体消费情况,是可支配收入在经济生活中的实现。当社会消费品零售总额增长时,表明社会消费意愿强烈,部分程度上会导致财政收入中增值税的增长;同时当消费增长时,也会引起经济系统中其他方面发生变动,最终导致财政收入的增长。 | 税收(x10) | 由于其具有征收的强制性、无偿性和固定性特点,可以为政府履行其职能提供充足的资金来源。因此,各国都将其作为政府财政收入的最重要的收入形式和来源。 |
城镇居民人均可支配收入(x4) | 居民收入越高消费能力越强,同时意味着其工作积极性越高,创造出的财富越多,从而能带来财政收入的更快和持续增长。 | 居民消费价格指数(x11) | 反映居民家庭购买的消费品及服务价格水平的变动情况,影响城乡居民的生活支出和国家的财政收入。 |
城镇居民人均消费性支出(x5) | 居民在消费商品的过程中会产生各种税费,税费又是调节生产规模的手段之一。在商品经济发达的如今,居民消费的越多,对财政收入的贡献就越大。 | 第三产业与第二产业产值比(x12) | 表示产业结构。三次产业生产总值代表国民经济水平,是财政收入的主要影响因素,当产业结构逐步优化时,财政收入也会随之增加。 |
年末总人口(x6) | 在地方经济发展水平既定的条件下,人均地方财政收入与地方人口数呈反比例变化。 | 居民消费水平(x13) | 在很大程度上受整体经济状况GDP的影响,从而间接影响地方财政收入。 |
全社会固定资产投资额(x7) | 是建造和购置固定资产的经济活动,即固定资产再生产活动。主要通过投资来促进经济增长,扩大税源,进而拉动财政税收收入整体增长。 | - |
本项目解决方案流程建议如下:
本项目解决解决步骤:
结合该航空公司已积累的大量的会员档案信息和其乘坐航班记录,实现以下目标:
1.借助航空公司客户数据,对客户进行分类。
2.对不同的客户类别进行特征分析,比较不同类客户的客户价值。
3.对不同价值的客户类别提供个性化服务,制定相应的营销策略。
从航空公司系统内的客户基本信息、乘机信息以及积分信息等详细数据中,根据末次飞行日期(LAST_FLIGHT_DATE),以2014年3月31日为结束时间。
选取宽度为两年的时间段作为分析观测窗口,抽取观测窗口2012年4月1日至2014年3月31日内有乘机记录的所有客户的详细数据形成历史数据,总共62988条记录。
航空公司数据属性如下表所示:
属性类别 | 属性名称 | 属性说明 |
---|---|---|
客户基本信息 | MEMBER_NO | 会员卡号 |
FFP_DATE | 入会时间 | |
FIRST_FLIGHT_DATE | 第一次飞行日期 | |
GENDER | 性别 | |
FFP_TIER | 会员卡级别 | |
WORK_CITY | 工作地城市 | |
WORK_PROVINCE | 工作地所在省份 | |
WORK_COUNTRY | 工作地所在国家 | |
AGE | 年龄 | |
乘机信息 | FLIGHT_COUNT | 观测窗口内的飞行次数 |
LOAD_TIME | 观测窗口的结束时间 | |
LAST_TO_END | 最后一次乘机时间至观测窗口结束时长 | |
AVG_DISCOUNT | 平均折扣率 | |
SUM_YR | 观测窗口的票价收入 | |
SEG_KM_SUM | 观测窗口的总飞行公里数 | |
LAST_FLIGHT_DATE | 末次飞行日期 | |
AVG_INTERVAL | 平均乘机时间间隔 | |
MAX_INTERVAL | 最大乘机间隔 | |
积分信息 | EXCHANGE_COUNT | 积分兑换次数 |
EP_SUM | 总精英积分 | |
PROMOPTIVE_SUM | 促销积分 | |
PARTNER_SUM | 合作伙伴积分 | |
POINTS_SUM | 总累计积分 | |
POINT_NOTFLIGHT | 非乘机的积分变动次数 | |
BP_SUM | 总基本积分 |
本项目解决方案流程建议如下:
本项目解决解决步骤:
1.抽取航空公司2012年4月1日至2014年3月31日的数据。
2.对抽取的数据进行数据探索分析与预处理,包括数据缺失值与异常值的探索分析,数据清洗,特征构建,标准化等操作。
3.基于RFM模型,使用K-Means算法进行客户分群。
4.在RFM模型基础上,引入LRFMC模型,优化客户分群模型。
5.针对模型结果得到不同价值的客户,采用不同的营销手段,提供定制化的服务。
现代商品种类繁多,顾客往往会由于需要购买的商品众多而变得疲于选择,且顾客并不会因为商品选择丰富而选择购买更多的商品。
例如,货架上有可口可乐和百事可乐,若顾客需要选购可乐若干,或许会同时购买两种可乐,但是购买可乐的数量大多数情况下不会因为品牌数量增加而增加。
繁杂的选购过程往往会给顾客疲惫的购物体验。
把牛奶与面包摆放在相邻的位置,既给顾客提供便利,提升购物体验,又提高顾客购买的概率,达到了促销的目的。
许多商场以打折方式作为主要促销手段,以更少的利润为代价获得更高的销量。
但对于原计划不打算购买且不必要的商品,打折的吸引力远远不足。而正确的商品摆放却能提醒顾客购买某些必需品,甚至吸引他们购买感兴趣的商品。
综合商品零售行业现状、提供的数据,实现以下目标:
1.构建零售商品的Apriori关联规则模型,分析商品之间的关联性。
2.根据模型结果给出销售策略。
某商品零售企业共收集了9835个购物篮的数据,购物篮数据主要包括3个属性:id、Goods和Types。属性的具体说明如表所示:
表名 | 属性名称 | 属性说明 |
---|---|---|
GoodsOrder | id | 商品订单ID |
Goods | 具体的商品名称 | |
GoodsTypes | Goods | 具体的商品名称 |
Types | 商品类别 |
本项目解决方案流程建议如下:
本项目解决解决步骤:
1.对原始数据进行数据探索性分析,分析商品的热销情况与商品结构。
2.对原始数据进行数据预处理,转换数据形式,使之符合Apriori关联规则算法要求。
3.在步骤2得到的建模数据基础上,采用Apriori关联规则算法,调整模型输入参数,完成商品关联性分析。
4.结合实际业务,对模型结果进行分析,根据分析结果给出销售建议,最后输出关联规则结果。
结合某地区的多个罗非鱼池塘水样的数据,实现以下目标:
1.对水样图片进行切割,提取水样图片中的特征。
2.基于提取的特征数据,构建水质评价模型。
3.对构建的模型进行评价,评价模型对于水色的识别效率。
水色 | 浅绿****色 **(**清水或浊水) | 灰蓝色 | 黄褐色 | 茶褐色 (姜黄、茶褐、红褐、褐中带绿等) | 绿色 **(**黄绿、油绿、蓝绿、墨绿、绿中带褐等) |
---|---|---|---|---|---|
水质类别 | 1 | 2 | 3 | 4 | 5 |
每个水质图片命名规则为“类别-编号.jpg”,如“1_1.jpg”说明图片属于第1类的样本。
本项目解决方案流程建议如下:
本项目解决解决步骤:
1.从采集到的原始水样图像中进行选择性抽取形成建模数据。
2.对步骤1形成的数据集进行数据预处理,包括图像切割和颜色矩特征提取。
3.利用步骤2形成的已完成数据预处理的建模数据,划分为训练集与测试集。
4.利用步骤3的训练集构建分类模型。
5.利用步骤4的构建好的分类模型进行水质评价。
根据该热水器生产厂商提供的数据热水器用户用水事件划分与识别项目的整体目标如下:
1.根据热水器采集到的数据,划分一次完整用水事件。
2.在划分好的一次完整用水事件中,识别出洗浴事件。
在热水器的使用过程中,热水器的状态会经常发生改变,比如开机和关机、由加热转到保温、由无水流到有水流、水温由50℃变为49℃等。而智能热水器在状态发生改变或者水流量非零时,每两秒会采集一条状态数据。由于数据的采集频率较高,并且数据来自大量用户,数据总量非常大。
对原始数据采用无放回随机抽样法抽取200家热水器用户从2014年1月1日至2014年12月31日的用水记录作为原始建模数据。
由于用户不仅使用热水器来洗浴,而且包括了洗手、洗脸、刷牙、洗菜、做饭等用水行为,所以热水器采集到的数据来自各种不同的用水事件。
热水器采集的用水数据包含12个属性:热水器编码,发生时间,开关机状态,加热中,保温中,有无水流,实际温度,热水量,水流量,节能模式,加热剩余时间和当前设置温度。其解释说明下表所示:
属性名称 | 说明 |
---|---|
热水器编码 | 热水器出厂编号 |
发生时间 | 记录热水器处于某状态的时刻 |
开关机状态 | 热水器是否开机 |
加热中 | 热水器处于对水进行加热的状态 |
保温中 | 热水器处于对水进行保温的状态 |
有无水流 | 热水水流量大于等于10L/min为有水,否则为无 |
实际温度 | 热水器中热水的实际温度 |
热水量 | 热水器热水的含量 |
水流量 | 热水器热水的水流速度,单位:L/min |
节能模式 | 热水器的一种节能工作模式 |
加热剩余时间 | 加热到设定温度还需多长时间 |
当前设置温度 | 热水器加热时热水能够到达的最大温度 |
本项目解决方案流程建议如下:
正在上传…重新上传取消
本项目解决解决步骤:
1.对热水用户的历史用水数据进行选择性抽取,构建专家样本。
2.对步骤(1)形成的数据集进行数据探索分析与预处理。根据数据分析与预处理结果,对用水样本数据建立用水事件时间间隔识别模型和划分一次完整的用水事件模型,再在一次完整用水事件划分结果的基础上,剔除短暂用水事件缩小识别范围等。
3.在步骤(2)得到的建模样本数据基础上,建立洗浴事件识别模型,对洗浴事件识别模型进行模型分析评价。
4.对步骤(3)形成的模型结果应用并对洗浴事件划分进行优化。
5.调用洗浴事件识别模型,对实时监控的热水器流水数据进行洗浴事件自动识别。
为了解决上述问题,结合本案例提供的原始数据情况,可以分析如下目标:
1.按地域分析用户访问网站的时间、访问内容、访问次数等主题,了解用户的浏览行为,和感兴趣的网页内容。
2.根据用户的访问记录对用户进行个性化推荐服务。
本项目解决方案流程建议如下:
本项目解决解决步骤:
1.从系统中获取用户访问网站的原始记录。
2.分析用户访问内容,用户流失及用户分类等。
3.对数据进行预处理,包含数据去重,数据变换,数据分类等过程。
4.以用户访问html后缀的网页为关键条件,对数据进行处理。
5.对比多种推荐算法的效果,选择效果较好的模型。通过模型预测,获得推荐结果。
根据提供的数据实现以下目标。
1.对京东商城中美的电热水器的评论进行情感分析。
2.从评论文本中挖掘出用户的需求、意见,购买原因以及产品的优缺点。
3.根据模型结果给出改善产品的建议。
利用Python网络爬虫技术对京东商城中美的热水器评论数据进行采集,共采集到评论2112条记录。评论信息如下表:
属性名称 | 属性说明 |
---|---|
content | 评论描述文字 |
creationTime | 评论时间 |
nickname | 评论用户名称 |
referenceName | 产品名称 |
content_type | 评论情感倾向 |
本项目解决方案流程建议如下:
本项目解决解决步骤:
1.利用Python对京东商城中美的电热水器的评论进行爬取。
2.利用Python爬取到的京东商城中美的电热水器的评论数据,对评论文本数据进行数据清洗、分词、停用词过滤等操作。
3.对预处理后的数据进行情感分析,将评论文本数据按照情感倾向分为正面评论数据(好评)和负面评论数据(差评)。
4.分别对正、负面评价数据进行LDA主题分析,从对应的结果分析文本评论数据中有价值的内容。
数据分析与挖掘项目一般依据CRISP-DM展开,各阶段输出符合项目要求的项目文档,如:用户需求调研报告、需求说明文档、详细设计文档(含项目计划)、数据分析报告等。
项目实施过程阶段
开始实验