• 第06章 数据挖掘综合应用


    序言

    1.内容介绍

    ​ 本章介绍了数据挖掘实战项目(共7个),并对各项目的项目背景、项目目标、数据说明、方案建议和实现步骤进行了详细的说明,同时详细描述了项目实施过程及过程产出物要求。

    2.理论目标

    • 了解数据挖掘项目商业实施过程各环节工作内容,能运用数据挖掘过程要求解决实际项目问题。

    3.实践目标

    • 能够掌握数据挖掘过程实施与相关文档撰写的要求,具有和团队成员完成指定企业级数据挖掘项目的经验。

    4.实践案例

    《数据分析与挖掘项目实战》

    5.内容目录

    • 1.实战项目介绍

    • 2.实战项目要求

    第1节 实战项目介绍

    1.1.财政收入影响因素分析

    1.1.1.项目背景

    • 某市作为改革开放的前沿城市,其经济发展在全国经济中的地位举足轻重。目前,该市在财政收入规模、结构等方面与北京、上海、深圳等城市有一定差距,存在不断完善的空间。
    • 本项目旨在通过研究,发现影响该市目前以及未来地方财源建设的因素,并对其进行深入分析,提出对该市地方财源优化的具体建议,供政府决策参考,同时为其他经济发展较快的城市提供借鉴。

    1.1.2.项目目标

    本项目目的:

    1.分析和识别影响地方财政收入的关键属性;

    2.预测2014年和2015年的财政收入。

    1.1.3.数据说明

    1994年我国对财政体制进行了重大改革,影响了财政收入相关数据的连续性。在1994年前后不具有可比性,本案例仅对1994年及其以后的数据进行分析。

    本案例所用数据均来自《某市统计年鉴》(1995-2014),也查询其他城市最新统计年鉴数据。

    影响因素属性说明如下

    指标说明指标说明
    社会从业人数(x1)就业人数的上升伴随着居民消费水平的提高,从而间接影响财政收入的增加。地区生产总值(x8)表示地方经济发展水平。一般来讲,政府财政收入来源于即期的地区生产总值。在国家经济政策不变、社会秩序稳定的情况下,地方经济发展水平与地方财政收入之间存在着密切的相关性,越是经济发达的地区,其财政收入的规模就越大。
    在岗职工工资总额(x2)反映的是社会分配情况,主要影响财政收入中的个人所得税、房产税以及潜在消费能力。第一产业产值(x9)取消农业税、实施三农政策,第一产业对财政收入的影响更小。
    社会消费品零售总额(x3)代表社会整体消费情况,是可支配收入在经济生活中的实现。当社会消费品零售总额增长时,表明社会消费意愿强烈,部分程度上会导致财政收入中增值税的增长;同时当消费增长时,也会引起经济系统中其他方面发生变动,最终导致财政收入的增长。税收(x10)由于其具有征收的强制性、无偿性和固定性特点,可以为政府履行其职能提供充足的资金来源。因此,各国都将其作为政府财政收入的最重要的收入形式和来源。
    城镇居民人均可支配收入(x4)居民收入越高消费能力越强,同时意味着其工作积极性越高,创造出的财富越多,从而能带来财政收入的更快和持续增长。居民消费价格指数(x11)反映居民家庭购买的消费品及服务价格水平的变动情况,影响城乡居民的生活支出和国家的财政收入。
    城镇居民人均消费性支出(x5)居民在消费商品的过程中会产生各种税费,税费又是调节生产规模的手段之一。在商品经济发达的如今,居民消费的越多,对财政收入的贡献就越大。第三产业与第二产业产值比(x12)表示产业结构。三次产业生产总值代表国民经济水平,是财政收入的主要影响因素,当产业结构逐步优化时,财政收入也会随之增加。
    年末总人口(x6)在地方经济发展水平既定的条件下,人均地方财政收入与地方人口数呈反比例变化。居民消费水平(x13)在很大程度上受整体经济状况GDP的影响,从而间接影响地方财政收入。
    全社会固定资产投资额(x7)是建造和购置固定资产的经济活动,即固定资产再生产活动。主要通过投资来促进经济增长,扩大税源,进而拉动财政税收收入整体增长。-

    1.1.4.方案建议

    本项目解决方案流程建议如下:

    1.1.5.步骤说明

    本项目解决解决步骤:

    1. 对原始数据进行探索性分析,了解原始属性之间的相关性。
    2. 利用Lasso特征选择模型进提取关键属性。
    3. 建立单个属性的灰色预测模型以及支持向量回归预测模型。
    4. 使用支持向量回归预测模型得出2014-2015年财政收入的预测值。
    5. 对上述建立的财政收入预测模型进行评价。

    1.2.航空公司客户价值分析

    1.2.1.项目背景

    • 准确的客户分类结果是企业优化营销资源分配的重要依据,客户分类越来越成为客户关系管理中亟待解决的关键问题之一。
    • 面对激烈的市场竞争,各个航空公司都推出了更优惠的营销方式来吸引更多的客户,国内某航空公司面临着常旅客流失、竞争力下降和航空资源未充分利用等经营危机。通过建立合理的客户价值评估模型,对客户进行分群,分析比较不同客户群的客户价值,并制定相应的营销策略,对不同的客户群提供个性化的客户服务是必须的和有效的。

    1.2.2.项目目标

    结合该航空公司已积累的大量的会员档案信息和其乘坐航班记录,实现以下目标:

    1.借助航空公司客户数据,对客户进行分类。

    2.对不同的客户类别进行特征分析,比较不同类客户的客户价值。

    3.对不同价值的客户类别提供个性化服务,制定相应的营销策略。

    1.2.3.数据说明

    • 从航空公司系统内的客户基本信息、乘机信息以及积分信息等详细数据中,根据末次飞行日期(LAST_FLIGHT_DATE),以2014年3月31日为结束时间。

    • 选取宽度为两年的时间段作为分析观测窗口,抽取观测窗口2012年4月1日至2014年3月31日内有乘机记录的所有客户的详细数据形成历史数据,总共62988条记录。

    • 航空公司数据属性如下表所示:

      属性类别属性名称属性说明
      客户基本信息MEMBER_NO会员卡号
      FFP_DATE入会时间
      FIRST_FLIGHT_DATE第一次飞行日期
      GENDER性别
      FFP_TIER会员卡级别
      WORK_CITY工作地城市
      WORK_PROVINCE工作地所在省份
      WORK_COUNTRY工作地所在国家
      AGE年龄
      乘机信息FLIGHT_COUNT观测窗口内的飞行次数
      LOAD_TIME观测窗口的结束时间
      LAST_TO_END最后一次乘机时间至观测窗口结束时长
      AVG_DISCOUNT平均折扣率
      SUM_YR观测窗口的票价收入
      SEG_KM_SUM观测窗口的总飞行公里数
      LAST_FLIGHT_DATE末次飞行日期
      AVG_INTERVAL平均乘机时间间隔
      MAX_INTERVAL最大乘机间隔
      积分信息EXCHANGE_COUNT积分兑换次数
      EP_SUM总精英积分
      PROMOPTIVE_SUM促销积分
      PARTNER_SUM合作伙伴积分
      POINTS_SUM总累计积分
      POINT_NOTFLIGHT非乘机的积分变动次数
      BP_SUM总基本积分

    1.2.4.方案建议

    本项目解决方案流程建议如下:

    1.2.5.步骤说明

    本项目解决解决步骤:

    1.抽取航空公司2012年4月1日至2014年3月31日的数据。

    2.对抽取的数据进行数据探索分析与预处理,包括数据缺失值与异常值的探索分析,数据清洗,特征构建,标准化等操作。

    3.基于RFM模型,使用K-Means算法进行客户分群。

    4.在RFM模型基础上,引入LRFMC模型,优化客户分群模型。

    5.针对模型结果得到不同价值的客户,采用不同的营销手段,提供定制化的服务。

    1.3.商品零售购物篮分析

    1.3.1.项目背景

    • 现代商品种类繁多,顾客往往会由于需要购买的商品众多而变得疲于选择,且顾客并不会因为商品选择丰富而选择购买更多的商品。

      例如,货架上有可口可乐和百事可乐,若顾客需要选购可乐若干,或许会同时购买两种可乐,但是购买可乐的数量大多数情况下不会因为品牌数量增加而增加。

    • 繁杂的选购过程往往会给顾客疲惫的购物体验。

      把牛奶与面包摆放在相邻的位置,既给顾客提供便利,提升购物体验,又提高顾客购买的概率,达到了促销的目的。

    • 许多商场以打折方式作为主要促销手段,以更少的利润为代价获得更高的销量。

      但对于原计划不打算购买且不必要的商品,打折的吸引力远远不足。而正确的商品摆放却能提醒顾客购买某些必需品,甚至吸引他们购买感兴趣的商品。

    1.3.2.项目目标

    综合商品零售行业现状、提供的数据,实现以下目标:

    1.构建零售商品的Apriori关联规则模型,分析商品之间的关联性。

    2.根据模型结果给出销售策略。

    1.3.3.数据说明

    • 某商品零售企业共收集了9835个购物篮的数据,购物篮数据主要包括3个属性:id、Goods和Types。属性的具体说明如表所示:

      表名属性名称属性说明
      GoodsOrderid商品订单ID
      Goods具体的商品名称
      GoodsTypesGoods具体的商品名称
      Types商品类别

    1.3.4.方案建议

    本项目解决方案流程建议如下:

    1.3.5.步骤说明

    本项目解决解决步骤:

    1.对原始数据进行数据探索性分析,分析商品的热销情况与商品结构。

    2.对原始数据进行数据预处理,转换数据形式,使之符合Apriori关联规则算法要求。

    3.在步骤2得到的建模数据基础上,采用Apriori关联规则算法,调整模型输入参数,完成商品关联性分析。

    4.结合实际业务,对模型结果进行分析,根据分析结果给出销售建议,最后输出关联规则结果。

    1.4.基于水色图像的水质评价

    1.2.1.项目背景

    • 从事渔业生产有经验的从业者可通过观察水色变化调控水质,以维持养殖水体生态系统中浮游植物、微生物类、浮游动物等合理的动态平衡。
    • 由于这些多是通过经验和肉眼观察进行判断,存在主观性引起的观察性偏倚,使观察结果的可比性、可重复性降低,不易推广应用。
    • 当前,数字图像处理技术为计算机监控技术在水产养殖业的应用提供更大的空间。在水质在线监测方面,数字图像处理技术是基于计算机视觉,以专家经验为基础,对池塘水色进行优劣分级,达到对池塘水色的准确快速判别。。

    1.2.2.项目目标

    结合某地区的多个罗非鱼池塘水样的数据,实现以下目标:

    1.对水样图片进行切割,提取水样图片中的特征。

    2.基于提取的特征数据,构建水质评价模型。

    3.对构建的模型进行评价,评价模型对于水色的识别效率。

    1.2.3.数据说明

    • 附件在“demo/data/images/”目录下给出了某地区的多个罗非鱼池塘水样的数据。
    • 水产专家按水色判断水质分类::
    水色浅绿****色 **(**清水或浊水)灰蓝色黄褐色茶褐色 (姜黄、茶褐、红褐、褐中带绿等)绿色 **(**黄绿、油绿、蓝绿、墨绿、绿中带褐等)
    水质类别12345

    每个水质图片命名规则为“类别-编号.jpg”,如“1_1.jpg”说明图片属于第1类的样本。

    1.2.4.方案建议

    本项目解决方案流程建议如下:

    1.2.5.步骤说明

    本项目解决解决步骤:

    1.从采集到的原始水样图像中进行选择性抽取形成建模数据。

    2.对步骤1形成的数据集进行数据预处理,包括图像切割和颜色矩特征提取。

    3.利用步骤2形成的已完成数据预处理的建模数据,划分为训练集与测试集。

    4.利用步骤3的训练集构建分类模型。

    5.利用步骤4的构建好的分类模型进行水质评价。

    1.5.家用热水器用户事件识别

    1.2.1.项目背景

    • 随着国内大家电品牌的进入和国外品牌的涌入,电热水器相关技术在过去20年间得到了快速发展,屡屡创新。如今高效能技术颠覆了业内对电热水器“高能耗”的认知。
    • 热水器厂商要想在该行业立足,需要通过的开发出新产品不断满足客户的新需求。走产品差异化的路线,提升技术实力和产品质量,在功能卖点、外观等方面做出自身特色。
    • 要想了解客户的真实需求,需要分析热水器用户行为习惯,其中用水事件识别是最为关键的环节。

    1.2.2.项目目标

    根据该热水器生产厂商提供的数据热水器用户用水事件划分与识别项目的整体目标如下:

    1.根据热水器采集到的数据,划分一次完整用水事件。

    2.在划分好的一次完整用水事件中,识别出洗浴事件。

    1.2.3.数据说明

    • 在热水器的使用过程中,热水器的状态会经常发生改变,比如开机和关机、由加热转到保温、由无水流到有水流、水温由50℃变为49℃等。而智能热水器在状态发生改变或者水流量非零时,每两秒会采集一条状态数据。由于数据的采集频率较高,并且数据来自大量用户,数据总量非常大。

    • 对原始数据采用无放回随机抽样法抽取200家热水器用户从2014年1月1日至2014年12月31日的用水记录作为原始建模数据。

    • 由于用户不仅使用热水器来洗浴,而且包括了洗手、洗脸、刷牙、洗菜、做饭等用水行为,所以热水器采集到的数据来自各种不同的用水事件。

    • 热水器采集的用水数据包含12个属性:热水器编码,发生时间,开关机状态,加热中,保温中,有无水流,实际温度,热水量,水流量,节能模式,加热剩余时间和当前设置温度。其解释说明下表所示:

      属性名称说明
      热水器编码热水器出厂编号
      发生时间记录热水器处于某状态的时刻
      开关机状态热水器是否开机
      加热中热水器处于对水进行加热的状态
      保温中热水器处于对水进行保温的状态
      有无水流热水水流量大于等于10L/min为有水,否则为无
      实际温度热水器中热水的实际温度
      热水量热水器热水的含量
      水流量热水器热水的水流速度,单位:L/min
      节能模式热水器的一种节能工作模式
      加热剩余时间加热到设定温度还需多长时间
      当前设置温度热水器加热时热水能够到达的最大温度

    1.2.4.方案建议

    本项目解决方案流程建议如下:

    正在上传…重新上传取消

    1.2.5.步骤说明

    本项目解决解决步骤:

    1.对热水用户的历史用水数据进行选择性抽取,构建专家样本。

    2.对步骤(1)形成的数据集进行数据探索分析与预处理。根据数据分析与预处理结果,对用水样本数据建立用水事件时间间隔识别模型和划分一次完整的用水事件模型,再在一次完整用水事件划分结果的基础上,剔除短暂用水事件缩小识别范围等。

    3.在步骤(2)得到的建模样本数据基础上,建立洗浴事件识别模型,对洗浴事件识别模型进行模型分析评价。

    4.对步骤(3)形成的模型结果应用并对洗浴事件划分进行优化。

    5.调用洗浴事件识别模型,对实时监控的热水器流水数据进行洗浴事件自动识别。

    1.6.电子商务网站用户服务推荐

    1.2.1.项目背景

    • 某法律网站是北京一家电子商务类的大型法律资讯网站,致力于为用户提供丰富的法律信息与专业咨询服务,本案例主要是为律师与律师事务所提供互联网整合营销解决方案。
    • 随着企业经营水平的提高,其网站访问量逐步增加,随之而来的数据信息量也在大幅增长。带来的问题是用户在面对大量信息时无法快速获取需要的信息,使得信息使用效率降低。用户在浏览搜寻想要的信息过程中,需要花费大量的时间,这种情况的出现造成了用户的不断流失,对企业造成巨大的损失。
    • 为了节省用户时间并帮助用户快速找到感兴趣的信息,利用网站海量的用户访问数据,研究用户的兴趣偏好,分析用户的需求和行为,引导用户发现需求信息,将长尾网页准确的推荐给所需用户,帮助用户发现他们感兴趣但很难发现的网页信息。

    1.2.2.项目目标

    为了解决上述问题,结合本案例提供的原始数据情况,可以分析如下目标:

    1.按地域分析用户访问网站的时间、访问内容、访问次数等主题,了解用户的浏览行为,和感兴趣的网页内容。

    2.根据用户的访问记录对用户进行个性化推荐服务。

    1.2.3.数据说明

    • 以用户的访问时间为条件,选取三个月内(2015-02-01~2015-04-29)用户的访问数据作为原始数据集。由于每个地区的用户访问习惯以及兴趣爱好存在差异性,因此,抽取广州地区的用户访问数据进行分析,其数据量总共有837450条记录,其中包括用户号、访问时间、来源网站、访问页面、页面标题、来源网页、标签、网页类别、关键词等。
    • 原始数据集中包括用户号、访问时间、来源网站、访问页面、页面标题、来源网页、标签、网页类别和关键词等信息。
    • 数据以SQL文件存储,执行SQL语句后即可导入MySQL数据库。

    1.2.4.方案建议

    本项目解决方案流程建议如下:

    1.2.5.步骤说明

    本项目解决解决步骤:

    1.从系统中获取用户访问网站的原始记录。

    2.分析用户访问内容,用户流失及用户分类等。

    3.对数据进行预处理,包含数据去重,数据变换,数据分类等过程。

    4.以用户访问html后缀的网页为关键条件,对数据进行处理。

    5.对比多种推荐算法的效果,选择效果较好的模型。通过模型预测,获得推荐结果。

    1.7.电商产品评论数据情感分析

    1.2.1.项目背景

    • 随着电子商务的迅速发展和网络购物的流行,人们对于网络购物的需求变得越来越高,也给电商企业带来巨大的发展机遇,与此同时,这种需求也推动了更多电商企业的崛起,引发了激烈的竞争。而在这种激烈竞争的大背景下,除了提高商品质量、压低价格外,了解更多消费者的心声对电商企业来说也变得越来越有必要。其中非常重要的方式就是对消费者的评论文本数据进行内在信息的分析。
    • 评论信息中蕴含着消费者对特定产品和服务的主观感受,反应了人们的态度、立场和意见,具有非常宝贵的研宄价值。一方面,对企业来说,企业需要根据海量的评论文本数据去更好的了解用户的个人喜好,从而提高产品质量,改善服务,获取市场上的竞争优势。另一方面,消费者需要在没有看到真正的产品实体、做出购买决策之前,根据其他购物者的评论了解产品的质量、性价比等信息,为购物抉择提供参考依据。

    1.2.2.项目目标

    根据提供的数据实现以下目标。

    1.对京东商城中美的电热水器的评论进行情感分析。

    2.从评论文本中挖掘出用户的需求、意见,购买原因以及产品的优缺点。

    3.根据模型结果给出改善产品的建议。

    1.2.3.数据说明

    • 利用Python网络爬虫技术对京东商城中美的热水器评论数据进行采集,共采集到评论2112条记录。评论信息如下表:

      属性名称属性说明
      content评论描述文字
      creationTime评论时间
      nickname评论用户名称
      referenceName产品名称
      content_type评论情感倾向

    1.2.4.方案建议

    本项目解决方案流程建议如下:

    1.2.5.步骤说明

    本项目解决解决步骤:

    1.利用Python对京东商城中美的电热水器的评论进行爬取。

    2.利用Python爬取到的京东商城中美的电热水器的评论数据,对评论文本数据进行数据清洗、分词、停用词过滤等操作。

    3.对预处理后的数据进行情感分析,将评论文本数据按照情感倾向分为正面评论数据(好评)和负面评论数据(差评)。

    4.分别对正、负面评价数据进行LDA主题分析,从对应的结果分析文本评论数据中有价值的内容。

    第2节 实战项目要求

    2.1.项目流程要求

    数据分析与挖掘项目一般依据CRISP-DM展开,各阶段输出符合项目要求的项目文档,如:用户需求调研报告、需求说明文档、详细设计文档(含项目计划)、数据分析报告等。

    项目实施过程阶段

    2.2.项目结果要求

    2.2.1.《需求说明文档》

    • 需求说明文档是指在研究用户需求的基础上,完成可行性分析和投资效益分析以后,由项目工程师或数据分析师编写的说明书。它详细定义了信息流和界面,功能需求,设计要求和限制,测试准则和质量保证要求。
    • 作用是作为用户和项目工程师或数据分析师达成的技术协议书,作为着手进行设计工作的基础和依据,作为项目完成后的验收依据。《需求说明文档》基本元素包括:
      1. 背景目的
      2. 业务理解
      3. 业务口径
      4. 数据理解
      5. 工作计划
      6. 约束条件

    2.2.2.《详细设计文档》

    • 详细设计文档是指在需求说明文档的基础上,从项目技术可行性角度,详细定义了分析项目的工作内容及输出结果,如:数据结构、统计口径、数据处理、算法设计和环境依赖等。
    • 详细设计实际上是对项目实施的一次逻辑构建,可以有效验证需求的完整性及正确性,是项目实施过程的指导文档。《详细设计文档》基本元素包括:
      1. 分析大纲
      2. 数据来源
      3. 获取方式
      4. 数据口径
      5. 数据处理
      6. 数据建模
      7. 工具环境

    2.2.3.《数据分析报告》

    • 详细设计文档是指在项目实施过程或项目完毕后,将实施过程挖掘到的有价值信息以图文形式形成可视化报告,呈现给相关管理部门,作为决策支撑。
    • 数据分析报告作为项目最终结果呈现的主要载体,主要目的在于将分析结果、可行性建议以及其他价值的信息传递给管理人员。《数据分析报告》基本元素包括:
      1. 前言(背景、目的、术语和编码、数据说明)
      2. 报告概述
      3. 报告主体

    开始实验

  • 相关阅读:
    protable列表实现搜索框
    【Linux】指令详解(一)
    Mysql高级篇学习总结14:子查询优化、排序优化、GROUP BY优化、分页查询优化
    Jtti:怎么备份github上的数据?
    vue中的响应式数据vs非响应式数据(添加新商品时,添加的数量,与购物车中的保持一致同步更新)
    一键解锁,2022阿里顶会创新技术前沿进展
    海龟交易法则我认为该怎么用
    【KAWAKO】从mac上定时将腾讯云的数据备份到本地
    正点原子[第二期]Linux之ARM(MX6U)裸机篇学习笔记-1.3
    推荐20套适合python下django框架的毕业设计毕设课题
  • 原文地址:https://blog.csdn.net/a1234556667/article/details/126447058