小飞象·交流会
旅途会很长,但只要你坚定地前行、耐心地等待,耐得住这茫茫路远,到达你所期盼的目的地是迟早的事!
内部交流│16期
如何在业务数据分析过程中
应用“机器学习”技术
data analysis
●●●●
分享人:黄佳
一切技术的出现都是为了解决现实问题,而现实问题分为简单问题和复杂问题。简单问题,需要简单分析,我们使用「数据分析」。复杂问题,需要复杂分析,我们使用「机器学习」。我们只有学会了「数据分析」处理数据的方法,才能看懂「机器学习」相关知识。可以简单的理解机器学习就是在一堆杂乱无章的数据中,找到其背后的规律,因此,从这个角度来看,数据分析又是机器学习最重要的应用场景之一。
那么,本期邀请了前埃森哲资深顾问,现任新加坡科研局高级人工智能研究员,终身学习者黄佳,笔名咖哥。已经在IT界耕耘20余载,曾撰写《SAP销售与分销》《零基础学机器学习》和《数据分析咖哥十话:从思维到实践促进运营增长》等书!
(佳哥个人公众号)
数据分析学习,在于将别人的知识转化成自己的知识,食之化尽,举一反三。那么,如何在业务数据分析过程中应用“机器学习”技术呢?
今天将会从以下四个⽅⾯来深⼊探讨《如何在业务数据分析过程中应用“机器学习”技术》。
1、数据分析的核心技能(数据分析技能学习路线图)
2、机器学习的基础知识
3、AAARR业务模型
4、AAARR应用实战
为了更好的后面做好小飞象内部交流会,需要您帮忙做两件事情:第一,您想想这次为什么想参加这一期的交流会,以及希望在交流会中希望收获到什么?第二,在交流会结束后,请和我说一下您的收获和感受。(可以在公众号留言交流,小飞象内部交流会往期回顾)
做一个对世界充满好奇的人!在分享之前,我们可以先思考几个问题:
★什么是机器学习?
★数据分析与机器学习的关系?
★你了解过机器学习在数据工作中的实际场景么?
......
这次分享将为大家的思维打开一扇窗,扩展在业务数据分析过程中应用“机器学习”技术。在分享的过程中,建议全程认真听,带着思考来听(去看),希望通过本次分享,来给大家做一次系统的数据分析可视化分享,来解答大家对于可视化的疑点,并给做数据分析的人员提供一些思路,有任何问题都可以随时交流哦!
正式分享
—▼—
▼
数据分析用于将原始数据转化为可行的见解。它包括一系列工具、技术和过程,用于通过使用数据来发现趋势并解决问题。数据分析可以塑造业务流程,改善决策,并促进业务增长。
数据来自于业务,并反哺业务,不断循环迭代,实现数据可视、可用、可运营。
数据分析可帮助公司更清晰和更深入地了解流程和服务。它为公司提供了有关客户体验和客户问题的详细见解。通过将模式从数据转变为将见解与行动联系起来,公司可以创建个性化的客户体验,构建相关的数字产品,优化运营并提高员工生产力。
数据分析师的成长之旅并不简单,从新手到高阶数据分析师需要掌握诸多的基础、实战和进阶技能。
其中,Excel、统计学和数学基础、Python/R 语言、SQL、Tableau、Power BI 等是工 具;此外也需要了解业务分析模型和具体业务场景;而增长黑客理论、精益数据分析模型是理论或思维方法。工具、业务场景和思维方法要整合起来,形成体系才有价值。
背景不同的数据分析师掌握各个技能的顺序也会有所不同,技术型数据分析师可能有比较好的程序设计功底,在进阶之路上就要多了解业务知识;而业务型数据分析师可能对企业的运营流程比较熟悉,那么他们需要重点学习的就是 Python 或者其他编程知识。
数据分析的工具和方法很多,并不是越难就越好,要在深入理解业务场景的前提下灵活选择。
—▼—
▼
机器学习,到底有何不同?主要原因在于它是突破了传统的编程范式。机器学习建立在对数据的自动推理的基础之上,而非人工建立规则。
定位: 机器学习属于人工智能的一个分支,也是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。
学科: 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。
研究范围: 机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。
人工智能和机器学习火爆发展的推动因素主要有三点:
·大数据时代的来临
·硬件算力的提升和GPU的出现
·深度学习的异军突起
机器学习,是利用计算机的运算能力从大量的数据中发现一个“函数”或“模型”,并通过它来模拟现实世界事物间的关系,从而实现预测或判断的功能。
机器学习大约等于是在数据中寻找到一个函数,来解决各种各样的问题。
根据训练期间接受的监督数量和监督类型,可以将机器学习分为以下四种类型:监督学习、非监督学习、半监督学习和强化学习。
·在监督学习中,提供给算法的包含所需解决方案的训练数据,成为标签或标记。
·无监督学习的训练数据都是未经标记的,算法会在没有指导的情况下自动学习。
·有些算法可以处理部分标记的训练数据,通常是大量未标记的数据和少量标记的数据,这种成为半监督学习。
·强化学习是一个非常与众不同的算法,它的学习系统能够观测环境,做出选择,执行操作并获得回报,或者是以负面回报的形式获得惩罚。它必须自行学习什么是最好的策略,从而随着时间推移获得最大的回报。
监督学习和无监督学习的主要区别在于数据集中的数据是否有标签。
监督学习是包含自变量和因变量(有Y),同时可以用于分类和回归。下来常见的算法都是监督学习算法。
·K近邻算法
·线性回归
·logistic回归
·支持向量机(SVM)
·决策树和随机森林
·神经网络
简单地说,就是训练数据只有自变量没有因变量(就是没有Y)。
无监督学习的常见算法如下:
·聚类算法
oK均值算法(K-means)
o基于密度的聚类方法(DBSCAN)
o最大期望算法
·降维
o主成分分析
o核主成分分析
·关联规则学习
oApriori
oEclat
深度学习的主要优势在于,能够自动完成非结构化数据的特征提取。
机器学习的项目流程大概如何呢?简单来说共5步。
以线性回归为例,展示机器学习算法如何通过梯度下降拟合函数。
—▼—
▼
下面,我们来介绍在数据运营中常见的AARRR业务模型。
AARRR是Acquisition、Activation、Retention、Revenue、Referral,五个单词的缩写,分别对应用户生命周期中的5个。
AARRR分别代表了五个单词,又分别对应了产品生命周期中的五个阶段:
·获取(Acquisition):用户如何发现(并来到)你的产品?
·激活(Activation):用户的第一次使用体验如何?
·留存(Retention):用户是否还会回到产品(重复使用)?
·收入(Revenue):产品怎样(通过用户)赚钱?
·传播(Refer):用户是否愿意告诉其他用户?
AARRR模型指出了两个核心点:
·以用户为中心,以完整的用户生命周期为线索。
·把控产品整体的成本/收入关系,用户生命周期价值(LTV)远大于用户获取成本(CAC)与用户经营成本(COC)之和,就意味着产品的成功。
在AARRR模型中,有非常多的环节可以应用数据分析和机器学习技术。下面是我在《数据分析咖哥十话》一书中实现的一些具体应用示例。
—▼—
▼
下面就用几个例子,为大家具体讲解如何把“机器学习算法”和“商业数据分析项目”捏合在一起。
例子1:用聚类算法给用户画像
先讲讲如何用一种无监督的机器学习算法给你的用户做用户画像。
用户画像(user profiling)简单来说是在数据分析和运营过程中,对用户的特征或者属性进行数据化的描述。在推广获客之前,先要做用户画像,了解用户。
了解用户的方式是搜集现有用户的资料,记录用户的每一次消费行为。用户数据的搜集有多 个维度,常见的维度包括静态属性(人口统计特征)、动态属性(消费行为特征)、心理属性等。
而机器学习中的聚类算法,则特别适合把相似的数据给组织到一块去,因此也就特别适合用它来给用户分组、分群、分类。
用通俗的语言解释,聚类就是让机器把数据集中的样本按照特征分组,这个过程中没有标签存在,因此,它是一种无监督学习算法。而这种无监督学习算法,能在无人指导的情况下,根据数据(如 R 值、M 值、F 值)把用户分成几组。—— 这就是大名鼎鼎的RMF分析。
R、F、M 的定义如下。
·最近一次消费(R,Recency):也叫新近度,代表自用户上次消费以来的天数;最近一次消费是非常有力的数据分析和预测指标。
·消费频率(F,Frequency):代表用户是否频繁使用服务,这也是用户黏性的风向标。
·消费金额(M,Monetary Value):用户在一段时间内消费的总金额,这个指标的重 要性不言而喻。
将 R、F、M 组合在一起,就可以勾画出一个用户的整体轮廓。
那么具体如何做呢?
第一步当然是收集与用户消费频率和消费金额相关的数据,并进行整理。
第二步,就是把整理好的数据对R、F和M分别做聚类。
第三步,是根据聚类结果给出每一个用户的R、F和M层级的分值。
第四步,也就是最后一步,就是把R、F和M分值相加,就得到了每一个用户的价值分组了。
上面给出的只是核心步骤,如果你要知道全部的细节详情,可以参考《数据分析咖哥十话》。
例子2:用回归算法预测客户的生命周期价值
上面的聚类是一种无监督学习算法。也就是说,我们不需要给数据打任何标签,机器学习算法会直接根据数据给我们做聚类。而机器学习中,更常见的算法则是监督学习算法,意思是在已经有了标签的数据中拟合出一个函数,来预测未知的,没有标签的数据。
什么意思?举例来说更简单。
假如我运营一个视频号,10000个粉丝,那么我就知道这10000个粉丝的性别,年龄,爱好等等数据。这些就是他们的特征。那么我当然还知道他们给我多少打赏的金额。这个打赏的金额——就是标签。现在,来了一个新粉丝,尚且还不知道他未来会给我打赏多少,但是,他的性别,年龄,爱好等等数据,也已经知道了。这样,我就能够应用机器学习中的监督学习算法来预测她未来可能给我打赏的金额!
这就是用机器学习算法来预测客户的生命周期价值(LTV,Life-Time Value)的基本原理!
而线性回归(linear regression),它通过线性函数对变量间的定量关系进行统计分析,如广告投入金额与新注册用户数就可能呈现线性关系。
而对于客户生命周期价值来说,客户的R值,F值,M值越高,那么该客户的LTV,也就是生命周期价值也就会越高,这两者之间,也会呈现出明显的线性关系。此时,R值,F值,M值就是监督式机器学习的特征,而客户的LTV就是标签。
具体的项目实现步骤:
第一步,仍然是收集商业数据。
第二步,是根据业务数据,整理出每一个用户的R值,F值,M值,以及LTV值。
第三步,是选定线性回归算法,确定机器学习模型。
第四步,是拟合机器学习模型,让他能够模拟从特征(R值,F值,M值)到标签(LTV值)的关系。
第五步,也就是最后一步,就是用拟合好了的模型来预测LTV值了!
例子3:用分类算法来判断客户是否会流失
分类算法,也属于监督学习算法。在商业数据分析项目中,分类算法有大量的应用。比如说:银行的信用风险评估部门会预测一个客户是否会存在欺诈行为,这就是分类(把客户分成“正常”和“欺诈风险”两个类)。
类似的,也可以通过监督学习算法来预测客户是否会流失,而高流失风险的客户就要进行重点的客户关系管理。
要做一个判断客户是否会流失的项目,具体步骤如何呢?
第一步,还是首先收集数据。其中,前面用户的各种属性,是特征,而最后一个字段,“已停付会费”则正是我们要预测的标签。
第二步,可以通过留存曲线来显示各个用户特征对于留存的影响。
第三步,就是建立分类模型,这里我们选择逻辑回归模型,并根据数据拟合模型。
最后一步,用拟合好的模型来预测用户是否会流失。
更多详情,当然可以参考《数据分析咖哥十话》。
总结
以上就是本次分享的全部内容!在整个数据分析过程中,对机器学习细节把握、模型选型、ABtest等能够参考已有的经验和方法,在分析的过程中也主动学习和了解业务流程,数据挖掘的知识,平常可以对于一些有价值的提炼内容,驱动业务增长,留意机器学习在业务中的应用!
最后,通过上述AARRR运营模型,我们了解到机器学习在业务数据分析应用中的应用!
(佳哥个人公众号)
作品《零基础学机器学习》,以咖哥为主人公,出版一年多以来,广受读者喜爱,已经是7次重印,豆瓣评分高达9.1分。而新作《数据分析咖哥十话》一书,沿袭了风趣、幽默、轻松的风格,把数据分析技术融入故事和实操当中,引导读者从思维到技术实践,通过真实案例提升读者商业分析技能,促进运营增长。
然而,「机器学习」是很多学科的知识融合,而「数据分析」是机器学习的基础。可以简单的理解机器学习就是在一堆杂乱无章的数据中,找到其背后的规律。数据分析、机器学习涉及很多知识点,不是一次分享能全部了解的。学贵在行,需要我们在以后的学习工作中不断地积累经验掌握工具,学以致用。能站在多方角度,发现问题,分析问题,解决问题,总结问题。
后期小飞象会继续为邀请各业的精英分享数据领域的内容。祝愿大家都能在自己所在的领域内,用数据思维,成就更好的自己,在可预见的未来,遇到更好的自己。谢谢大家!
······
敬请期待下一期
本次分享到此结束,再次感谢大家的收听,我们下期再会!
(本文由木兮整理,可能与演讲时略有遗漏,但整体思路精华都在)
图片来源于网络
若好的建议和想法,欢迎在下方留言
我们将尽其所能打造数据分析交流的理想之地