刚刚结束的模块一讲解了指标体系的关键知识点,今天开始我们将充分挖掘指标体系的产品运营价值,学习各种有趣的数据分析方法来帮我们从指标中做到快速和准确的分析业务、洞察问题。
需要专栏原数据进行实操的同学,可到“拉勾教育”公众号回复“数据化”,即可在百度云盘中获取本专栏的21组数据源
在模块二中,我会讲解六种数据分析方法,它们频繁应用在产品运营的各类场景中,如下图所示,主要分为两大类:描述分析和推断分析。

描述分析
主要用于分析数据的整体情况,重点着眼于分析数据本身的分布和特征,主要包括描述性统计、多维分析和相关性分析等分析方法。
例如分析产品的 DAU 时,通常用描述分析对 DAU 的分布、趋势和组成进行初步分析,以了解掌握 DAU 总体的特征情况。
一般而言,拿到一份数据或报表时,通常首先进行描述性分析,看看整体情况如何之后再进行其他更为深入的分析。
推断分析
主要通过分析少量数据的特征,来推断整体数据特征的方法,主要包括方差分析、样本检验和趋势预测。
例如,判断影响营销活动效果的有效因素、分析对指定客群投放营销活动后的真实效果、A/B 测试中选取的客群能否代表整体用户特征等等,这些都是推断分析去解决的场景。一般而言,推断分析是在描述分析之后,深入探索数据特征,寻找数据归因的重要分析方法。
闲话休提,今天我们先深入探讨第一类描述分析中的第一种分析方法:描述性统计。
大多数同学每天到公司第一件事,就是看各种各样的报表以了解产品运营的情况。特别是当我们打开一份有十几列,几万行的明细数据时,那种感觉我相信用铺天盖地、头晕目眩来形容是再合适不过了。
面对如此令人崩溃的场景,必须要求我们要求能够快速找到数据的特征。描述性统计正是为此而生,它通过几个简单的分析方法就能在几秒钟内提取出指标背后的数据特征,快速建立整体全面的认知,并帮助我们寻找到分析的突破口。
为了能够高效的发现数据的特征,描述性统计为我们提供了三个非常有用的分析工具,分别是:
中位数/平均数
方差/标准差
异常值
并且还提供了一个分析图表——箱线图来辅助分析。
中位数和平均数的数学含义很简单,我在这里不再重述,这里就重点说一下平均数的注意事项。
平均数的特点是极易受到极大值或极小值的影响,从而会变得不客观,所以在计算平均数时,一般都要看看这组数据的最大值和最小值是否偏离太大,如果偏离太大需要剔除后再计算平均值。
比如,要评估 11 月中 30 天的日均销售额,显然双 11 极高的销售额会把整月的日均销售额拉高,无法真实反映 11 月的日均销售额。所以需要除去双 11 的数据后,再计算 11 月的日均销售额。
平均数一般包括算数平均数和几何平均数,算术平均数是将 n 个数据加和后除以 n;几何平均数是将 n 个数据相乘后再开 n 次方。
特别需要强调的是,算术平均数和几何平均数的适用场景完全不同。
算术平均数适用于指标是绝对值的数据,例如计算近 30 天日均 DAU、日均新增访客、月均收入等都可以用算术平均数;
几何平均数适用于指标是百分比的数据,例如计算不同渠道的平均转化率、不同客群的平均留存率、不同品类的平均付费率、月均增长率等,只能用几何平均数来计算。

中位数和平均数通常结合起来使用,通过比较中位数和平均数的大小,来判断数据的分布是偏大还是偏小。
平均数 > 中位数
数据中偏大的居多,抬高了整体的均值,导致平均数大于中位数;
也或者是,数据中出现了个别极大值,抬高了整体的均值,导致平均数大于中位数。
平均数 < 中位数
整体数据中偏小的居多,降低了整体的平均值,导致平均数小于中位数;
数据中出现了个别极小值,拉低了整体的均值,导致平均数小于中位数。
为什么要这么去看?因为很多场景下两组数据的总和和平均数相差无几,难以评估谁好谁坏;而通过“中位数与平均数”的对比,可以发现很多有趣的业务问题,例如下面这个例子。
在电商行业中经常需要分析不同品类产品的销售情况。

由上表可以看出,产品 A 和产品 B 的累计销售额完全一样,日均销售额也完全一样,仅看这两个指标无法得出任何业务结论;但是我们试着看看产品 A 和产品 B 的平均数和中位数,情况就有趣了。
产品 A 的日均销售额为 281.11,每日销售额的中位数是 234,即平均数大于中位数。
意味着产品 A 的每日销售额偏高的居多,可能是产品 A 的客单价较高,可能是某一天的销售额很高,拉高了平均数。
产品 B 的日均销售额为 281.11,每日销售额的中位数是 315,即平均数小于中位数。
意味着产品 B 的每日销售额偏低的居多,可能是产品 B 的客单价较低,可能是某一天的销售额很低,拉低了平均数。
方差,是指数据的离散程度,是一组数据与这组数据平均数之差的平方值的平均数;而标准差,是方差的开方值。这些都是简单的基本概念,我们了解下方差和标准差的业务含义。
方差和标准差代表了业务指标的波动情况,即业务稳定性的高低,也即业务经营风险的大小;
当方差和标准差变大,意味着指标波动变大,业务稳定性降低,业务经营风险升高;
当方差和标准差变小,意味着指标波动变小,业务稳定性升高,业务经营风险降低;
方差和标准差可以将微小的变化显著放大,即更直观和更直接地观察到业务经营风险。
方差和标准差的使用非常简单,只需要留意以下两点即可。
方差没有量纲,即没有任何单位,不具备任何业务含义,就是一个纯数字。不能说11月的销售额方差是多少万元,只能说方差是多少数字。所以单看一个方差没有任何业务价值,而是需要做各种对比来看方差的变化,从变化中找到可能的数据问题。
例如,连续两周的每周 DAU 方差都在变大,意味着 DAU 的波动不断变大,背后的原因或者是投放的运营活动数量和节奏出现问题,或者是产品稳定性出现问题,或者是外部竞品抢用户等等。
标准差有量纲,即有单位,有业务含义,我们可以说 11 月的销售额标准差是 5.5 万元。单看标准差同样没有任何意义,仍需要通过各种对比来看标准差的变化来从中发现问题。
因为方差会将数据微小的波动放得很大,所以在某些情况下方差的数据可以到 8 位甚至 9 位数,这对视觉体验非常不友好。所以更多数情况下我们是考察标准差,因为数字显示得不会太大,同时具备业务意义。
渠道是重要的获客方式,渠道的获客稳定性非常重要,波动过大的渠道一般其客群质量也不会太高,对于产品而言会造成获客资源的浪费,以及加大后续运营资源的压力。如果要评估渠道的获客稳定性,那么我们就要用方差/标准差来评估。
例如,要分析如下三个渠道的新增用户稳定性,考察其每日新增用户数的方差,看看能否得出有趣的结论。

从上表可以看出,仅分析这三个渠道的累计新增用户数、日均新增用户数无法得出任何业务结论,同时分析各个渠道自己的平均值和中位数也难以评估渠道的获客稳定性。
所以,我们用方差来计算,分别计算这三个渠道的每日获客量的方差和标准差:
渠道 A 的每日新增用户数的方差是 305.6,标准差是 17.48;
渠道 B 的每日新增用户数的方差是 834.6,标准差是 28.89;
渠道 C 的每日新增用户数的方差是 630.6,标准差是 25.11。
于是,我们发现:因为渠道 B 的每日新增用户数方差和标准差最大,可以认为在这 3 个渠道中,渠道 B 的获客能力波动最大,稳定性最差,后续的风险也在 3 个渠道中最高(相对),接下来的运营需要更多的关注渠道 B 的运营情况;而渠道 A 和渠道 C 的获客能力相对波动较小,获客较稳定,保持中优先级的关注即可。
分位数,是指将一组有序数据分为几个具有相同长度的区间,常用的有中位数、四分位数等。
统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置就是分位数,通常用 Q1、Q2、Q3 来表示一分位(前25%)、二分位(前 50%)、三分位(前 75%),其中二分位数就是中位数。
异常值,即在数据集中存在过高或过低的值。特别注意的是,当我们说“这个月 DAU 的最大值是 190 万”,其中的“最大值”是指剔除异常值后剩下数据中的最大值(最小值也同理)。
注意:异常值并不一定是最大值或最小值,它一般也不参与正常业务讨论的范畴。
所以刚才这句话应该说“这个月 DAU 的最大值是 190 万,同时我们发现 1月9日 DAU 异常高,超过 270 万”。
【异常值筛选算法】
在统计学中,通常用分位数来确定正常值区间,并筛选出异常值,筛选算法如下:
若数据大于 Q3+1.5(|Q3-Q1|) ,则数据为异常值;
若数据小于 Q1-1.5(|Q3-Q1|) ,则数据为异常值;
若数据在 Q1-1.5(|Q3-Q1|)~Q3+1.5(|Q3-Q1|) 之间,则为正常值。
其中 |Q3-Q1| 也叫分位距或分位差,用 IQR 来表示。
感兴趣同学了解即可,这里不再深入讲原理。
【异常值的业务含义】
计算任何平均值前,都必须要剔除异常值后才能进行;
异常值,通常需要单独排查和分析,在很多互联网公司都会设置一个职位专门跟进分析异常值,它们叫 Bad Case;
异常值不能说好,也不能说不好,要根据实际业务情况来看。双 11 这天的销售数据,对比其他日期的销售,显然是一个异常值。但对于这个异常值,当然希望越大越好,也就是越异常越好。
在异常值的算法中,IQR 前面的系数是重要的运营手段。在实际工程应用中,IQR 前面的系数 1.5 被认为是一个经验值,可根据业务实际情况在 1.0~2.0 之间调节,越大意味着异常值标准越宽松,越小意味着异常值标准越严格。
为了找出正常值范围以及异常值,除了用基于 IQR 的算法外,还可以通过箱线图更直观地找出异常值。

上图即是标准的箱线图,其中游离在外的点即表示异常值,同时还能从箱线图解读出更多信息:
可以直接看到中位数和平均值所在的位置,便于快速评估中位数和平均值的大小;
可以通过箱子的高度,定性地判断方差大小,箱子高度越高,方差越大,反之越小;
可以看到正常值的范围,上下限之间即是正常值范围。
箱子越高,方差越大的原因在于:箱子的高度是 Q3-Q1,也叫 IQR 分位距。IQR 越大,意味着这组数据的范围被拉得很宽,也就意味着分布的越散,也就意味着方差/标准差越大。
渠道是重要的获客资源,其获客能力的趋势非常重要。若要分析如下三个渠道的新增用户情况,考察其每日新增用户数有无异常情况,看看能否得出有趣的结论。

我们为这三个渠道做了如下箱线图,可以看出:
渠道 A 的获客能力排位第二,因为它的箱线图位置在渠道 B 和渠道 C 之间,同时稳定性对比其他两个渠道也较好,整体运营正常,并无异常值出现;
渠道 B 的获客能力排位第一,因为它的箱线图位置最上,同时稳定性也最差,因为箱线图中的箱体高度最高,整体运营正常,并无异常值出现;
渠道 C 的获客能力排位第三,因为它的箱线图位置最下,同时整体运营有一定问题,因为出现了一个异常值,需要单独排查原因,是否是拉新活动、渠道联合活动等因素导致的。

Excel 作为最重要的数据分析平台,已内置了描述性统计的所有分析工具,能够简单快速地完成上述分析,并且结果极易解读。
第一步:点击“数据”选项卡,点击“数据分析”。

第二步:点击“描述统计”。

注意:如果“数据”选项卡后无“数据分析”,请先启用“数据分析”加载项。
第三步:选择数据输入区域,拖动选择数据区域。

第四步:勾选“汇总”选项卡,其他默认即可。

注意:若数据列第一行为标题,请勾选“标志位于第一行”。
第五步:点击“确定”,即可完成。
如下图所示,这里将平均数、标准差、方差、最大值、最小值等描述性统计需要的数据均清晰展出。

该图数据源来自下图表“某 app 每天新增访客”。
在前文讲述分位数和异常值的算法时,可以通过计算公式和箱线图两种方法来寻找异常值。事实上,Excel 也提供了箱线图工具来帮助我们快速查找异常值。
第一步:选择要分析的数据。

第二步:点击“插入”选项卡,点击图表区域的“箱形图”,完成。

注意:如果图表区域无此图标,请升级 Excel 至 Office 2019 及以上版本。
第三步:完成
分别展出了 iOS 和 Android 这两种设备的新增访客数据及其箱线图。

今天我们讲了描述性统计的分析方法,包括中位数/平均值、方差/标准差、分位数/异常值,以及箱线图,并且最后我们在 Excel 中对以上内容完成了操作实践。
这一讲与你探讨了描述性统计的分析方法,快速评估了指标特征,并从中找到了分析方向,也就是突破口,在这之后,我们下一步自然就会进一步分析指标变化的原因。
这时就需要用上多维分析法和相关性分析法了,所以下一讲,我将通过四个真实业务案例,带你进行多维分析法实操,我是磊叔,下次课见~~~
一个项目中产品经理和数据分析师的分工如何明确?
产品经理负责的是产品的体验、功能、业务流程;数据分析师负责的是产品的所有数据。
产品经理的视角是:功能 -> 数据 -> 功能/迭代;数据分析师的视角是:数据 -> 问题 -> 策略 -> 数据。
产品经理通常关注自己hold的业务的数据指标,数据分析师通常看的全局数据,包括产品、运营、品牌、渠道、用户等。
举个栗子:产品经理会关心今天有多少成交额吗?有多少热点视频吗?有多少广告投放了?会关心,但不care。产品经理们关心的是这个需求应该怎么和研发argue、排期怎么处理、用户体验是否有保证、后端系统的业务流程是否流畅、应该赶哪趟班车发版、发版后的灰度策略怎么做。而数据分析师会关心这个功能大流量上线后的价值和贡献,以及什么时候要去做优化、如何与其他产品、运营等正确协同、是否应该包装这个新功能为外宣价值主张、以及能够为产品经理提供更全面的产品数据解读和协助。
帮助大家补充下Excel中的计算函数:1、累计用户数=SUM(number1,number2,…)2、平均数=AVERAGE(number1,number2,…)3、中位数=MEDIAN(number1,number2,…)4、方差=VAR(number1,number2,…)5、标准差=STDEV(number1,number2,…)
爱分享的热心宝宝,给你点赞。方差和标准差的函数,尽量用带“.”的那些函数
关于数据统计分析的工具比如excel,求推荐的学习教程
这个太多啦,搜一下:Excel,数据分析这两个关键字的书,一般都可以
中位数解释一下吧
中位数,是指将一组数据排序后,其位置处于正中间的数。如果是偶数个数的数据,则中位数取最中间的两个数值的算数平均数作为中位数;如果是奇数个数的数据,则中位数取最中间的数。
“中位数和平均数”分析数据时,如果数据本身是呈现比较两级分化的情况下,中位数和平均数都不能很好的反映实际情况,这种情况下要如何分析呢?
一样可以分析。我们假设一个极限场景:某个指标有100个值,其中有45个最大值,有45个最小值,剩下的10个值随意分布。有以下几种情况:
1)最大值是大于最小值,例如最大值是9999,最小值是-8888,那么平均数大于中位数。
2)最大值小于最小值,例如最大值是8888,最小值是-9999,那么平均数小于中位数。
3)最大值等于(或近似相等)最小值,例如最大值是8888,最小值是-8888,那么平均数等于中位数。
平均数和中位数的关系,在上面这种情况下依然适用。
需要专栏原数据进行实操的同学,可到“拉勾教育”公众号回复“数据化”,即可在百度云盘中获取本专栏的 21 组数据源。
老师,为什么标准差案例里,方差为305.6的计算方式,平均数是n-1而不是n?
没有错吧,11个数据,标准差公式:stdev.s = 17.48142
若数据大于 Q3+1.5(|Q3-Q1|) ,则数据为异常值这个怎么用
若为异常值,我们需要把它单独出来分析。也请参详正文内容:
【异常值的业务含义】
计算任何平均值前,都必须要提出异常值后才能进行;
异常值,通常需要单独排查和分析,在很多互联网公司都会设置一个职位专门跟进分析异常值,它们叫 Bad Case;
异常值不能说好,也不能说不好,要根据实际业务情况来看。双 11 这天的销售数据,对比其他日期的销售,显然是一个异常值。但对于这个异常值,当然希望越大越好,也就是越异常越好。
一组数据与这组数据平均数之差的平方值的平均数 没懂怎么用
同学,这个网页中详细降级了方差与标准差的意义和用法,你可参考学习https://www.shuxuele.com/data/standard-deviation.html
A产品的销售额 A产品客单价高没有理解到
理解上文的内容,我给出了评断标准:
平均数 > 中位数
数据中偏大的居多,抬高了整体的均值,导致平均数大于中位数;
也或者是,数据中出现了个别极大值,抬高了整体的均值,导致平均数大于中位数。
平均数 < 中位数
整体数据中偏小的居多,降低了整体的平均值,导致平均数小于中位数;
数据中出现了个别极小值,拉低了整体的均值,导致平均数小于中位数。