广告数据的特点
移动互联网广告数据是大数据的典型代表,它充分体现了大数据的4V特征,即Volume(体量大)、Variety(多样性)、Velocity(速度快)、Valueless(价值密度低)。首先,数据量巨大,移动互联网广告系统的背后有千万甚至上亿的用户,涵盖了各类用户行为数据及其他数据;其次,数据多样化,它包括第一方广告主数据、第二方广告平台数据以及不直接参与广告交易的其他第三方数据;第三,变化速度快,广告系统在很短的时间内可能要面对成千上万次的用户请求,且必须在100毫秒内处理完每一个发来的用户请求,所以低延时、快速响应是移动互联网广告系统的基本要求;最后,价值密度低,这是广告数据的固有特点,因为并不是每一次广告曝光都能换来有效的用户转化行为,例如点击行为、应用下载行为、付费行为等,用户的转化行为往往是极其稀疏和低密度的,这就要求我们对广告数据有充分的了解,然后通过数据分析和挖掘手段实现精准营销,避免无效曝光,在提升用户体验的同时也要保证广告交易中各方的利益。
广告数据分析的意义
前文说过广告投放的主要目的是精准营销,避免资源浪费、影响用户体验。而广告数据分析的意义也正是帮助广告投放实现精准营销。简单来说,广告精准营销就是指在对的时间、对的地点将对的产品以对的方式展示给对的人。首先,我们需要通过数据分析确定哪些是对的人,这是精准营销的基础。确定的方法有很多,最常用的就是通过用户画像数据分析和用户行为数据分析来确定,例如通过用户的RFM模型,即用户最近一次访问时间、用户访问频率以及用户贡献度来分析。其次,需要确定什么是对的时间、对的地点、对的产品和对的方式,这是精准营销的关键。这不是拍脑袋或者简单讨论就能够确定的,需要根据大量的用户历史行为数据及实际数据对比分析后才能得到可靠的结论。最后,需要通过数据分析给出有效的流量预测、反作弊预警及异常监测等建议,这是精准营销的保障。
广告数据分布
说到广告数据分布,首先需要介绍日常生活中几种常见的数据分布形式。数据分布有时候也称为概率分布,常见的概率分布形式主要有六种,分别是伯努利分布、均匀分布、二项分布、正态分布、泊松分布和指数分布。
前面我们分别介绍了几种常见的数据分布形式,但很难说广告数据到底服从哪一种分布,因为广告交易的场景非常多,需要根据具体情况具体分析。例如要研究按CPC计费的广告点击量与广告费用的关系,结果可能是一条线性的曲线,表示广告费用会随着广告点击量的增加而增加;但研究单个用户广告曝光次数与点击概率的关系时,结果可能就是一条类长尾的非线性曲线,也就是说,随着曝光次数的增加,用户的点击概率总体呈下降的衰退趋势。这其实也很好理解,如果相同的广告重复曝光给同一个用户很多次,当超过一定次数之后就会引起用户的排斥和反感,进而影响其对广告的响应率。再比如我们想研究某媒体平台一天当中的用户广告请求量,你可能会发现凌晨的用户请求数比白天少,这是因为凌晨绝大部分用户都在睡觉,所以研究结果是一条根据时间实时变化的非线性曲线。
异常值诊断
异常值诊断是数据分析和建模中一个非常重要的步骤,异常值的出现会影响数据分析人员对整体数据分布的判断,甚至会导致分析结果与实际情况相差较大或者完全与实际相悖的情况。同时,异常值也会影响模型的结果参数,使得模型泛化能力变差,所以对数据中异常值的诊断至关重要。本节将介绍两种常见的异常值诊断方法。三倍标准差法、箱形图分析法
数据相关性
Pearson相关系数和Spearman秩相关系数
小结
本章首先介绍了广告数据的特点及广告数据分析的意义,然后分别介绍了六种常见的数据分布,包括伯努利分布、均匀分布、二项分布、正态分布、泊松分布、指数分布以及它们各自的特点。本章还介绍了两种常用的异常值诊断方法,即三倍标准差法和箱形图分析法,通过异常值诊断方法可以快速发现数据中的异常值。考虑到在广告数据分析中经常要对变量的相关性进行分析,本章介绍了两种常用的二元变量相关系数:Pearson相关系数和Spearman秩相关系数。通过相关性分析可以快速找到变量之间的内在联系。最后还介绍了数据显著性检验的一般方法和步骤。总体来说,本章重点是向读者介绍广告数据的特点、分布以及数据分析中常用的观察指标,为后续学习其他章节做铺垫