客观:用数字衡量和表现一件客观事物时,能最大程度统一大家的认知
量化:量化的数据,可以利用数学原理进行各种精密的计算,得出更多价值的结果
如业务推导:门店成交额=下单人数*平均客单价,知道其中两个即可推算第三个
统计学:平均数、中位数、众数
微积分:求导–路程-速度-加速度
机器可处理:数据是少数人和机器都能理解和处理的信息,人可以借助机器高效处理数据的各种信息
数据图表:机器给予规则计算和展现数据
数据工程:让机器替代人去7*24小时汇总和处理数据
机器学习:让机器按照人设定的规则去试错尝试、求解最佳参数
随着数据系统的晚上,如果企业的数据汇总超过了Excel的存储上线
那么企业需要建立自己的大规模数据仓库,处理不断增长的数据资产,数据仓库技术占到数据分析实现所用技术的70%以上
埋点采集
系统日志采集方法:
web爬虫
传输存储(数仓)
传输:借助网络
存储:借助数据库技术,研究如何组织和存储数据,高效获取和处理数据是一门大学问
其涉及了:速度、准确性、最大规模、以及数据种类
提取回流(数仓/算法)
清洗处理(数仓)
连接导入:
分析建模(分析/算法)
建模
部署应用
数据分析只是分析的一种,能对碎片化的信息加以抽象和整合,不过度依赖量化,才是真正的分析能力
中心化
当数据仓库建立完毕后,企业的数据团队基本上也搭建完毕了,但初级的数仓仍然有诸多问题
跨库查询:数据存储在不同服务器中,无法实现业务级的垮库查询
数据架构:数据中每个系统的开发独立维护,指标定义、数据结构、数据类型等架构标准都
统一
数据需求:字段需求无法精准有节奏地一一实现,开发说不做就不做了
中心化的数据库将会统一管理企业的所有数据字段,将所有数据汇总到一个技术架构和仓库里
只有一线C端的大型互联网公司才完成了数据中心的建设
京东B轮的时候才进行了数仓的全面重构和中心化
淘宝也是在阿里云出世后才彻底完成
字节很多新增业务部依旧日无法接入数据中心
反映现实情况
监控关键指标