目录
大数据已经彻底改变了我们的生活方式,我们来聊一聊生活中的大数据。首先,大数据在媒体和乐行业快速兴起,它预测观众的兴趣,并从他们的行为中获取见解,以 Netftix
电视收视率第一的 《纸牌屋》为例,这部剧从诞生之初就是一部大数据,及互联网观众喜好来设计的作品,Netftix
会跟踪观众的搜索、评分、浏览习惯等,并据此确定电视剧的方向。教育行业同样存在大量学生、教师、课程相关的数据,依据教育大数据定制的学习动态的学习计划,重构课程材料,分析学生的优势、劣势、兴趣等进行行业预测。大数据的兴起,让交通运输变得更加高效和便捷。我们利用大数据进行路线规划,管理拥堵和控制交通,保障交通安全。以滴滴出行为例,滴滴生成并使用大量关于乘客和司机的数据,乘客可以快速了解车辆饱和度、位置、预计到达时间,而司机可以通过乘客叫车频次、区域热力图,规划路线,减少燃料浪费;医疗保健是另一个生产大数据的行业,大数据在医疗最强大的应用就是电子病历的普及、可穿戴设备和传感器,为患者的健康提供实时反馈,华为、Apple 等推出了相关的设备;金融啊行业的数据每秒都在暴涨,研究和分析这戏数据不仅可以对客户需求变化,更能发现各种非法活动,如滥用信用卡、贷款风险等等,全球各地都部署天气传感器和卫星,我们利用这些数据检测天气和环境,如天气预报、自然灾害预测或者天气变暖。当今世界,大数据的浪潮正在席卷全球,大数据不再是象牙塔里的珍品,它已经被大规模的应用于媒体和娱乐、教育、交通、医疗、金融、气候等产业,并实实在在地改变我们的世界。
从文明之初 结绳记事
开始,数据一直伴随着人类社会的发展和变迁,大数据的记录可以追溯到 7000 多年前。美索不达文明引入记录作生物生长和放牧,然而,直到计算机为代表的现代信息技术出现后,人类掌握数据、处理数据的能力才实现了质的跃升,第二次世界大战期间英国人发明了破解纳粹密码的机器,这台机器被称为 Colossus
,它以每秒五千字的记录速度工作 Colossus
将工作从几周减少到几小时,伴随着互联网和超级计算机的出现,在 1990 年代,数据以指数速度在增长, 1988 年,《纽约时报》将 “大数据“,一词的首次使用归功于 John Mashey
,时间来到 21 世纪,2008 年《自然》杂志提出了大数据的概念,大数开始在信息技术行业受到重视,2001 年麦肯锡全球研究院宣布大数据时代已经到来,并发表《大数据下一个创新、竞争和生产率的前沿,此后,各国政府也开始推动大数产业发展,2012年奥巴马政府发布《大数据研究和发展计划》,启动 2 亿元的大数据研发计划,旨在推动大数据基础研究,2015年我国国务院发布《促进大数据发展行动纲要》,提出了未来 5 - 10 年大数据发展的具体目标、任务,2017 年 1 月,《大数据产业发展计划(2018 - 2020年)》正式发布,全面制定了未来五年大数据产业大战计划,为 ”十三五“ 时期大数据产业的持续健康发展确立了目标于路径,2020 年 5 月《关于工业大数据发展的知道意见》发布,推动了工业数据全面采集和工业数据开放共享
大数据,一看似复杂的术语,它到底是什么呢?我们都知道数据会随时被产生,但是这些杂乱无章的数据,没有带来给我们呢任何结果,随着分布式计算和大规模数据处理引擎的出现,我们现在可以分析数据,建立模型,预测结果,我们来了解一段大数据早期实践的故事,
马修莫里是一位年轻的海军教官,在常年的航海中积累了丰富的经验, 1842 年他发现库房存在非常多航海书籍、图表等,他把这些无章可循的日志整理成一张全新的行海地图,绘制了 120 万数据点,一直沿用至今,莫里中校把脏乱的航海日志变成有用的数据,从这个意义上讲,莫里就是大数据的先驱,经过多年发展的大数据,业界没有统一的定义,但是一些一致的观点,比如 IBM 总结出大数据的五大特征即 5V
获取得社会普遍得认可,我们以我国 2015 年发布得促进大数据发展行动为纲要为准,将大数据定义为:大数据以容量大、类型多、存取速度快、价值密度低为主要特征得数据集合,我们人人都是用智能手机,但你有没有想过它产生多少数据呢?电话、照片、视频、语音、音乐、搜索、电子邮件、文字输入、数字等等,现在让我们来看看,在智能手机普及得今天,什么是大数据得 5V
特征?
大数据的 5V
特征获得业界的普遍认同, 5V
是指:大量/高速/多样价值密度低/真实。我们首先通过历年双十一活动的例子来理解 5V
,中国电商自创创双十一购物狂欢节,全民线上购物产生了海量数据,家居/服装/美妆/图书/食品等等,从衣食住行生鲜冷链,云端数据川流不息。2020 年全网交易额 5700 亿,包裹量达 7.12 亿件,双十一支付宝每秒交易达 6100 万次,阿里云自研的数据库实现每秒 8700 万次的数据计算,而这都归因于大数据的速度。我们在双11买买买的时候会发现,网络购物不仅会遇到结构化数据,例如:文本/数字等,也会有海量的非结构化数据,例如:图片、视频、网站、地理位置等。双十一的数据帮助消费者在大数据推荐下没购买到心仪的产品。帮助产业精确客户需求,实现市场预测,双十一数据呈现了真实的购买及消费偏好。这些数据将是消费行业产业链收益。看完双十一购物案例后,我们来回顾一下大数据的 5V
特征。首先是大量,截至目前,人类生产的所有的印刷材料是 200 PB,而历史上全人类说过的话数据量大约是 5EB
。当前,典型个人计算机硬盘的容量为 TB 量级,而一些大企业的数据量已经接近 EB 量级。其次是高速。这是大数据区别于传统数据挖掘的最显著的特征。在如此海量的数据面前,处理数据的效率就是企业的生命。第三是多样性。数据的多样性分为结构化数据、半结构化数据和非结构化数据。相对于文本、数字、符号为主的结构化和文档等半结构化数据,非结构化数据化数据越来越多,包括网络日志、音频、视频、图片摄像头数据、地理位置、可穿越这杯数据等。第四是价值密度低。价值密度的高低于数据总量的大小成反比。如何快速对有价值的数据“提纯”成为目前大数据待解决得难题。第五是真实,真实是指数据得质量和保真性,可以说假数据或不可靠的数据比没有更糟糕。 5V
特征是大数据据具备更大得潜力迎接挑战。
分类对于任何学科得研究都是必不可少的,因此,大数据被广泛的划分为三类。结构化数据、非结构化数据、半结构化数据,我们来逐一了解。
我们来观察一下这个魔方,它有什么特征呢?
结构统一,格式统一,我们通常把这个魔方呈现的数据叫做结构化数据。
结构化数据是指:任何以固定格式存储、访问和处理的数据都称为结构化数据。我们来看,这张表格典型的结构化数据。
从这张复杂的网状图里,我们可以看到多种数据形式,视频、语音、文字等等,而这些数据就是非结构化数据。
非结构化数据是指:字段长度可变,每个字段的记录由可以重复或不可重复的子字段构成数据库。我们来看,这张搜索大数据的页面就是典型的非结构化数据。
这是一部电影的构思图,我们看到故事和角色信息混杂在一起,那它是什么类型的数据?
电影的构思图属于半结构化数据,所以半结构化数据是指:介于结构化数据和非结构化数据之间的数据。我们来看,这个 XML 文档就是典型的半结构化数据。
通过这张图,我们可以清晰的看出结构化数据、半结构化数据、非结构化数据的特征。这就是大数据的分类,童鞋们,掌握了吗?
大数据处理的是各种各样的数据:数字、文字、图像、声音、视频等等。海量的数据挖掘背后后的信息,做出预测,指导决策和行动。这涉及到一些算法模型的应用。今天我们学习大数据技术涉及的算法。数据挖掘一般应用分类、聚类、回归、时间序列、文本挖掘等方法。
分类
分类就是根据所给数据的不同的特点,判断属于哪个类别,如把电子正常邮件和邮件垃圾。几种常见的分类算法朴素贝叶斯、决策树、支持向量机。如看到一个黑皮肤的外国人,猜测他来自哪里,十有八九是从非洲来的,虽然黑皮肤的外国人也有可能是美洲人或者是亚洲人,但是没有其他信息帮助的判断的情况下,我们会选择可能出现的概率是最高的类别,这个过程应用到的其实就是朴素贝叶斯算法;决策树主要用于用户规分、行为预测、规则梳理等方面,有很多企业对员工的离职预测,通过决策树找出在离职员工,支持向量机可应用于人来能识别,判断相机中的物体是否是人脸。聚类,生活中我们经常讲到“物以类聚,人以群分”,常见的聚类算法:K-means;K-means 的应用领域非常多,人力资源针对不同类别的员工采取不同的人才规划,网络购物时,商家应用 K-means 算法对会员根据不同特征收入、地域、职业、等进行聚类,依聚类、依据聚类结果,对不同会员进行精准的商品推送;回归,生物统计学家高尔顿在研究父母身高和子女身高时发现:“即使父母身高都极高,子女不见得比父母高,而是有“衰退”至平均身高的倾向,这就是回归,从已有的数据结果中获取规律,对其他数据进行预测,回归算法中一元线性回归,广泛应用于我们的社会生活中,如预测房价,机场预测客流量分布,新浪微博预测用户互动量等等;时间序列,打开天气预报,未来几天关于温度,湿度的预测就是一个时间序列的应用场景,时间序列常常用于经济预测等,还可以在百度搜索引擎里查找大数据相关搜索热度,随着时间变化,搜索热度呈现出逐步的趋势,常见的实践序列算法:ARIMA
,ARIMA
用来预测未来值,如在人口普查中人口流动预测;文本挖掘 ,如我们打开百度输入”大数据“进行搜索时,搜索引擎应用文本挖掘理解你的需求,并根据你的需求推荐信息,几种常见的文本挖掘算法:词云、词频、主题分析、感情分析。商家和企业经常会应用词云、词频等算法对顾客进行用户画像,对所需要的候选人进行人才画像,我们在微博、B站等社交媒体上搜索、评论时,也会受到针对你个人的内容推荐,个性化的推荐应用各种文本挖掘分析,当你在豆瓣上吐槽某部电影时,豆瓣可以应用情感分析算法进行电影口碑分析,能够快速解读出某部电影的票房趋势,另外,如美国大选时,调查机构上利用人们在 twitter 上发布对总统候选人看法的信息,应用情感分析算法可以得出比较准确的民意倾向。
数据财务分析师
人力资源数据分析师
营销数据分析师
算法工程师
大数据概念与特点
人力资源数据特点
人力资源数据发展趋势
数据挖掘工具配置模型
五大类别
回归分析
分类分析
聚类分析--人以类聚,物以群分
降维分析
八个模型
线性回归(回归分析)
朴素贝叶斯(分类分析)
决策树(分类分析)
K - Means(聚类分析)
k - Means 算法将一组 N 个样本的特征矩阵 X 划分为 K 个无交集的蔟,直观表现来看是簇是一组一组聚集在一起的数据,在一簇中的数据就认为是同一类。最终的结果,蔟就是聚类的结果表现。
蔟中所有数据均值通常被称为这个蔟的 “质心” (centroids)。在一个二维平面中,一簇数据的质心的横坐标就是这一蔟所有样本数据横坐标的均值,质心的纵坐标就是这一簇所有样本数据的纵坐标的均值。
K - Means 是如何聚类的
顺序 | 过程 |
---|---|
1 | 随机抽取 |
2 | 开始循环 |
将每个样本点分配到他们最近的质心,生成 k 个蔟 | |
对于每个蔟,计算所有被分到该蔟的样本点的平均值作为新的质心 | |
3 | 当质心的位置不再发生变化,迭代停止,聚类完成。 |
主成分分析(降维)
词云(文本分析)
词频和主题分析(文本分析)