• 大数据Hadoop入门01——大数据导论


    目录

    • 企业数据分析方向
    • 数据分析基本步骤
    • 大数据时代
    • 分布式与集群

    数据是什么

    • 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,它是可识别的、抽象的符号。
    • 它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如,“0、1、2.…"、“阴、雨、下降”、“学生的档案记录、货物的运输情况”等都是数据。

    数据如何产生

    对客观事物的计量和记录产生数据,比如下面情况:
    在这里插入图片描述

    一、企业数据分析方向

    • 把隐藏在数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策。
    • 数据分析在企业日常经营分析中主要有三大方向:
      在这里插入图片描述
    • 现状分析(分析当下的数据)︰现阶段的整体情况,各个部分的构成占比、发展、变动;
    • 原因分析(分析过去的数据)︰某一现状为什么发生,确定原因,做出调整优化;
    • 预测分析(结合数据预测未来)︰结合已有数据预测未来发展趋势。

    1.1 现状分析

    • 实时分析(Real Time Processing |Streaming(流式分析) )

    面向当下,分析实时产生的数据;
    所谓的实时是指从数据产生到数据分析到数据应用的时间间隔很短,可细分秒级、毫秒级。
    在这里插入图片描述

    1.2 原因分析

    • 离线分析( Batch Processing )

    面向过去,面向历史,分析已有的数据;
    在时间维度明显成批次性变化。一周一分析(T+7),一天一分析(T+1),所以也叫做批处理。
    在这里插入图片描述
    1.3预测分析

    • 机器学习(Machine Learning )

    基于历史数据和当下产生的实时数据预测未来发生的事情;侧重于数学算法的运用,如分类、聚类、关联、预测。
    在这里插入图片描述

    二、数据分析基本步骤

    • 数据分析步骤(流程)的重要性体现在:对如何开展数据分析提供了强有力的逻辑支撑;
    • 张文霖在《数据分析六步曲》说,典型的数据分析应该包含以下几个步骤
      在这里插入图片描述

    Step1 :明确分析目的和思路

    • 目的是整个分析流程的起点,为数据的收集、处理及分析提供清晰的指引方向;
    • 思路是使分析框架体系化,比如先分析什么,后分析什么,使各分析点之间具有逻辑联系,保证分析维度的完整性,分析结果的有效性以及正确性,需要数据分析方法论进行支撑;
    • 数据分析方法论是一些营销管理类相关理论,比如用户行为理论、PEST分析法、5W2H分析法等。
      在这里插入图片描述

    Step2:数据收集

    • 数据从无到有的过程∶比如传感器收集气象数据、埋点收集用户行为
    • 数据数据传输搬运的过程∶比如采集数据库数据到数据分析平台
      在这里插入图片描述

    step3:数据处理

    • 准确来说,应该称之为数据预处理。
    • 数据预处理需要对收集到的数据进行加工整理,形成适合数据分析的样式,主要包括数据清洗、数据转化、数据揭取、数据计算;
    • 数据预处理可以保证数据的一致性和有效性,让数据变成干净规整的结构化数据。
      在这里插入图片描述
      思考:
    1. 当下的企业中用于分析的数据是侧重于文本数据多一些,还是侧重于图片、视频数据多一些?
    2. 什么叫干净规整的结构化数据?有非结构化数据?
      专业来说就是二维表的数据,行列对应;
      通俗来说就是格式清晰,利于解读的数据。

    Step4:数据分析

    • 用适当的分析方法及分析工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程;
    • 需要掌握各种数据分析方法,还要熟悉数据分析软件的操作;
      在这里插入图片描述

    Step5:数据展现

    • 数据展现又称之为数据可视化,指的是分析结果图表展示,因为人类是视觉动物;
    • 数据可视化(Data Visualization)属于数据应用的一种;
    • 注意,数据分析的结果不是只有可视化展示,还可以继续数据挖掘( Data Mining )、即席查询( Ad Hoc )等。

    在这里插入图片描述

    Step6∶报告撰写

    • 数据分析报告是对整个数据分析过程的一个总结与呈现
    • 把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参
    • 需要有明确的结论,最好有建议或解决方案
      在这里插入图片描述

    总结

    1. —切围绕着数据
    2. 通俗描述︰数据从哪里来、数据到哪里去
    3. 核心步骤:采集、处理、分析、应用

    三、大数据时代

    1、背景

    • 最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,其称︰“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
    • 2019年,央视推出了国内首部大数据产业题材纪录片《大数据时代》,节目细致而生动地讲述了大数据技术在政府治理、民生服务、数据安全、工业转型、未来生活等方面给我们带来的改变和影响。在这里插入图片描述

    2、大数据定义

    • 大数据( big data )是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;
    • 是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
      在这里插入图片描述

    3、大数据5V特征

    • 5个V开头的单词,从5个方面准确、生动、形象的介绍了大数据特征。
      在这里插入图片描述
    3.1、数据体量大(Volume)
    1. 采集数据量大
    2. 存储数据量大
    3. 计算数据量大
    4. TB、PB级别起步
    3.2、种类、来源多样化(Volume)
    1. 种类:结构化、半结构化、非结构化
    2. 来源︰日志文本、图片、音频、视频
    3.3、低价值密度(Volume)
    1. 信息海量但是价值密度低
    2. 深度复杂的挖掘分析需要机器学习参与
    3.4、速度快(Volume)
    1. 数据增长速度快
    2. 获取数据速度快
    3. 数据处理速度快
    3.5、数据的质量(Volume)
    1. 数据的准确性
    2. 数据的可信赖度

    应用场景

    • 电商领域
      精准广告位、个性化推荐、大数据杀熟

    • 传媒领域
      精准营销、猜你喜欢、交互推荐
      在这里插入图片描述

    • 金融方面
      理财投资,通过对个人的信用评估,风险承担能力评估,集合众多理财产品、推荐响应的投资理财产品。

    • 交通领域
      拥堵预测、智能红绿灯、导航最优规划

    • 电信领域
      基站选址优化、舆情监控、客户用户画像

    • 安防领域
      犯罪预防、天网监控

    • 医疗领域
      智慧医疗、疾病预防、病源追踪

    思考:
    大数据场景下
    1、海量数据如何存储?
    2、海量数据如何计算?

    四、分布式与集群

    概念

    • 分布式、集群是两个不同的概念,但口语照片那个经常混淆二者。
      在这里插入图片描述

    混淆点

    • 分布式、集群的共同点:都是多台机器(服务器)组成的;
    • 因此口语中混淆两者概念的时候都是:相对于单机来说的。
      在这里插入图片描述

    应用

    • 数据大爆炸,海量数据处理场景面临问题
      在这里插入图片描述
  • 相关阅读:
    Android自定义控件(二) Android下聚光灯实现
    JAVA餐饮掌上设备点餐系统计算机毕业设计Mybatis+系统+数据库+调试部署
    2024年,提升Windows开发和使用体验实践 - 小工具篇
    FluentCRM 2.6.0:更多功能、集成改进等等!
    微信小程序接口请求多文件+参数上传、单文件+参数上传(formData形式) 微信小程序实现formData格式传参(亲测有效)
    展示数据并查询单条数据
    LeetCode-622. 设计循环队列
    FusionConpute虚拟机的发放与管理
    自动驾驶感知算法实战6——目标分类详解(ResNet、VGG、GoogLeNet等)
    关于代码性能优化的总结
  • 原文地址:https://blog.csdn.net/gongzi_9/article/details/126412922