• 大数据概述


    大数据概述

    大数据的来源

    1. 云计算是大数据的一种业务模式,云为数据资产提供存储、访问和计算,相当于数据和规则的合体。主要应用于挖掘有价值的信息,为国家、企业和个人提供决策和服务。
    2. 大数据的来源是由于互联网的迅速发展,导致数据指数膨胀,而这些数据是具有一定价值的
    3. 目前企业部门竞争的核心就是对于数据资产的管理和有效利用,从而提高企业效率获得利润
    4. 传统数据管理方式不适合大数据资产管理要求的原因
      • 范围上,非结构化数据和内外数据冲击了传统管理模式
      • 形式上,数据加工的复杂度和速度对传统管理效率提出了挑战
      • 内涵上,数据管理的创新也要求新的管理模式
    5. 数据解决方式
      • 存储:每天TB级资料并且持续增长
      • 计算:在收资料的同时做前置处理,区分数据处理等级
      • 管理:避免硬件损坏导致的资料损毁
      • 分析:如何挖掘数据中的价值

    大数据是什么

    1. 大数据没有办法再可容忍的时间下使用常规的软件方法完成存储、管理和处理,处理数据的效率就是企业的生命线

    2. 大数据的4V特征

      • 规模性Volume:非结构化数据和结构化数据增长迅速
      • 多样性Variety:不同形式的数据增加,且可能具有关联性
      • 价值性Value:挖掘出对未来趋势与模式预测分析有价值的数据
      • 高速性Veloctiy:实时分析,快速响应,1s内生成通常是临界点
    3. 大数据的应用:医疗、金融、营销、决策···

    4. 大数据涉及的关键技术

      • 分布式文件系统进行数据存储,Hadoop、Map Reduce、Hbase、Spark
      • 流计算引擎进行实时数据处理,Streaming Data
      • 存储器间高速通信,Infini Band
      • 相关的搜索技术,Enterprise Search
      • 机器学习等相关数据分析技术,Text Analytics Engine、Visual Data Modeling
    5. 关键技术特点

      HadoopNoSQL数据库数据仓库
      部署架构水平拓展水平拓展大部分垂直拓展大部分水平拓展
      数据类型简单丰富丰富
      数据模型简陋简单丰富完善
      数据关系无关系简单完善完善
      数据一致无一致性弱一致性强一致性强一致性
      数据安全很弱很弱很高很高
      计算类型只读,低并发实时CRUD,海量并发实时CRUD,高并发只读,低并发
      适用场景低密度数据的存储及预处理高并发实时实时查询操作高价值数据的统一利用
      常见用例日志处理、用户行为分析,搜索引擎用户资料,微博,金融反诈骗金融记账和税务企业数据仓库
    6. 架构设计

      • 数据串联:将结构化和非结构化数据进行打通串联
      • 实时处理:将多数据源进行加工处理,提供实时数据计算结果
      • 平台计算:使用分布式数据计算平台实现数据和硬件的充分利用
      • 按需分配:采用容器技术将系统硬件资源进行按需分配
      • MPP数据库支持进行大规模数据并行处理
    7. 大数据处理流程

      • 数据获取
      • 模型加工
      • 数据分析
      • 数据展现
  • 相关阅读:
    手把手带你体验一场属于Linux的学习之旅
    微服务相关的思考
    控制Servlet启动优先级-10
    在windows下持续ping ip,将返回结果及时间记录到文件中
    月薪2w+的大数据就业岗位有哪些?
    Java项目校园兼职平台(三层架构+设计模式重构版)(含代码)
    H5互动游戏推荐,适合和产品结合的小游戏
    Dijkstra算法学习总结
    由于apt-get命令不知道为什么使用不了(可能是关闭了某个访问外网的东西),所以手动在ubuntu上安装mongodb
    FDTD Solutions笔记
  • 原文地址:https://blog.csdn.net/qq_43840665/article/details/126380015