• 大数据周会-本周学习内容总结017


    开会时间:2023.06.1 15:00 线下会议

    目录

    01【调研-计算(实时、离线)】

    1.1【流程图】

    1.2【架构图】

    1.3【使用场景】

    1.4【技术架构】

    02【fhzn项目】

    03【专利】


    01【调研-计算(实时、离线)】

    1.1【流程图】

    开始 -> 数据采集 -> 数据存储 -> 数据预处理 -> 实时计算 -> 结果存储和展示 -> 离线计算 -> 最终结果

    1.2【架构图

    1. +---------------------+
    2. | |
    3. +----------+ 实时计算引擎 +-----------+
    4. | | | |
    5. | +----------+----------+ |
    6. | | |
    7. | | |
    8. | | |
    9. | | |
    10. | | |
    11. +-----v----+ +-----v-----+ +-----v-----+
    12. | | | | | |
    13. | 数据采集 | | 数据存储 | | 结果存储 |
    14. | | | | | 和展示 |
    15. +-----+----+ +-----+-----+ +-----+-----+
    16. | | |
    17. | | |
    18. | | |
    19. | | |
    20. | +----------+----------+ |
    21. | | | |
    22. +----------+ 离线计算引擎 +-----------+
    23. | |
    24. +---------------------+

    1.3【使用场景】

    1. 实时计算:大数据实时计算广泛应用于金融行业,例如实时风险管理、欺诈检测和股票交易分析。它还用于智能城市,例如实时交通监控和环境监测。
    2. 离线计算:大数据离线计算通常用于数据挖掘和分析任务。它可以用于市场营销分析、用户行为分析、推荐系统和业务智能分析等领域。

    1.4【技术架构

    大数据计算的技术架构通常包括以下组件:

    1. 数据采集:用于从各种来源收集大规模数据的组件,例如传感器、日志文件、数据库等。常见的数据采集工具包括Flume、Kafka和Logstash。
    2. 数据存储:用于持久化存储大量数据的组件。在大数据领域,常见的数据存储技术包括Hadoop分布式文件系统(HDFS)、Amazon S3、Google Cloud Storage和Azure Blob Storage。
    3. 数据预处理:用于对原始数据进行清洗、转换和规范化的组件。数据预处理阶段可能涉及数据清洗、缺失值处理、数据格式转换等操作。常见的数据预处理工具包括Apache Spark和Apache Flink。
    4. 实时计算引擎:用于处理实时数据流并产生实时计算结果的组件。这些引擎能够实时处理数据流,并执行各种计算、聚合和过滤操作。常见的实时计算引擎包括Apache Storm、Apache Kafka Streams、Apache Samza和Spark Streaming。
    5. 结果存储和展示:用于将计算结果存储并展示给用户或其他系统的组件。结果存储可以是关系型数据库、NoSQL数据库或数据仓库,展示可以是Web界面、报表或可视化工具。常见的结果存储和展示技术包括Apache HBase、Elasticsearch、Kibana和Tableau。
    6. 离线计算引擎:用于对大规模数据集进行离线分析和计算的组件。离线计算引擎通常用于批处理任务,可以执行复杂的数据分析、挖掘和机器学习算法。常见的离线计算引擎包括Apache Hadoop、Apache Spark和Apache Flink。

    以上是大数据计算的典型技术架构组件,实际应用中可能会根据具体需求和系统规模进行调整和扩展。此外,还有其他一些辅助组件和工具,例如数据调度器(如Apache Oozie)、任务调度器(如Apache Mesos和Kubernetes)以及安全和监控工具等,用于增强大数据计算的可靠性、安全性和可管理性。

    02【fhzn项目】

    1、创建es索引。

    2、多维度检索方案设计,es多条件查询接口。

    3、git提交代码。

    03【专利】

    ...

  • 相关阅读:
    06 逻辑回归
    .NET周刊【11月第4期 2023-11-26】
    ubuntu降内核版本
    常用工具类
    2022年深圳市福田区支持先进制造业发展若干措施
    Android面试题汇总(四)
    Linux 最近学习总结
    离线数仓(五)【数据仓库建模】
    从李佳琦到背后的商业逻辑再到游戏行业
    Python自动化小技巧03——自动统计文件里面的文字和词汇频数
  • 原文地址:https://blog.csdn.net/weixin_44949135/article/details/131153226