码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 0829(041天 大数据01 概论)


    0829(041天 大数据01 概论)

    每日一狗(田园犬西瓜瓜)

    在这里插入图片描述

    大数据01 概论

    文章目录

    • 0829(041天 大数据01 概论)
    • 大数据01 概论
      • 1. 概论
        • 1.1 大数据开发总体架构
        • 1.2 大数据的影响
        • 1.3 计算模式
        • 1.4 环境搭建
      • 2. Maven
        • 2.1 POM基础
          • 约定的目录结构
        • 2.2 依赖管理
          • 依赖的原则
          • 问:如何解决maven中的依赖冲突问题
          • 依赖范围
        • 2.3 仓库管理
        • 2.4 生命周期

    1. 概论

    数据和信息是现在的。智慧与知识是未来的。

    **大数据:**指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

    • 处理结果具有时效性
    • 注重全量数据,而不是样本数据。
    • 注重相关性,而非因果关系。
    • 存储模式:并非固定的数据库,而是分布在不同的网络空间

    4V特征:

    • 数据量大 volume(GB以上)
    • 数据类型繁多 variety(音频、视频、文本、应用数据等等)
    • 速度快 velocity(生成速度)
    • 价值密度底 value (有用,但只有一点点)
    • 网络添加:真实性

    前沿技术

    • 廉价的存储设备
    • CPU处理能力(摩尔定律:CPU性能大约每隔18个月提高一倍,价格下降一半)
    • 网络带宽(千兆网遍地走。4G100Mbps,5G1Gbps)

    流程:数据采集接入—数据清洗—数据融合—数据分析挖掘—数据可视化—运营维护

    技术执行流程:数据收集、数据存储、资源管理、计算框架、数据分析和数据展示

    技术理念:人多力量大,水平线性扩展。

    1.1 大数据开发总体架构

    • 数据来源:MySQL数据库、文件日志半结构化数据、视频PPT非结构化数据
    • 数据传输:Flume数据采集、Sqoop数据迁移、Kafka消息队列
    • 数据存储:ElasticSearch全文检索、HBase非关系型数据库、HDFS文件存储
    • 资源管理:YARN(算力、存储)
    • 数据计算:MapReduce离线计算、Flink Core内存计算
    • 任务调度:Crontab定时任务和Oozie任务调度
    • 业务模型:数据可视化和业务逻辑处理

    1.2 大数据的影响

    在思维方面:大数据完全颠覆了传统的思维方式:全样而非抽样、效率而非精确、相关而非因果

    1.3 计算模式

    • 离线批处理:针对大规模的历史数据
    • 流处理:针对实时计算,例如Storm
    • 图处理:常用于社交网络,如GraphX
    • 查询分析:大规模的存储管理和查询分析。例如Hive和Cassandra

    1.4 环境搭建

    win:开发环境

    • JDK

    centos7:模拟运行环境

    • JDK
    • 网络配置:
      • 桥接:相当于时有两台设备

    2. Maven

    项目管理

    版本控制

    依赖管理下载

    2.1 POM基础

    properties标签

    下的properties 自定义标签(类似设置变量)

    <spring.version>4.0.0.RELEASE</spring.version>
    
    • 1
    约定的目录结构
    Hello
        src
        ——main
        ————java		// 项目程序
        ————resources 	// 项目环境
        ——test
        ————java 		// 单元测试程序
        ————resources	// 测试环境
        pom.xml			// 总体配置文件
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9

    2.2 依赖管理

    依赖的原则
    1. 路径最短者优先
    2. 路径相同时先声明者优先

    还不行就用依赖排除后重新声明

    问:如何解决maven中的依赖冲突问题

    直接依赖、间接依赖

    • 路径最短原则:根据依赖的距离来进行判定
    依赖范围

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-X08hhdqX-1661778671688)(assets/image-20220829174929469.png)]

    2.3 仓库管理

    本地:为当前本机电脑上的所有Maven工程服务。

    远程仓库

    • 私服
    • 中央仓库:架设在Internet上,为全世界所有Maven工程服务。
    • 中央库的镜像源:各大洲的备份

    2.4 生命周期

    以下为几个比较重要的生命周期

    compile 编译项目的源代码。

    test-compile 编译测试源代码。

    package 接受编译好的代码,打包成可发布的格式,如JAR。

    install 将包安装至本地仓库,以让其它项目依赖。

    deploy将最终的包复制到远程的仓库,以让其它开发人员与项目共享或部署到服务器上运行。

  • 相关阅读:
    增强团队创新力需要打造多样性团队
    Day 06 python学习笔记
    一份Java学习笔记送给大家
    LeetCode每日一题(321. Create Maximum Number)
    Unity Debug的简单封装
    系统报错“由于找不到msvcp140.dll无法继续执行代码”的处理方法
    项目——boost搜索引擎
    化妆品展示网页设计作业 静态HTML化妆品网站 DW美妆网站模板下载 大学生简单网页作品代码 个人网页制作 学生个人网页设计作业
    【计算机网络 二 物理层】
    no python application found, check your startup logs for errors错误解决
  • 原文地址:https://blog.csdn.net/weixin_48015656/article/details/126592875
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号