码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 大数据技术原理与应用


    大数据技术原理与应用

    • 课程目标
    • Python基础
      • 格式化
      • v3.6支持f-string
      • 不用index
      • split函数
      • replace函数
      • list range type
      • range
      • Python在循环结构中多了else子句 同if
      • 何时需要用try语句抛出异常
      • 字符串管理
        • len
        • replace
        • split
      • 退出界面控制
    • 组合数据类型
      • 集合特性
        • 一般转化为列表再输出
      • 使用列表效率最低下,使用for循环效率较低
      • 字符串是不可修改的,如若修改字符串,实际上得到的是新的字符串
      • 直接改变原列表的顺序
      • 保留原列表的顺序,生成一个新的已排序的列表
      • 自定义排序
      • []列表
      • ()集合
      • {} 字典 唯一&无序 通过键索引
        • keys values items "k"
      • IDLE Shell 3.8.8
      • 官方导包
      • -i 选择镜像网址
        • import jieba
        • cut lcut
      • iter 迭代器
      • 函数
      • sum对字符串无效
      • *b 解包 神经网络结构 不支持组合对象
      • *b 示例
      • 没法对一个值求平均值,values必须为可迭代对象
      • pass/ continue 抛出异常处理方式
      • pass continue 执行区别
      • 对参数的个数不固定,相当于元组 *values
      • 参数的混合传递
      • 不确定参数个数 打包
      • 解包
      • 递归深度问题
        • C 空间复杂度高 16层
        • Python 上千层 使用递归内存开销过高
    • 列表推导式
      • 索引前移现象
      • 写程序:用循环实现
      • 使用列表推导式
      • 对字典键值对排序
        • d=list(c)
      • d=list(c.items())
      • d=[]
      • d.sort()
      • d.sort(key=lambda x:x[1],reverse=True)
      • 匿名函数
        • Comparing
        • 表达式的扩展格式
      • fibonacci
    • 第一篇 大数据基础
      • 第1章 大数据概述
        • 大数据概念和影响
          • TERA PETA EXA ZETTA YOTTA
          • 批处理计算 流计算 图计算
          • 相关而非因果
          • 全样而非抽样
          • 效率而非精确
        • 新生“大数据”
        • 数据湖(data lake)、数据海、大数据(big data)
        • 列间空调:仅仅对服务器降温
        • HPC
        • 绿色计算
        • 1.5.1 云计算
          • IaaS(Infrastructure as a Service) 基础设施即服务
          • PaaS(Platform as a Service) 平台即服务
          • SaaS(Software as a Service) 软件即服务
          • 虚拟化 多租户
            • 虚拟化:Hadroop Linux 虚拟机 Windows系统 硬件
        • Docker
      • workspace
        • 东数西算(a strategy is in full swing to channel more computing resources from the eastern areas to the less developed western regions in China)
        • IoT(The Internet of Thing)
          • 物联网的关键技术 识别技术&感知技术
        • 宽带中国战略 Broadband China Strategy
          • 甘肃 风电&火电 sustainability
        • 大数据继承自云计算
        • 第三次信息化浪潮(15年一次)
          • 第四次信息化浪潮 人工智能
          • 萌芽 发展 控制 继承(美国学者诺兰)(PC 互联网 移动互联)
          • 2000 云移物大
          • 2025 云移物大人
          • 2007 智能机 苹果 安卓
      • 第2章 大数据处理架构 Hadoop
      • 第3章 分布式文件系统HDFS
      • 第4章 分布式数据库HBase
      • 第5章 NoSQL数据库
      • 第6章 云数据库
      • 第7章 MapReduce
      • 第8章 Hadoop再探讨
      • 第9章 Spark
      • 第10章 流计算
      • 第11章 图计算
      • 第12章 数据可视化
      • 第13章 大数据在互联网领域的应用
      • 第14章 大数据在生物医学领域的应用
      • 第15章 大数据的其他应用

    课程目标

    在这里插入图片描述

    HPC()
    HPC是高性能计算(High Performance Computing)机群的简称。指能够执行一般个人电脑无法处理的大资料量与高速运算的电脑,其基本组成组件与个人电脑的概念无太大差异,但规格与性能则强大许多。现有的超级计算机运算速度大都可以达到每秒一兆(万亿,非百万)次以上。“超级计算”(supercomputing)这名词第一次出现,是在1929年《纽约世界报》关于IBM为哥伦比亚大学建造大型报表机(tabulator)的报道。
    HDFS
    MPFS

    OLAP
    OLTP
    spark streaming
    structure streaming

    Python基础

    在这里插入图片描述
    简化代码(逆向索引)正逆向思维结合
    在这里插入图片描述
    REVERSE

    [::-1]
    
    • 1

    f string
    python 3.4 3.5
    简洁

    IDLE Shell 3.8.8

    格式化

    %在Hadoop中运用较多

    用顺序表示
    用占位符名称标识表示
    {ip}:{port}
    不是变量,ip和port都是占位符
    后面的IP和port才是变量

    v3.6支持f-string

    语法报错:Python版本低
    email()

    不用index

    字符串.find
    find返回-1
    index抛出异常
    try except

    java try catch

    startswith
    endswith

    split函数

    在这里插入图片描述

    .csv (数据文件)
    excel文件在苹果下会出错
    ,分割
    常见

    replace函数

    在这里插入图片描述

    上一行代码以:结束,下一行需要缩进。两条规则都要遵守
    多分支:上可包含下,下不可包含上
    分支嵌套:注意缩进的问题

    list range type

    range是一个对象,占用资源少
    而list会占用内存,
    所以用range函数即可
    在这里插入图片描述

    range

    在这里插入图片描述
    在这里插入图片描述
    f-string 格式化字符串 不能少打f
    python中的输出函数是print

    Python在循环结构中多了else子句 同if

    else 当条件不成立,退出循环
    同 break 退出循环
    else字句是正常退出循环的奖励
    非正常退出break 不执行else语句

    没有break语句,一定会执行else语句,删除else:程序不受任何影响

    何时需要用try语句抛出异常

    1. 需要人机交互的,需要用户介入的,用户操作在机器掌握之外
    2. 引用他人的包,不能100%把控的代码,需要try,使用其他人的不安全的、不可靠的模块
      尽量在pypi.orp官网找
    3. 跨层、跨域,访问数据库(数据库服务器和应用服务器网线断了(网络),数据器服务器挂了(服务器),数据库在更新升级,数据库版本对不上(命名等))以上四种情况

    字符串管理

    len

    #直接在len函数中引入字符串内容获得其长度,然后打印出来

    print(len('This is a circle!'))
    
    • 1

    replace

     source_string.replace(old_string, new_string)
    
    • 1
    print(source_string.replace('day','time'))
    
    • 1

    split

    退出界面控制

    Ctrl+Alt+Delete

    组合数据类型

    序列类型 str tuple list
    集合类型 set
    映射类型 dict

    集合特性

    互异+确定+无序

    一般转化为列表再输出

    使用列表效率最低下,使用for循环效率较低

    在这里插入图片描述

    字符串是不可修改的,如若修改字符串,实际上得到的是新的字符串

    在这里插入图片描述列表修改后地址不变,用实例来理解

    len 类似于SQL中count功能:计数

    append追加
    insert插入

    pop指定删除
    remove删除首元素

    reverse反转

    sort元素必须是同一类型&&可比较大小
    max min sort不具备可比较性 抛出异常

    直接改变原列表的顺序

    保留原列表的顺序,生成一个新的已排序的列表

    自定义排序

    results.sort(key=lambda x:x[1],reverse=True)
    
    • 1
    print(sorted(results,lambda x:x[1],reverse=True))
    
    • 1

    在这里插入图片描述

    []列表

    ()集合

    {} 字典 唯一&无序 通过键索引

    字典的元素也是独一无二的
    键值对
    后键值对覆盖前键值对

    keys values items “k”

    IDLE Shell 3.8.8

    修改字体大小
    Options->Configure IDLE

    官方导包

    pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple

    0.42.1

    -i 选择镜像网址

    豆瓣是http,需要配置参数
    有清华、中科大、豆瓣、阿里等镜像

    import jieba

    cut lcut

    cut
    lcut 内存开销小

    
    
    • 1

    iter 迭代器

    1. 将List转化为迭代器
    IteratorList=iter(List)
    
    • 1
    1. 用next()函数遍历迭代器IterList的代码
    num=next(IteratorList)
    
    • 1

    按规则
    IterList=iter(List)
    num=next(IterList)

    函数

    在这里插入图片描述
    Python是动态语言,不需要声明函数的类型,参数的类型
    Python无多态

    元组和列表有顺序,集合无顺序
    return语法结束判断

    sum对字符串无效

    def avg(*values):
    	counts=0
    	sum=0.0
    	for c in values:
    		try:
    			sum+=float(c)
    			counts+=1
    		except ValueError:
    			pass
    	return sum/counts
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    def avg(*values):
    	counts=0
    	sum=0.0
    	for c in values:
    		try:
    			sum+=float(c)
    			counts+=1
    		except ValueError:
    			continue//这条语句不执行,下条语句还要继续执行。
    	return sum/counts
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10

    avg.py

    def avg(*values):
    	counts=0
    	sum=0.0
    	for c in values:
    		try:
    			sum+=float(c)
    			counts+=1
    		except ValueError:
    			continue//跳过此次循环
    	return sum/counts
    
    b=avg(12,56,1,"12.9","AS",6)
    print(f"{b:.3f}")
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13

    *b 解包 神经网络结构 不支持组合对象

    *b 示例

    在这里插入图片描述

    没法对一个值求平均值,values必须为可迭代对象

    pass/ continue 抛出异常处理方式

    pass continue 执行区别

    continue表示跳过此次循环,pass表示当前这条语句不执行,下条语句还要继续执行。

    对参数的个数不固定,相当于元组 *values

    参数的混合传递

    在这里插入图片描述
    一般见到的函数基本上是参数名,很少有一起的

    不确定参数个数 打包

    在这里插入图片描述

    解包

    在这里插入图片描述

    递归深度问题

    C 空间复杂度高 16层

    Python 上千层 使用递归内存开销过高

    列表推导式

    索引前移现象

    在这里插入图片描述

    写程序:用循环实现

    在这里插入图片描述

    使用列表推导式

    在这里插入图片描述

    对字典键值对排序

    在这里插入图片描述

    d=list©

    在这里插入图片描述

    d=list(c.items())

    在这里插入图片描述

    d=[]

    for item in c.items():
    d.append(item)
    在这里插入图片描述

    d.sort()

    d
    在这里插入图片描述
    可以看到有数字1855参与排序,在a开头的字母前

    d.sort(key=lambda x:x[1],reverse=True)

    lambda x:x[1]中x[1]意味着value,即以词频作为排序对象,reverse设置为降序
    d
    在这里插入图片描述
    以词频排序

    匿名函数

    如果函数在Python自带函数库中(关键词),则可以使用其缩写形式
    如国前文中已经自定义函数,在后面调用该函数时也可以使用其缩写形式

    Comparing

    a.sort(key=lambda x:str(x))
    a.sort(key=str)
    在这里插入图片描述
    在这里插入图片描述

    表达式的扩展格式

    在这里插入图片描述
    其在数据库编程中很常见

    fibonacci

    def fibonacci(position):
    	if position<2:
    		return 1
    	previous_but_one=1
    	previous=1
    	result=2
    	for n in range(2,position):
    		previous_but_one=previous
    		previous=result
    		result=previous+previous_but_one
    		return result
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11

    第一篇 大数据基础

    第1章 大数据概述

    大数据概念和影响

    TERA PETA EXA ZETTA YOTTA
    批处理计算 流计算 图计算
    相关而非因果
    全样而非抽样
    效率而非精确

    数据类型多样

    新生“大数据”

    数据湖(data lake)、数据海、大数据(big data)

    列间空调:仅仅对服务器降温

    HPC

    绿色计算

    1.5.1 云计算

    公有云 私有云 混合云

    IaaS(Infrastructure as a Service) 基础设施即服务
    PaaS(Platform as a Service) 平台即服务
    SaaS(Software as a Service) 软件即服务
    虚拟化 多租户
    虚拟化:Hadroop Linux 虚拟机 Windows系统 硬件

    Docker

    Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中,然后发布到任何流行的 Linux或Windows操作系统的机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。
    “东数西算”工程的实施,一是有利于提升国家整体算力水平,通过全国一体化的数据中心布局建设,扩大算力设施规模,提高算力使用效率,实现全国算力规模化集约化发展。二是有利于促进绿色发展,加大数据中心在西部布局,将大幅提升绿色能源使用比例,就近消纳西部绿色能源,同时通过技术创新、以大换小、低碳发展等措施,持续优化数据中心能源使用效率。三是有利于扩大有效投资,数据中心产业链条长、投资规模大、带动效应强。通过算力枢纽和数据中心集群建设,将有力带动产业上下游投资。四是有利于推动区域协调发展,通过算力设施由东向西布局,将带动相关产业有效转移,促进东西部数据流通、价值传递,延展东部发展空间,推进西部大开发形成新格局。

    workspace

    一台主机序列化为几台虚拟机
    多台服务器序列化为虚拟资源池(按需分配)

    东数西算(a strategy is in full swing to channel more computing resources from the eastern areas to the less developed western regions in China)

    IoT(The Internet of Thing)

    物联网的关键技术 识别技术&感知技术

    宽带中国战略 Broadband China Strategy

    甘肃 风电&火电 sustainability

    大数据继承自云计算

    第三次信息化浪潮(15年一次)

    第四次信息化浪潮 人工智能
    萌芽 发展 控制 继承(美国学者诺兰)(PC 互联网 移动互联)
    2000 云移物大
    2025 云移物大人
    2007 智能机 苹果 安卓

    第2章 大数据处理架构 Hadoop

    第3章 分布式文件系统HDFS

    第4章 分布式数据库HBase

    第5章 NoSQL数据库

    第6章 云数据库

    第7章 MapReduce

    第8章 Hadoop再探讨

    第9章 Spark

    第10章 流计算

    第11章 图计算

    第12章 数据可视化

    第13章 大数据在互联网领域的应用

    第14章 大数据在生物医学领域的应用

    第15章 大数据的其他应用

  • 相关阅读:
    修复版动态视频壁纸微信小程序源码下载,支持多种类型流量主收益
    SQL Server 临时对象缓存
    web网页设计期末课程大作业 基于HTML+CSS+JavaScript制作八大菜系介绍舌尖上的美食5页
    JS 中防抖函数形成闭包的相关处理及思考
    Django笔记二十九之中间件介绍
    Electron和vue3集成(推荐仅用于开发)
    解决 pip 安装第三方包时因 SSL 报错
    type=“text/javascript“表示什么意思
    ROS中的分布式通信
    Python处理Excel表格
  • 原文地址:https://blog.csdn.net/zhanghanqmx/article/details/126586831
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号