spark算子讲解 - 码农知识堂 - 文章详情页

spark算子讲解

1 背景

写spark 程序重要特性就是基于算子开发

每一个算子都有自己的特性和用途

某一类算子是性能瓶颈的所在

2 分类

spark 算子有两种主要的分类

3 Transformation

3.1 简介

  用来对RDD进行转化

  每一次 Transformation 操作都会产生新的RDD

这个操作时延迟执行的

4 Action

4.1 简介

用来触发RDD的计算；得到相关计算结果或者将结果保存的外部系统中

5   两者特点总结

Transformation 是异步的，并不会影响性能

返回结果int、double、集合（不会返回新的RDD），遇到 Action 操作时，开始从血缘关系（lineage）源头开始，进行物理的转换操作所以Action的算子是消耗性能的
相关阅读:
linux--进程--system与popen函数
 河北科技大学计算机考研资料汇总
 C++ Memory Order 理解
 CVPR2022 | 可精简域适应
 NoSql的优势在哪里，NoSql是什么
 腾讯云GPU云服务器计算型GN7有哪些特点？适用于哪些场景？
学习react 笔记一
 【已解决】PyCharm里的黄色波浪线
 ThreadLocal 线程隔离怎么做到的
 12月2日：thinkphp中数据库完结
原文地址：https://blog.csdn.net/an13654067079/article/details/126144067