Pyspark案例综合（数据计算）

数据计算

map方法

map算子

map算子（成员方法）接受一个处理函数，可用lambda快速编写，对RDD内的元素一一处理，返回RDD对象

链式调用

对于返回值是新的RDD的算子，可以通过链式调用的方式多次调用算子

"""
演示RDD的map成员方法的使用
"""
from pyspark import SparkConf, SparkContext
import os
os.environ['PYSPARK_PYTHON'] = "C:/Microsoft/WindowsApps/python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)

# 准备一个RDD
rdd = sc.parallelize([1, 2, 3, 4, 5])
# 通过map方法将全部数据都乘以10
# def func(data):
#     return data * 10

rdd2 = rdd.map(lambda x: x * 10).map(lambda x: x + 5)

print(rdd2.collect())
# (T) -> U
# (T) -> T

# 链式调用
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

flatMap方法

flatmap方法用于解除嵌套操作。

"""
演示RDD的flatMap成员方法的使用
"""
from pyspark import SparkConf, SparkContext
import os
os.environ['PYSPARK_PYTHON'] = "C:/Microsoft/WindowsApps/python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)

# 准备一个RDD
rdd = sc.parallelize(["itcast 666", "777 itcast", "python 666"])

# 需求，将RDD数据里面的一个个单词提取出来
rdd2 = rdd.flatMap(lambda x: x.split(" "))
print(rdd2.collect())
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

在这里插入图片描述

相关阅读:
DevOps（八）Jenkins的Maven和Git插件
计算机组成原理_Cache写策略
IIC总线概述和通信时序代码详细图文解析
护眼台灯哪个牌子好？目前比较好用的护眼台灯款式推荐
成都瀚网科技有限公司：抖音怎么绑定抖音小店才好？
post请求同时上传文件并传递其他参数的前后端写法
95后们，为什么你借不到钱了？
&2_PyTorch神经网络基础
几种单例模式
事件溯源（Event Sourcing）和命令查询责任分离（CQRS）经验

原文地址：https://blog.csdn.net/weixin_51293134/article/details/132833790