DataFrame API入门操作及代码展示

文章目录

DataFrame风格编程

DataFrame支持两种风格进行编程
- DSL风格
- SQL风格
DSL称之为领域特定语言，其实就是指DataFrame特有的API，DSL风格意思就是以调用API的方式来处理Data。
SQL风格就是使用SQL语句处理DataFrame的数据。

DSL风格编程代码示例

SQL风格编程代码示例

Fucntions包

PySpark提供了一个函数包：pyspark.sql.functions，这个包里提供了一些列的计算函数供SparkSQL使用最常见的有我们所熟悉的split和explode方法。
导入这个包我们可以通过以下代码来实现：

  from pyspark.sql import functions as F
1

这些功能函数的返回值多数都是column对象。

基于SparkSQL的WordCount代码编写

# coding : utf8
from pyspark.sql import SparkSession
from pyspark.sql import functions as F

if __name__ == '__main__':
    ss = SparkSession.builder \
        .appName("test") \
        .master("local[*]") \
        .getOrCreate()
    sc = ss.sparkContext

    # TODO: 1 SQL风格处理
    rdd = sc.textFile("hdfs://node1:8020/Test/WordCount.txt") \
        .flatMap(lambda line: line.split(" ")) \
        .map(lambda x: [x])

    df1 = rdd.toDF(["words"])
    df1.createOrReplaceTempView("words")

    ss.sql("SELECT words, COUNT(*) AS cnt FROM words GROUP  BY words ORDER  BY cnt DESC").show()


    # TODO: 2 DSL风格处理
    df2 = ss.read.format("text") \
        .load("hdfs://node1:8020/Test/WordCount.txt")

    # withColumn方法
    # 方法功能: 对已存在的列进行操作, 返回一个新的列, 如果名字和老列相同, 那么替换, 否则作为新列存在
    df3 = df2.withColumn("value", F.explode(F.split(df2["value"], " ")))
    df3.groupBy("value").count() \
        .withColumnRenamed("value", "words") \
        .withColumnRenamed("count", "cnt") \
        .orderBy("cnt", ascending=False).show()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33

结果展示：

相关阅读:
Jetpack Compose 中的状态管理
【ASM】字节码操作转换已有的类记录方法运行时间
goroutine学习
【Java】List、Set、数据结构、Collections
SQL获取正数第N个或倒数第N个数据
Understanding the Users and Videos by Mining a Novel Danmu Dataset
半导体二极管
【ROS进阶篇】第一讲常用API介绍
Visual Studio 调试时加载符号慢
【二叉树】链式结构的一些操作实现

原文地址：https://blog.csdn.net/sinat_31854967/article/details/128132819

DataFrame API入门操作及代码展示

文章目录

DataFrame风格编程

DSL风格编程代码示例

相关API

相关代码示例

SQL风格编程代码示例

相关API

相关代码

Fucntions包

基于SparkSQL的WordCount代码编写