SPARKSQL3.0-DataFrameAPI与spark.sql()区别源码分析

SPARKSQL3.0-DataFrameAPI与spark.sql()区别源码分析

 一、前言：

阅读本节需要先掌握spark-sql内部执行的基本知识：

SessionState

Unresolved阶段

Analyzer阶段中queryExecution的介绍

二、区别

spark.sql的执行顺序为: sql字符串 -> antlr4解析成AST语法树 -> unreolved解析成logicalPlan -> Analyzer解析 -> Optimizer优化 -> 后续物理执行计划

DataFrame执行顺序: 根据api直接构建logicalPlan -> 根据调用不同的api嵌套成新的logicalPlan【部分函数包含Analyzer解析】 -> action算子触发Optimizer优化 -> 后续物理执行计划

可以看出dataFrameAPI 和 spark.sql 的【Optimizer优化 -> 后续物理执行计划】完全一致；

而dataFrameAPI的Analyzer阶段是在调用select等函数时直接触发Analyzer阶段，下面有详细过程

两者唯一的区别是data
相关阅读:
QOS技术
 C++Qt开发——Linguist语言家
 iOS 组件化之使用 Cocoapods 创建本地 Pod
ansible常用运维命令-基于centos8_ansible2.12.7_秘钥方式连接
 C++ 动态库热加载
 基于抗冠状病毒优化（ACVO）算法求解单目标优化问题附matlab代码
 PHP程序员需要注意的代码规范PSR有哪些？
中国金属通报杂志中国金属通报杂志社中国金属通报编辑部2022年第4期目录
 flutter系列之:在flutter中使用相机拍摄照片
 基于Dockerfile创建镜像
原文地址：https://blog.csdn.net/qq_35128600/article/details/127979242

一、前言：

二、区别