本节讲解使用Spark SQL实现经典的单词计数程序WordCount。数据来源仍然是HDFS中的/input/words.txt文件,该文件内容如下:
- hello hadoop
- hello java
- hello scala
- java
具体操作步骤如下:
1. 新建Maven项目
在Maven项目的pom.xml中添加Spark SQL的Maven依赖库,代码如下:
-
- <dependency>
-
- <groupId>org.apache.sparkgroupId>
-
- <artifactId>spark-core_2.12artifactId>
-
- <version>3.2.1version>
-
- dependency>
-
-
- <dependency>
-
- <groupId>org.apache.sparkgroupId>
-
- <artifactId>spark-sql_2.12artifactId>
-
- <version>3.2.1version>
-
- dependency>
2. 编写程序