版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
官方网址:http://spark.apache.org/、https://databricks.com/spark/about
上篇文章介绍了Spark的一些重要函数,也是企业开发中比较常用的函数,有没看的小伙伴可以去了解下。
RDD中的函数有很多,不同业务需求使用不同函数进行数据处理分析,下面仅仅展示出比较常用的函数使用,更多函数在实际中使用体会,多加练习理解。
对RDD中的每一个元素进行操作并返回操作的结果。
函数中返回True的被留下,返回False的被过滤掉。
对RDD中的每一个元素进行先map再压扁,最后返回操作的结果。
数学集合中操作,类似Scala集合类Set中相关函数,注意类型要一致。
对RDD中元素进行去重,与Scala集合中distinct类似。
从RDD中获取某些元素,比如first为第一个元素, take为前N个元素, top为最大的N个元素。
针对RDD中数据类型为KeyValue对时,获取所有key和value的值,类似Scala中Map集合。
mapValues表示对RDD中的元素进行操作,Key不变,Value变为操作之后。
当RDD中数据类型为Key/Value对时,转换为Map集合。
取分区中对应的数据时,还可以将分区的编号取出来,这样就可以知道数据是属于哪个分区的。
通过一些函数的练习,帮助我们更好的理解函数,下篇文章将给小伙伴介绍下RDD的持久化,RDD如何缓存?什么时间释放缓存?等等。