• Scala【集合常用方法和函数操作(下)】


    前言

            接上次(应该是很久之前写的Scala集合常用方法和函数操作(上)的内容),当时Scala差不多是过了一遍了,但是由于学习 Spark 的过程中,好多方法和函数都是 Scala 中的,而且思路基本和Scala中的集合操作是差不多的,毕竟Spark 的RDD 也可以看做是一个特殊的集合嘛(弹性分布式数据集)。

            上次写了一半,但只是学了当时用到的一些操作,一晃快两个多月过去了,最近在学习 Spark Streaming 的过程中又遇到了一些新的集合操作,比如 foldLeft、aggregate等,这次就专门来学习一下。

            还有最近情场失意,需要静下心好好学习一段时间了,唉~

    Fold、FoldLeft 和 FoldRight

    fold(z: A1)((A1,A1)=>A1):

    • fold的意思是折叠,list.fold(z)(_+_)就是从左往右或从右往左与集合内的元素挨个进行累加,因为 fold 其实底层调用的还是 foldLeft
    • 要求集合外的参数(z)类型集合内部(list)的参数类型都必须一致。

    foldLeft:

    • 以 list.foldLeft(z)(_+_)为例
    • 参数z 从左向右和集合内的元素挨个进行 op 计算。
    • 集合外的参数(z)类型集合内部(list)的参数类型都可以不一致。

    foldRight:

    • 以list.foldRight(z)(_-_)为例
    • 先翻转集合list内的元素
    • list内的第 1 个元素先与 z 进行 op(_-_)操作得到 res1
    • 再用list内的第 2 个元素与 z 进行 op(_-_)操作得到 res2
    • ... 直到list内每个元素都计算完毕
    1. object Test03_Fold {
    2. def main(args: Array[String]): Unit = {
    3. // 称作集合外的参数
    4. val list = List(1,2,3,4)
    5. // fold的底层仍然是调用的 foldLeft
    6. // 第一个参数是一个值(称作集合内的参数,必须和集合外的参数类型一致)
    7. // 第二个参数是一个函数操作op
    8. println(list.fold(5)(_+_)) //15
    9. /**
    10. * 5 + 1 = 6
    11. * 6 + 2 = 8
    12. * 8 + 3 = 11
    13. * 11 +4 = 15
    14. */
    15. // 这里的集合内参数类型可以和集合外的参数类型不一致
    16. println(list.foldLeft(5)(_-_)) //执行过程和上面的 fold 一致
    17. // 这里的集合内参数类型可以和集合外的参数类型不一致
    18. println(list.foldRight(5)(_-_))
    19. /**
    20. * 翻转集合list => (4,3,2,1)
    21. * 4 - 5 = -1 集合第一个值 4 - 初始值 5 = 结果1
    22. * 3 - (-1) = 4 集合第二个值 3 - 结果1 = 结果2
    23. * 2 - 4 = -2
    24. * 1- (-2) = 3
    25. */
    26. }
    27. }

    MapValues 和 groupBy

    mapValues:只适用于 键值对RDD 。只对键值对的值进行操作,相当于(rdd.map{case (k,v): (k,func(v))})

    groupBy:以下面代码为例,对键值对RDD进行操作后得到一个 RDD[String,List[(String,Int)]]

    1. object Test05_MapValues {
    2. def main(args: Array[String]): Unit = {
    3. val lines = List("hello spark","hello flink","hello flink")
    4. val list:Map[String,Int] = lines.flatMap(_.split(" "))
    5. .map((_, 1))
    6. .groupBy(_._1)
    7. .mapValues(_.size)
    8. for(key <- list.keySet){
    9. println("k= " + key + " v= "+list.getOrElse(key, 0))
    10. }
    11. /**
    12. * k= hello v= 3
    13. k= spark v= 1
    14. k= flink v= 2
    15. */
    16. }
    17. }

    Aggregate

    第一个参数是我们期望返回的类型,也就是意味着可以返回和我们输入数据不同的数据类型。

    第二个参数是一个函数,对于RDD而言,这个函数会把该RDD存放在本地节点的元素合并起来放到累加器,进行计算。

    第三个参数也是一个函数,它来对同一RDD存放在不同节点的计算结果的累加器进行两两合并。

    1. import scala.collection.mutable
    2. object Test02_Aggregate {
    3. def main(args: Array[String]): Unit = {
    4. val s = List(1, 2, 3, 4)
    5. /**
    6. * 需要提供3个参数:
    7. * 1.初始值(类型是我们期待返回的类型)
    8. * 2.累加器函数:把RDD中的元素合并起来放到累加器进行计算
    9. * 3.合并累加器函数: 由于每个节点在本地计算,所以需要合并不同节点累加器的结果
    10. * (0,0): 作为s的初始值 (类型是我们期待返回的类型)
    11. * (s,r): r是s的某个元素(1,2,3,4)中的一个(并行计算,每次取出的值可能是乱序的,但是结果是相同的)
    12. * (s._1 + r,s._2 + 1) => (0+1,0+1) => (1,1)
    13. * (s._1 + r,s._2 + 1) => (1+2,1+1) => (3,2)
    14. * (s._1 + r,s._2 + 1) => (3+3,2+1) => (6,3)
    15. * (s._1 + r,s._2 + 1) => (6+4,3+1) => (10,4)
    16. */
    17. val r = s.par.aggregate((0, 0))((s, r) =>(s._1 + r, s._2 + 1),
    18. (s,r) => (s._1 + r._1, s._2 + r._2))
    19. println(r) // (10,4)
    20. val lines = List("hello spark","hello flink","hello flink")
    21. var res: mutable.Map[String,Int] = lines.flatMap(_.split(" "))
    22. .aggregate((mutable.Map.empty[String,Int]))((countMap:mutable.Map[String,Int],word)=>{
    23. if(!countMap.contains(word)){
    24. countMap.put(word,1)
    25. }else{
    26. countMap.put(word,countMap(word)+1)
    27. }
    28. countMap
    29. },
    30. (map1:mutable.Map[String,Int], map2:mutable.Map[String,Int])=>{
    31. for((word,count)<-map1){
    32. if(!map2.contains(word)){
    33. map2.put(word,1)
    34. }else{
    35. map2.put(word,map2(word)+count)
    36. }
    37. }
    38. map2
    39. })
    40. val keys = res.keySet
    41. for(key <- keys){
    42. println("k= " + key + " v= "+res.getOrElse(key, 0))
    43. }
    44. /**
    45. * k= spark v= 1
    46. k= flink v= 2
    47. k= hello v= 3
    48. */
    49. }
    50. }

    getOrElse

    map.getOrElse(key,deault)

    用于 Map 数据类型,它的含义是调用 map的get(key)方法获取key对应的值,如果没有返回默认值(也就是第二个参数)。

    1. object Test04_GetOrElse {
    2. def main(args: Array[String]): Unit = {
    3. /**
    4. * getOrElse()主要就是防范措施,如果有值,那就可以得到这个值,如果没有就会得到一个默认值.
    5. */
    6. val map: Map[String,Int] = Map("a"->1,"b"->2)
    7. println(map.getOrElse("a",0)) // 1
    8. println(map.getOrElse("b",0)) // 2
    9. println(map.getOrElse("c",3)) // 3
    10. }
    11. }

  • 相关阅读:
    leetcode 32. 最长有效括号
    多线程系列(十三) -一文带你搞懂阻塞队列
    如何使用 JavaScript 读取文件
    docker虚拟网桥和业务网段冲突处理
    利用三次样条插值调整鱼眼扭曲程度
    Goby 漏洞发布|深信服下一代防火墙 loadfile.php 文件读取漏洞
    less 基础语法
    SpringBoot后端初始框架搭建——基于SpringBoot和Vue的后台管理系统项目系列博客(四)
    CSV文件存储
    mysql技术文档--mysql锁专精--锁全解!!!
  • 原文地址:https://blog.csdn.net/m0_64261982/article/details/134062836