Spark Scala当中reduceByKey的用法

来源：cnblogs　　作者：海中一神兽　　时间：2019/8/15 10:10:44　　对本文有异议

[学习笔记]

/*reduceByKey(function)
reduceByKey就是对元素为KV对的RDD中Key相同的元素的Value进行function的reduce操作(如前所述)，因此，Key相同的多个元素的值被reduce为一个值，然后与原RDD中的Key组成一个新的KV对。

reduceByKey(_+_)是reduceByKey((x,y) => x+y)的一个简洁的形式
*/

    val rdd08 = sc.parallelize(List((1, 1), (1, 4),(1, 3), (3, 7), (3, 5)))
    val rdd08_1 = rdd08.reduceByKey((x, y) => x + y)
    println("reduceByKey 用法 " + rdd08_1.collect().mkString(","))

    sc.stop()
}

def myunion(rdd05: RDD[Int], rdd06: RDD[Int]): Unit = {
    val res: RDD[Int] = rdd05.union(rdd06)
  collect: 收集一个弹性分布式数据集的所有元素到一个数组中,这样便于我们观察，毕竟分布式数据集比较抽象。Spark的collect方法，是Action类型的一个算子，会从远程集群拉取数据到driver端。最后，将大量数据
汇集到一个driver节点上，将数据用数组存放，占用了jvm堆内存，非常用意造成内存溢出，只用作小型数据的观察。*/
    val arr = res.collect();
    println("arr(0) is " + arr(0) + " arr(2) is " + arr(2) + " arr(4) is " + arr(4));
}
}

文章转载自原文：https://blog.csdn.net/qq_44596980/article/details/93311813

原文链接：http://www.cnblogs.com/haima1949/p/11353998.html

友情链接：直通硅谷　点职佳　北美留学生论坛