5.1 RDD 编程模型
在 Spark 中,RDD 被表示为对象,通过对象上的方法调用来对 RDD 进行转换。
经过一系列的transformations
定义 RDD 之后,就可以调用 actions 触发 RDD 的计算
action
可以是向应用程序返回结果(count
, collect
等),或者是向存储系统保存数据(saveAsTextFile
等)。
在Spark中,只有遇到action
,才会执行 RDD 的计算(即延迟计算),这样在运行时可以通过管道的方式传输多个转换。
要使用 Spark,开发者需要编写一个 Driver 程序,它被提交到集群以调度运行 Worker
Driver 中定义了一个或多个 RDD,并调用 RDD 上的 action,Worker 则执行 RDD 分区计算任务。