3.2 Standalone 模式运行机制
Standalone 集群有 2 个重要组成部分,分别是:
Master(RM):是一个进程,主要负责资源的调度和分配,并进行集群的监控等职责;
Worker(NM):是一个进程,一个 Worker 运行在集群中的一台服务器上,主要负责两个职责,
- 一个是用自己的内存存储 RDD 的某个或某些 partition
- 另一个是启动其他进程和线程(Executor),对 RDD 上的 partition 进行并行的处理和计算。
根据 driver
的位置不同, 也分 2 种:
3.2.1 Standalone Cluster 模式
在Standalone Cluster模式下,任务提交后,Master会找到一个 Worker 启动Driver。
Driver启动后向Master注册应用程序,Master根据 submit 脚本的资源需求找到内部资源至少可以启动一个Executor 的所有Worker,然后在这些 Worker之间分配Executor,Worker上的Executor启动后会向Driver反向注册,所有的 Executor 注册完成后,Driver 开始执行main函数,之后执行到Action算子时,开始划分 tage,每个 Stage 生成对应的taskSet,之后将 Task 分发到各个 Executor 上执行。
3.2.2 Standalone Client 模式
在 Standalone Client 模式下,Driver 在任务提交的本地机器上运行。
Driver启动后向 Master 注册应用程序,Master 根据 submit 脚本的资源需求找到内部资源至少可以启动一个Executor 的所有 Worker,然后在这些 Worker 之间分配 Executor,Worker 上的 Executor 启动后会向Driver反向注册,所有的Executor注册完成后,Driver 开始执行main函数,之后执行到Action算子时,开始划分Stage,每个Stage生成对应的TaskSet,之后将Task分发到各个Executor上执行。