ClusterManager负责资源管理,比如YARN。
Driver负责向资源管理器申请资源,资源也就是Worker节点。
之前一直以为Driver等同于Master,其实Driver只是拥有Main方法入口的那个节点,概念上跟Executor对应。另一组对应关系是Master跟Worker对应。
提交任务时,如果是Client模式,则Driver就运行在Client端;如果是Cluster模式,则Driver运行在某个Worker节点上。
当申请到资源之后,Driver应该直接分发任务到各个Executor,因此,在程序运行期间,Driver是必须要保护活的。

另外一个心得是:HDFS作为分布式文件系统,YARN作为分布式资源调度器,配合分布式计算框架无论是MR还是Spark,构成的就是一个分布式的VM,这样的架构跟之前设想的完美契合!
网友评论