Spark-cluster Operator

概述

此项目利用kubernetes所提供的CRD特性,实现了自定义的Spark-cluster Operator。使用此Operator,用户无需对Hadoop/Spark集群进行繁琐且易错的环境配置,而只需使用若干参数,来对所期望的Hadoop/Spark集群进行描述,Operator便可自动在kubernetes平台上部署满足条件且可用的Hadoop/Spark集群。

系统介绍

Spark-cluster Operator部署的Hadoop/Spark集群,同时对Hadoop和Spark环境进行了配置,且支持两种任务的运行(Hadoop版本为2.7.2,Spark版本为2.4.0)。

使用终端命令行操作集群

获得Master终端

Spark-cluster Operator为用户提供了两种进入集群Master节点的方式,使得用户可以通过终端命令行来对部署好的集群进行操作:

示例操作

用户通过上述的方法获得集群Master节点的终端,由于Operator已经完成了集群中对于Hadoop/Spark的若干环境配置(对应Home目录为$HADOOP_HOME和$SPARK_HOME),因此下面将解释相关脚本,然后直接使用hdfs等命令,来演示几种基础简单的示例操作:

API介绍