...
Mediante el uso de SparkLauncher vamos a crear una API que nos permita seleccionar el proceso a lanzar (lo subirá subido a MinIO) y los parámetros más usuales configurables en runtime para Spark (nombre del proceso, uso de recursos, etc.).
Subimos a nuestro repositorio de objetos el JAR a ejecutar:
...
Lanzamos la ejecución desde la API con la parametrización necesaria:
...
Y el proceso se lanzará en el cluster:
...
También tendremos en futuras versiones la posibilidad de configurar el módulo de Notebooks para que lance sus procesos Spark contra el cluster.
...
Creación de perfiles de ejecución: Permitir que los administradores asignen perfiles de recursos (ram/cores en workers/executors) y los asignen a los usuarios analytics que lancen los procesos para poder controlar el uso de recursos del cluster.
Control del ciclo de vida de procesos Spark: Al estilo de lo que ya está disponible para microservicios, queremos poder ofrecer a los usuarios la posibilidad de gestionar el ciclo de vida de sus procesos Spark, desde su desarrollo (integrándolo en Gitlab), despligue (compilación desde Jenkins), subida a MinIO y ejecución en el propio cluster de Spark, de manera sencilla desde el ControlPanel.
Conexión con otros cluster de Spark
Integración con Notebooks de plataforma