Nueva versión de Onesait Platform Dataflow
Introducción
Durante varios años Onesait Platform ha contado con Streamsets Data Collector (SDC) como motor para implementar el módulo Onesait Platform Dataflow. SDC era un software open-source con un enfoque low-code para desarrollar y monitorizar flujos de datos. Durante este tiempo hemos usado con éxito esta tecnología en multitud de proyectos y productos. A mediados de 2021, Streamsets, la compañía que está detras del SDC, cambió su política de licencias y a partir de la versión 4.0, SDC no es open-source.
Debido a este cambio en la licencia, en Onesait Platform hemos creado un fork del repositorio open-source de SDC, que parte de la versión 3.23.0. Desde esta release, el equipo de Onesait Platform llevará a cabo tanto correcciones como nuevas funcionalidades. Este nuevo producto, derivado de SDC tiene el nombre de Onesait Platform Dataflow y seguirá manteniendo la licencia Apache License 2.
En cualquier caso, Onesait Platform continuará soportando Streamsets Data Collector para todos aquellos proyectos que prefieran adquirir la licencia de Streamsets. Además los pipelines definidos en la Onesait Platform Dataflow, al ser similares a los definidos en la versión SDC 3.23.0, podrán ser importados en las versiones con licencia de SDC utilizando sus capacidades para hacer Upgrade de pipelines.
Las principales motivaciones para esta decisión han sido:
Evitar el gran coste que tendría para muchos productos el tener que migrar a una nueva tecnología.
Continuar con nuestro modelo open-source sin tener que incluir una licencia nueva en las implantaciones, lo que nos haría menos competitivos.
Mayor control para mejorar la integración con el resto de nuestros módulos.
Qué incluye Onesait Platform Dataflow
Como parte del mantenimiento de Onesait Platform Dataflow se han desarrollado varias funcionalidades:
Se han incluido en el repositorio scripts y descriptores necesarios para construir las imágenes de Onesait Platoform Dataflow (OPD).
Se han publicado imágenes del dataflow en los registros Docker de Onesait Platform.
Se ha creado una nueva imagen que permite desplegar un repositorio con las librerías de componentes para cada versión de OPD. Esto permite tener localmente en las instalaciones o en un servidor centralizado todas las librerías y no tener que descargarlas de los servidores de Streamsets.
Se ha creado un nuevo site de documentación de forma que no se dependa de la documentación online de la compañía Streamsets.
Se han eliminado accesos internos a servicios de Streamsets, tales como registros de usuario, actividades de uso, etc.
Se ha adaptado la interfaz de usuario.
Nuevos cambios en el futuro
Actualmente se está trabajando en mejoras para la gestión de instancias de Onesait Platform Dataflow en clusters Kubernetes, que es el despliegue de referencia que utilizamos en Onesait Platform Dataflow. Esta mejora incluye la persistencia distribuida de los flujos.
Para el futuro se están analizando otras mejoras:
Mejora en la integración con los usuarios de Onesait Platform.
Mayor adaptación de la interfaz de usuario a los estándares de Onesait.