Un vistazo al DataFlow

Este módulo permite de forma visual crear y configurar flujos de datos entre orígenes y destinos tanto para procesos tipo ETL/ELT como flujos en Streaming, incluyendo en estos flujos transformaciones y procesos de calidad del dato.

 

Vemos un par de ejemplos:

  • Ingesta hacia Hadoop del tail de un fichero con proceso de eliminación de campos:

  • Ingesta desde un endpoint REST y carga hacia el Semantic DataHub de plataforma con proceso de calidad del dato:

 

  • Ofrece una gran cantidad de conectores para comunicaciones específicas, tanto de entrada como de salida, además de procesadores (en el Portal del Desarrollador de Plataforma se pueden ver todos los conectores: http://bit.ly/2rwWZ1N ).

Entre los principales conectores del Dataflow podemos encontrar conectores Big Data con Hadoop, Spark, FTP, Ficheros, Endpoint REST, JDBC, BD NoSQL, Kafka, Servicios Cloud de Azure, AWS, Google,…

  • El componente integrado en plataforma es el software open-source StreamSets DataFlow (https://streamsets.com) sobre el que se han construido diversos conectores para comunicar con la plataforma:

  • Toda la creación, desarrollo, despliegue y monitorización de los flujos se realiza desde la consola web de la plataforma (Control Panel):

  • Listado de DataFlows por usuario con rol Administrador (puede ver flujos del resto de usuarios):

  • DataFlow en fase de desarrollo:

  • DataFlow en ejecución:

  • Depuración de un DataFlow:

  • Completamente integrado con las principales tecnologías Big Data, tanto HDFS, HIVE, como Spark , Kafka, SparkSQL,.. permitiendo manejarlas de forma sencilla y centralizada:

Además de conectores en ámbitos como IoT (OPC, CoAP, MQTT), Redes Sociales,…