Un Vistazo al DataRefiner

Disponible en la versión 2.2.0-hyperblast

Introducción

Con el objetivo de incorporar nuevas capacidades de Data Governance en Plataforma se ha incluido un nuevo módulo, denominado DataRefiner accesible desde la entrada de menú ANALYTICS TOOLS.

 

El objetivo de este componente es “refinar” la información que se carga o que se extrae de plataforma. Para esto permite:

  • Que un usuario final cargue desde una UI datos desde diversos lugares, por ejemplo desde su propio PC, desde una URL o bien desde información residente en la propia plataforma

  • La herramienta permite cargar datos en los principales formatos, entre ellos Excel, XML, JSON, CSV,…

  • El usuario puede trabajar con estos datos con un interfaz “Excel-like” realizar un perfilado de los datos, incluyendo limpieza, mejora, reestructuración o conciliación de estos.

  • Los datos “refinados” podrán descargarse como ficheros o bien cargarse en plataforma como Ontología.

También permitetrabajar con datos almacenados en plataforma como Ontologías para procesarlos, limpiarlos,.. y generar ficheros desde ellos. Para eso la herramienta ofrece un interfaz Excel-like

Este módulo está contruido sobre Open Refine, una herramienta Java open-source (licencia BSD-3), más info sobre ella aquí: La tecnología detrás del DataRefiner: Open Refine

Capacidades del módulo

En el módulo se contempla:

  • Importación de ficheros en diversos formatos y orígenes

  • Exportación de datos procesados a diferentes formatos

  • Importar datos desde una Ontología: en esta sección podremos conectarnos con una instancia de plataforma, seleccionar una query y cargar estos datos en la herramienta:

 

  • Exportar datos ya procesados (limpiados, agregados,…) a una Ontología eligiendo una instancia de Plataforma: trabajando en formato JSON de plataforma, o también exportarla como fichero JSON a local :

  • (EN ROADMAP) La posibilidad de aplicar transformaciones a un fichero de forma manual y luego automatizar la aplicación de estas mismas reglas sobre otros ficheros (por ejemplo podría trabajar sólo con datos de un mes y luego aplicarlos a un fichero anual) a través de un componente DataFlow:

 

  • Seguridad a nivel de usuario: cada usuario podrá ver sólo sus proyectos