Un Vistazo al DataRefiner
Disponible en la versión 2.2.0-hyperblast
Introducción
Con el objetivo de incorporar nuevas capacidades de Data Governance en Plataforma se ha incluido un nuevo módulo, denominado DataRefiner accesible desde la entrada de menú ANALYTICS TOOLS.
El objetivo de este componente es “refinar” la información que se carga o que se extrae de plataforma. Para esto permite:
Que un usuario final cargue desde una UI datos desde diversos lugares, por ejemplo desde su propio PC, desde una URL o bien desde información residente en la propia plataforma
La herramienta permite cargar datos en los principales formatos, entre ellos Excel, XML, JSON, CSV,…
El usuario puede trabajar con estos datos con un interfaz “Excel-like” realizar un perfilado de los datos, incluyendo limpieza, mejora, reestructuración o conciliación de estos.
Los datos “refinados” podrán descargarse como ficheros o bien cargarse en plataforma como Ontología.
También permitetrabajar con datos almacenados en plataforma como Ontologías para procesarlos, limpiarlos,.. y generar ficheros desde ellos. Para eso la herramienta ofrece un interfaz Excel-like
Este módulo está contruido sobre Open Refine, una herramienta Java open-source (licencia BSD-3), más info sobre ella aquí: La tecnología detrás del DataRefiner: Open Refine
Capacidades del módulo
En el módulo se contempla:
Importación de ficheros en diversos formatos y orígenes
Exportación de datos procesados a diferentes formatos
Importar datos desde una Ontología: en esta sección podremos conectarnos con una instancia de plataforma, seleccionar una query y cargar estos datos en la herramienta:
Exportar datos ya procesados (limpiados, agregados,…) a una Ontología eligiendo una instancia de Plataforma: trabajando en formato JSON de plataforma, o también exportarla como fichero JSON a local :
(EN ROADMAP) La posibilidad de aplicar transformaciones a un fichero de forma manual y luego automatizar la aplicación de estas mismas reglas sobre otros ficheros (por ejemplo podría trabajar sólo con datos de un mes y luego aplicarlos a un fichero anual) a través de un componente DataFlow:
Seguridad a nivel de usuario: cada usuario podrá ver sólo sus proyectos