¿Cómo usar el DataRefiner para ingestar un fichero?

Introducción

A este módulo de la plataforma pueden acceder los roles ADMINISTRATOR y ANALYTICS, desde la opción

 

Subir fichero al DataRefiner

Una vez acceso al módulo desde la página principal seleccionaré la opción

que me habilitará la opción para cargar un fichero:

Para el ejemplo de carga de ficheros usaré este: https://www.iwight.com/documentlibrary/download/transparency-data-april-2013-csv

 Así que seleccionaré este fichero como URL y pulsaré Next:

Transformando los datos cargados

Una vez cargado el fichero me encontraré con una UI como esta, desde la que puedo hacer algunas transformaciones previas a la carga del fichero en mi proyecto

Por ejemplo puedo ignorar la primera línea si esta tiene las cabeceras o descartar filas en blanco:

O intentar transformar las columnas a su tipo…no vamos a hacer esto porque lo haremos en una fase posterior.

Concluiremos creando el proyecto:

Una vez creado el proyecto me encuentro con este UI:

Donde puedo ver los primeros registros del fichero/proyecto, en este ejemplo tenemos 11285 registros.

Vemos también que cada columna tiene un desplegable y que a la izquierda me aparece un recuadro para poder dar marcha atrás y ver los Facets

Si me voy a la columna Amount puedo ver las opciones que tengo: Facet, Filtros, editar celdas, columnas, transponer, ordenar, reconciliar.

 Empezaré por decir que esta columna es de tipo numérico en Edit cells>Common transforms>to number

Ahora veré los datos formateados como números, sin embargo esto no significa que todos sean números,

ahora le aplicaré un Facet seleccionando Facet>Numeric Facet

En la parte izquierda veré que tengo 2244 datos que no son numéricos:

Si dejo sólo el check de Non-numeric en mi tabla veré 10 de estos registros. Como podéis observar el problema está en que hay una coma para separar los miles y la herramienta no puede transformarlo a número:

Así que puedo transformarlo con la herramienta y su lenguaje GREL (Google Refine Expression Language). Iré a la columna Amount, seleccionaré Edit cells>Transform y en la transformación indicaré value.replace(',','')

Si aplico el filtro y aplico Edit cells > Commons Transforms > To number puedo ver ya que todos los datos de mi columna son numéricos.

Puedo aplicar otras transformaciones más avanzadas, como derivar una columna desde otra aplicando transformaciones, para eso me pondré en la columna Date , seleccionaré Edit column>Add column based on this column

En esta aplicaré la transformación de formato de fecha:

value.toDate('dd.mm.yy').toString('yyyy-mm-dd')

Y luego le aplicaré Edit cells>Commons Transformations>To date

También puedo combinar datos, reconciliarlos,…

Extraer transformaciones

Un concepto muy interesante es que puedo extraer las transformaciones para poder aplicarlas sobre otros datos del mismo tipo (el Excel del año siguiente en este ejemplo), esto se hace desde Undo-redo/Extract

El resultado es un JSON que puedo guardar:

Y que desde la opción Apply puedo pegar y aplicar a otros ficheros:

Exportar datos

Para acabar veremos cómo exportar los datos de mi proyecto. Desde la opción Export puedo exportar en numerosos formatos: