¿Cómo etiquetar datos con la Herramienta de Etiquetado de datos?

¿Cómo etiquetar datos con la Herramienta de Etiquetado de datos?

Introducción

La intención de este post es mostrar cómo se etiquetan daos con la Herramienta de Etiquetado de Datos, y para eso mostraremos un ejemplo del uso de la herramienta.

Este proyecto se usará para clasificar imágenes, son unas imágenes sencillas donde etiquetaremos las imágenes donde aparece gente sola, gente en bicicleta o sólo una bicicleta.

¿Cómo lo hacemos?

Creación del proyecto

Se accederá a la plataforma con un usuario con rol ANALYTICS o ADMINISTRATOR.

Se pulsa en el menú la opción ANALYTICS TOOLS → My Data Labeling Tool

 

Pueden observarse los proyectos existentes

Crearemos un nuevo proyecto pulsando

y asignaremos un nombre y una descripción

Configuración Labeling Interface

En esta pantalla se aprecian:

  • Botón Browse Template: La herramienta nos da la opción de elegir una plantilla definida para trabajar sobre ella.

  • Code/Visual : Alterna entre el código de la plantilla que implementa el formulario y la vista de este

  • UI Preview: Vista previa de la interfaz que luego se utlizará para el etiquetado.

Se hace click en el botón Browse Template y aparecen las plantillas.

 

Se seleccionará la plantilla que más interese para cada tipo de proyecto.

Para este caso se seleccionará esta plantilla.

Ahora cambiaremos las opciones que aparecen

por las que nos interesen:

En la vista preliminar ya se ven las opciones introducidas para el etiquetado

Pulsar botón Save.

 

Tipos de ficheros soportados

 

Importar tareas de etiquetado

Ahora tenemos que importar las tareas para etiquetar.

Se mostrarán un par de formas de hacerlo:

Opción 1: Usar File Repository de Plataforma

Definir un Source Cloud Storage utilizando el gestor de ficheros de plataforma

Para poder crear tareas en los proyectos se puede definir un source cloud storage.

A partir del botón del proyecto Source Cloud Storage

Se accede al listado de sources Cloud Storage de este proyecto tomando como origen el File Repository de la plataforma.

Inicialmente el proyecto no tendrá ningún origen definido.

pulsamos el botón

para crear uno nuevo

y aparece en el formulario:

  • Cloud Storage Title : título descriptivo del cloud storage.

  • Bucket: bucket donde se alojarán los ficheros

  • Prefix: prefijo o path donde se alojaran los ficheros

  • Regex File Filter : patrón regex que se seguirá para identificar que ficheros deben cargarse

  • Treat each cube object as a source file: marcaremos esta opción en caso por ejemplo de que los ficheros sean imagenes, Se marcará esta opción ya que lo que se leerá serán imágenes

  • Recursive Scan: hace la búsqueda recursiva en carpetas que estén anidadas dentro de la especificada en el prefix

  • Use Presigned URLs

Tras rellenar el formulario y pulsar el botón create aparecerá en el listado el source cloud storage que se ha definido.

 

Además en el File Repository de la plataforma se habrá creado una entrada con esté prefix, donde se podrán subir los ficheros que se quieren importar como tareas al proyecto.

para esto una forma sencilla es pulsando el icono

En las opciones de ese path que se ha creado con .metadata

aparecerá esta modal y ahí se podrá subir un fichero

Se hace la carga del fichero en el gestor de ficheros

Se puede comprobar que para el prefix que se indico se ha subido la imagen.

Sincronizar el proyecto

El último paso sería sincronizar el proyecto para este Source Cloud Storage.

En la configuración del proyecto, puede verse un origen definido si se pulsa el botón “Sync Storage

Todos los ficheros que cumplan la condición del patrón Regex serán cargados como tareas al proyecto.

Para este caso se cargaría la imagen recién subida.

Y ya estaría disponible para poder etiquetarse

 

La herramienta no actualiza automáticamente cuando se suben nuevos registros al bucket, es el propio usuario el que debe actualizar el proyecto pulsando el botón Sync Storage.

Definir un target cloud storage utilizando el gestor de ficheros de plataforma

Al igual que en el caso anterior la plataforma propicia una forma amable para crear Target Cloud Storages, donde los resultados de etiquetar tareas quedarán almacenados en ficheros individuales.

Para crear un Target Cloud Storage, desde la pantalla de gestión de proyectos, se pulsará la opción “Target Cloud Storage”.

Como es la primera vez que se accede para este proyecto la tabla aparecerá vacía.

Tras pulsar el botón de crear aparece el siguiente formulario:

  • Cloud Storage Title : título descriptivo para diferenciarlo de otros targets clouds storages del proyecto

  • Bucket: bucket del repositorio de ficheros donde se depositarán los ficheros.

  • Prefix: path o ruta de carpetas donde se guardarán los ficheros

  • It is allowed to delete objects from Storage: indica si se podrán eliminar o no objetos del almacén.

con esto queda definido el almacén donde se depositarán los ficheros si puede comprobar en la configuración del proyecto:

También se puede ver en el gestor de ficheros de la plataforma que se ha creado una entrada para los targets.

 

Si se etiqueta una imagen

y se pulsa submit, al tener un target cloud storage definido se creará un fichero aquí con la información etiquetada:

En este caso lo almacenado como administratorbucket/imageclassifiertarget/4

 

Opción 2: Subida manual de ficheros

Desde la pantalla del proyecto

Se pueden importar tareas manualmente para esto se pulsará el botón Import

Se podrá indicar una url o subir ficheros desde el equipo pulsando sobre upload files:

Cuando se hayan seleccionado todos los ficheros que se quieran importar se pulsará el botón Import

Etiquetado de imágenes

Una vez cargados los elementos a etiquetar (en el ejemplo imágenes) podemos hacer el etiquetado de las imágenes para su clasificación

Se puede realizar esta acción de varias formas:

  1. Pulsando directamente sobre la tarea que se quiere etiquetar

  2. Pulsando el botón Label All Tasks

Las dos opciones permiten acceder a la interfaz de etiquetado donde para este caso se selecciona entre “bicicleta“, ”persona” o “persona en bicicleta“

Tras realizar la selección pulsaremos en Update si la tarea había sido etiquetada previamente o submit si es la primera vez.

Como puede apreciarse en el listado, las tareas etiquetadas están marcadas con una fecha en la columna completed.