¿Cómo etiquetar datos con la Herramienta de Etiquetado de datos?
Introducción
La intención de este post es mostrar cómo se etiquetan daos con la Herramienta de Etiquetado de Datos, y para eso mostraremos un ejemplo del uso de la herramienta.
Este proyecto se usará para clasificar imágenes, son unas imágenes sencillas donde etiquetaremos las imágenes donde aparece gente sola, gente en bicicleta o sólo una bicicleta.
¿Cómo lo hacemos?
Creación del proyecto
Se accederá a la plataforma con un usuario con rol ANALYTICS o ADMINISTRATOR.
Se pulsa en el menú la opción ANALYTICS TOOLS → My Data Labeling Tool
Pueden observarse los proyectos existentes
Crearemos un nuevo proyecto pulsando
y asignaremos un nombre y una descripción
Configuración Labeling Interface
En esta pantalla se aprecian:
Botón Browse Template: La herramienta nos da la opción de elegir una plantilla definida para trabajar sobre ella.
Code/Visual : Alterna entre el código de la plantilla que implementa el formulario y la vista de este
UI Preview: Vista previa de la interfaz que luego se utlizará para el etiquetado.
Se hace click en el botón Browse Template y aparecen las plantillas.
Se seleccionará la plantilla que más interese para cada tipo de proyecto.
Para este caso se seleccionará esta plantilla.
Ahora cambiaremos las opciones que aparecen
En la vista preliminar ya se ven las opciones introducidas para el etiquetado
Pulsar botón Save.
Tipos de ficheros soportados
Importar tareas de etiquetado
Ahora tenemos que importar las tareas para etiquetar.
Se mostrarán un par de formas de hacerlo:
Opción 1: Usar File Repository de Plataforma
Definir un Source Cloud Storage utilizando el gestor de ficheros de plataforma
Para poder crear tareas en los proyectos se puede definir un source cloud storage.
A partir del botón del proyecto Source Cloud Storage
Se accede al listado de sources Cloud Storage de este proyecto tomando como origen el File Repository de la plataforma.
Inicialmente el proyecto no tendrá ningún origen definido.
pulsamos el botón
para crear uno nuevo
y aparece en el formulario:
Cloud Storage Title : título descriptivo del cloud storage.
Bucket: bucket donde se alojarán los ficheros
Prefix: prefijo o path donde se alojaran los ficheros
Regex File Filter : patrón regex que se seguirá para identificar que ficheros deben cargarse
Treat each cube object as a source file: marcaremos esta opción en caso por ejemplo de que los ficheros sean imagenes, Se marcará esta opción ya que lo que se leerá serán imágenes
Recursive Scan: hace la búsqueda recursiva en carpetas que estén anidadas dentro de la especificada en el prefix
Use Presigned URLs
Tras rellenar el formulario y pulsar el botón create aparecerá en el listado el source cloud storage que se ha definido.
Además en el File Repository de la plataforma se habrá creado una entrada con esté prefix, donde se podrán subir los ficheros que se quieren importar como tareas al proyecto.
para esto una forma sencilla es pulsando el icono
En las opciones de ese path que se ha creado con .metadata
aparecerá esta modal y ahí se podrá subir un fichero
Se hace la carga del fichero en el gestor de ficheros
Se puede comprobar que para el prefix que se indico se ha subido la imagen.
Sincronizar el proyecto
El último paso sería sincronizar el proyecto para este Source Cloud Storage.
En la configuración del proyecto, puede verse un origen definido si se pulsa el botón “Sync Storage“
Todos los ficheros que cumplan la condición del patrón Regex serán cargados como tareas al proyecto.
Para este caso se cargaría la imagen recién subida.
Y ya estaría disponible para poder etiquetarse
La herramienta no actualiza automáticamente cuando se suben nuevos registros al bucket, es el propio usuario el que debe actualizar el proyecto pulsando el botón Sync Storage.
Definir un target cloud storage utilizando el gestor de ficheros de plataforma
Al igual que en el caso anterior la plataforma propicia una forma amable para crear Target Cloud Storages, donde los resultados de etiquetar tareas quedarán almacenados en ficheros individuales.
Para crear un Target Cloud Storage, desde la pantalla de gestión de proyectos, se pulsará la opción “Target Cloud Storage”.
Como es la primera vez que se accede para este proyecto la tabla aparecerá vacía.
Tras pulsar el botón de crear aparece el siguiente formulario:
Cloud Storage Title : título descriptivo para diferenciarlo de otros targets clouds storages del proyecto
Bucket: bucket del repositorio de ficheros donde se depositarán los ficheros.
Prefix: path o ruta de carpetas donde se guardarán los ficheros
It is allowed to delete objects from Storage: indica si se podrán eliminar o no objetos del almacén.
con esto queda definido el almacén donde se depositarán los ficheros si puede comprobar en la configuración del proyecto:
También se puede ver en el gestor de ficheros de la plataforma que se ha creado una entrada para los targets.
Si se etiqueta una imagen
y se pulsa submit, al tener un target cloud storage definido se creará un fichero aquí con la información etiquetada:
En este caso lo almacenado como administratorbucket/imageclassifiertarget/4
Opción 2: Subida manual de ficheros
Desde la pantalla del proyecto
Se pueden importar tareas manualmente para esto se pulsará el botón Import
Se podrá indicar una url o subir ficheros desde el equipo pulsando sobre upload files:
Cuando se hayan seleccionado todos los ficheros que se quieran importar se pulsará el botón Import
Etiquetado de imágenes
Una vez cargados los elementos a etiquetar (en el ejemplo imágenes) podemos hacer el etiquetado de las imágenes para su clasificación
Se puede realizar esta acción de varias formas:
Pulsando directamente sobre la tarea que se quiere etiquetar
Pulsando el botón Label All Tasks
Las dos opciones permiten acceder a la interfaz de etiquetado donde para este caso se selecciona entre “bicicleta“, ”persona” o “persona en bicicleta“
Tras realizar la selección pulsaremos en Update si la tarea había sido etiquetada previamente o submit si es la primera vez.
Como puede apreciarse en el listado, las tareas etiquetadas están marcadas con una fecha en la columna completed.