Label Studio es una herramienta open-source de etiquetado de datos. Permite etiquetar tipos de datos como audio, texto, imágenes, vídeos y series temporales con una interfaz de usuario sencilla y luego exportar a varios formatos de modelos.
Se puede utilizar para preparar los datos en bruto o mejorar los datos de entrenamiento existentes para obtener modelos ML más precisos.
La imagen da una idea de cómo funciona Label Studio:
https://raw.githubusercontent.com/heartexlabs/label-studio/master/images/annotation_examples.gif
Sus principales características son:
Múltiples tipos de datos, como imágenes, audio, texto, HTML, series temporales y vídeo.
Multiusuario: con registro e inicio de sesión multiusuario, cuando creas una anotación se vincula a tu cuenta.
Múltiples proyectos para trabajar en todos sus conjuntos de datos en una sola instancia.
Formatos de etiqueta configurables que permiten personalizar la interfaz visual para satisfacer sus necesidades específicas de etiquetado.
Importación desde archivos o desde el almacenamiento en la nube en Amazon AWS S3, Google Cloud Storage, o archivos JSON, CSV, TSV, RAR y ZIP.
Exportación a través del modulo label-studio-converter., que es una librería que puede tomar el formato interno de Label Studio basado en JSON y dar salida a algunos formatos de propósito general (JSON, CSV, TSV) o a formatos específicos del modelo como CONLL para etiquetadores textuales o Pascal VOC o COCO para modelos de visión por ordenador.
Integración con modelos de aprendizaje automático para visualizar y comparar las predicciones de diferentes modelos y realizar el preetiquetado usando el SDK de Label Studio:
API Rest para incorporarlo a su canalización de datos
Templates para etiquetado: (https://labelstud.io/templates/ ) Label Studio incluye una variedad de plantillas para ayudar a etiquetar los datos además de permitir crear propias utilizando un lenguaje de configuración específicamente diseñado. Las plantillas y los casos de uso más comunes para el etiquetado incluyen los siguientes casos:
Comparación de Predicciones:
Etiquetado incremental: comenzando con un pequeño número de atributos y añadiendo más con el tiempo.
Amplia comunidad en Github: https://github.com/heartexlabs/label-studio#install-for-local-development
Múltiples formas de instalarlo: incluyendo despliegue en proveedores Cloud