En la In Platform Release 4.2.0 de Plataforma se ha integrado un motor de etiquetado de datos, que permitirá etiquetar la información almacenada en plataforma, concretamente en base a los ficheros (almacenados en el FileRepository o MinIO de Plataforma) o las Entidades almacenadas en los repositorios de plataforma.
Para esto se ha integradp la herramienta Label Studio.
Label Studio es una herramienta open-source de etiquetado de datos. Permite etiquetar tipos de datos como audio, texto, imágenes, vídeos y series temporales con una interfaz de usuario sencilla y luego exportar a varios formatos de modelos.
Se puede utilizar para preparar los datos en bruto o mejorar los datos de entrenamiento existentes para obtener modelos ML más precisos.
...
Sus principales características son:
Múltiples tipos de datos, como imágenes, audio, texto, HTML, series temporales y vídeo.
...
Multiusuario: con registro e inicio de sesión multiusuario, cuando creas una anotación se vincula a tu cuenta.
Múltiples proyectos para trabajar en todos sus conjuntos de datos en una sola instancia.
Formatos de etiqueta configurables que permiten personalizar la interfaz visual para satisfacer sus necesidades específicas de etiquetado.
...
a data labeling engine has been integrated, which will allow labeling the information stored in the platform, specifically on the basis of the files (stored in the FileRepository or Platform MinIO) or the Entities stored in the platform repositories.
For this purpose, the Label Studio tool has been integrated.
Label Studio is an open-source data tagging tool. It allows you to label data types such as audio, text, images, videos and time series with a simple user interface and then export to various model formats.
It can be used to prepare raw data or enhance existing training data for more accurate ML models.
...
Its main features are:
Multiple data types, such as images, audio, text, HTML, time series and video.
...
Multi-user: with multi-user registration and login, when you create an annotation it is linked to your account
Multiple projects to work on all your datasets in a single instance.
Configurable label formats that allow you to customize the visual interface to meet your specific labeling needs.
...
Import from files or from cloud storage in Amazon AWS S3, Google Cloud Storage, o archivos or JSON, CSV, TSV, RAR y and ZIP files.
...
Exportación a través del modulo Export through the label-studio-converter ., que es una librería que puede tomar el formato interno de Label Studio basado en JSON y dar salida a algunos formatos de propósito general module, which is a library that can take Label Studio's internal JSON-based format and output to some general purpose formats (JSON, CSV, TSV) o a formatos específicos del modelo como CONLL para etiquetadores textuales o Pascal VOC o COCO para modelos de visión por ordenador.Integración con modelos de aprendizaje automático para visualizar y comparar las predicciones de diferentes modelos y realizar el preetiquetado usando el SDK de Label Studioor to model-specific formats such as CONLL for textual labelers or Pascal VOC or COCO for computer vision models.
Integration with machine learning models to visualize and compare predictions from different models and perform pre-labeling using the Label Studio SDK:
...
API Rest para incorporarlo a su canalización de datosTemplates para etiquetadoto incorporate it into your data pipeline.
Templates for labeling:(https://labelstud.io/templates/ ) Label Studio incluye una variedad de plantillas para ayudar a etiquetar los datos además de permitir crear propias utilizando un lenguaje de configuración específicamente diseñado. Las plantillas y los casos de uso más comunes para el etiquetado incluyen los siguientes casos:
...
Comparación de Predicciones:
...
Etiquetado incremental: comenzando con un pequeño número de atributos y añadiendo más con el tiempo.
Amplia comunidad en Label Studio includes a variety of templates to assist in labeling data in addition to allowing you to create your own using a specifically designed configuration language. The most common templates and use cases for labeling include the following cases:
...
Comparison of Predictions:
...
Incremental tagging: starting with a small number of attributes and adding more over time.
Large community on Github: https://github.com/heartexlabs/label-studio#install-for-local-development
Múltiples formas de instalarlo: incluyendo despliegue en proveedores CloudMultiple ways to install it: including deployment on Cloud providers