Interfaz de usuario: 5.3.2-Ultimate

Introducción

Se va a generar un modelo de predicción a partir de datos sobre diabetes, modelo que va a permitir predecir una medida cuantitativa de la progresión de la enfermedad un año después de la línea base.

Para ello se van a utilizar los siguientes módulos de Onesait Platform:

Entidades: para generar una Entidad histórica donde cargar los datos.
File Repository sobre MinIO: para guardar el conjunto de datos original.
Notebooks: para utilizar un proceso paramétrico para obtener los datos de MinIO, entrenar y generar el modelo, y registrar todo en el módulo de MLFlow.
MLFlow: como gestor de modelos para registrar todos los experimentos del Notebook, y guardar el modelo y otros archivos para el entrenamiento.
Módulo Serverless: para crear una función Python escalable que, usando el modelo generado, pueda predecir la progresión de la enfermedad.

Sólo usuarios con rol de tipo «analista» o «administrador» podrán llevar a cabo este tutorial.

Datos

Para llevar a cabo este modelo predictivo se van a utilizar datos de diabetes obtenidos de la Universidad de Standford y cedidos por Bradley Efron, Trevor Hastie, Iain Johnstone y Robert Tibshirani. Concretamente, el dataset de datos a utilizar se puede descargar desde este enlace, y tiene el siguiente aspecto:

Este conjunto de datos, completamente anonimizado, se compone de diez variables con información de 442 pacientes diabéticos. Dichas variables hacen referencia a:

AGE: la edad del paciente, en años.
SEX: el sexo del paciente.
BMI: el índice de masa corporal.
BP: la presión sanguínea media.
S1: tc; colesterol sérico total.
S2: ldl; lipoproteínas de baja densidad.
S3: hdl; lipoproteínas de alta densidad.
S4: tch; colesterol total / HDL.
S5: ltg; logaritmo del nivel de triglicéridos séricos.
S6: glu; nivel de glucosa en sangre.

Cada una de estas diez variables de características se ha centrado en la media y se ha escalado por la desviación estándar multiplicada por n_muestras (es decir, la suma de cuadrados de cada columna suma 1).

Además, se cuenta con una medida cuantitativa de la progresión de la enfermedad un año después de la línea de base, denominada como «Y».

Referencia: Bradley Efron. Trevor Hastie. Iain Johnstone. Robert Tibshirani. "Least angle regression." Ann. Statist. 32 (2) 407 - 499, April 2004. https://doi.org/10.1214/009053604000000067

Ejecución del demostrador

A continuación se explican los diferentes pasos a llevar a cabo.

Paso 1.- Crear la Entidad

Una vez que se tienen los datos de diabetes descargados en el local, el primer paso consistirá en crear una Entidad para almacenarlos en Onesait Platform y poder trabajar con ellos.

En este caso, se va a crear una Entidad en una base de datos histórica. Para ello, se navegará desde Control Panel al menú de Conceptos principales > Mis Entidades.

Se mostrará entonces el listado de Entidades del usuario. Se pulsará en el botón de «+» para crear una nueva Entidad.

De entre las distintas opciones, se seleccionará la de «Creación Entidad en BD Histórica»:

Se cuenta con dos opciones de Entidad histórica. De ambas, se seleccionará la primera opción, la de «Creación Entidad en BD Histórica»:

Seguidamente se mostrará el asistente de creación de la Entidad en donde, al igual que en el resto de Entidades, se tendrá que introducir una información básica:

Identificación: el nombre único con el que identificar a la Entidad. En este caso se introducirá «diabetes_raw».
Meta-Información: etiquetas con las que caracterizar la Entidad, que servirán para su filtrado a la hora de hacer búsquedas. Se pueden añadir algunas etiquetas referidas al tema, como pueden ser «diabetes», «dataset» o «ml».
Descripción: texto descriptivo extendido de la Entidad, como su uso, propiedades, características, etc. Por simplificar, se añadirá «Diabetes raw dataset».

Además, contamos con dos opciones de caracterización de la Entidad:

Entidad activa: para que la Entidad funcione o se encuentre bloqueada.
Entidad pública: si se quiere que la Entidad sea pública, o si se quiere privada.

Una vez definida la información general y las opciones de la Entidad, pulsaremos en el botón de «Continuar» para acceder a la definición del esquema de la Entidad.

A continuación, se tendrá que crear los campos correspondientes a la cabecera de la tabla. Todos estos campos serán de tipo «string», y no será necesario indicar la descripción del campo.

Una vez creados los campos, se procederá a indicar las opciones del archivo original de los datos. Aquí se indicarán las siguientes opciones:

Formato: el formato del archivo de datos. En este caso se trata de un archivo separado por comas (CSV).
Carácter de escape: ninguno.
Carácter de citación: ninguno.
Carácter de separación: en este caso, los datos están separados por tabulaciones, por lo que se añadirá «/t» para indicar este tipo de carácter.

Seguidamente están las opciones de particiones, pero no aplican para este tutorial, por lo que se omiten.

Por último se tendrá que actualizar la consulta SQL de la Entidad. Para ello se pulsará en el botón de «Actualizar SQL», y al momento se mostrará la nueva consulta SQL:

Hecho esto, se terminará pulsando en el botón de «Crear», situado en la parte superior derecha de la pantalla, para crear la nueva Entidad.

<IMG>

Tras la Entidad, aparecerá un aviso indicando si se quiere añadir datos a la Entidad. Esto se realizará en el siguiente paso, por lo que se puede omitir.

<IMG>

Creada la Entidad, se regresará al listado de Entidades del usuario, en donde se podrá comprobar que aparece correctamente.

Paso 2.- Cargar datos

Aunque en el paso anterior era posible cargar los datos directamente, se quiere mostrar cómo subir el archivo de datos a un bucket de MinIO.

Para ello, desde Control Panel se navegará a Conceptos principales > Mis Ficheros.

De entre las diversas opciones disponibles, se escogerá la de «MinIO».

Se mostrará entonces el navegador de contenidos del Bucket de MinIO.

Además, en la parte inferior se visualizarán los archivos, propios y compartidos por otros usuarios, disponibles.

Se puede subir un archivo tanto usando el Bucket superior como desde el listado de archivos disponibles. Como la segunda opción es similar a otros recursos de la Plataforma, como las Entidades, se usará la primera opción para mostrar su funcionamiento.

Para ello, desde el navegador de contenidos, se pulsará en la carpeta de «datalake» y se navegará hasta el destino donde se quiera subir el archivo. Por ejemplo: «analyticsbucket/datalake/diabetes_raw».

Una vez en la ruta seleccionada, se pulsará en el botón de «Upload» y se seleccionará la opción de «Upload File» para subir el archivo desde el local:

Hecho esto, el archivo CSV con los datos de diabetes aparecerá en el listado del Bucket:

Puesto que más adelante será necesario, es recomendable apuntar la ruta del archivo subido. Esto se puede ver en el listado de archivos inferior, que para este caso sería «analyticsbucket/datalake/diabetes_raw/select_diabetes.tab_20230927170218.csv».

Paso 3.- Crear el Notebook

Para crear un nuevo Notebook, desde Control Panel se navegará hasta el menú de Procesamiento > Mis Notebooks.

Se mostrará entonces el listado de Notebooks del usuario, así como aquellos públicos. Se pulsará en el botón de «+» para crear un nuevo Notebook.

Aparecerá entonces una ventana pidiendo que se introduzca el nombre del Notebook a crear. Aquí se indicará el nombre que interese, que para este ejemplo será «notebook_diabetes».

También podemos importar este archivo que contiene el cuaderno completo para este ejemplo (sólo tienes que establecer el parámetro token).

Tienes algunos párrafos explicativos para el conjunto de datos, pero ve a la sección de código.

El primer párrafo que vas a enfocar es el de importación.

Carga muchas librerías y establece la url base para el repositorio MinIO. El siguiente párrafo va a ser el párrafo de parámetros con el fin de establecer variables que pueden venir de fuera.

Para obtener la ruta del archivo puedes ir a la sección My Files:

Luego a MinIO:

Y en la siguiente página puedes obtener la ruta del archivo:

El token será algún token X-OP-APIKey que pueda acceder al fichero.

A continuación, en tres apartados, carga el propio fichero csv y el filepath del apartado anterior, léelo como csv con la columna del dataset (necesitamos incluir las columnas en la función read_csv) y muestra el contenido cargado:

Ahora que tienes tu archivo como pandas dataframe, puedes dividir los datos en conjuntos de entrenamiento y prueba:

Divide también estos conjuntos de datos en conjuntos de datos X e Y para los parámetros de entrada y los resultados esperados:

Y ejecuta el entrenamiento de ElasticNet con estos datos y obtenga en lr el modelo de salida:

Por último, evalúa alguna métrica para el resultado de la predicción.

Paso 3: Registrar los datos de entrenamiento y del modelo en MLFlow

El Notebook Engine está integrado con el servicio de seguimiento de MLFlow, por lo que lo único que tienes que hacer en el cuaderno es importar la librería "MLFlow" necesaria y utilizar las funciones de seguimiento de MLFlow. Eso se hará en la sección de librerías de importación.

Los parámetros de conexión y las variables de entorno ya están hechos, así que ahora puedes registrar los parámetros en MLFlow directamente de esta manera:

%python

with mlflow.start_run():
    mlflow.set_tag("mlflow.runName", "DiabetesModelGenerator")
    mlflow.log_param("alpha", alpha)
    mlflow.log_param("l1_ratio", l1_ratio)
    mlflow.log_metric("rmse", rmse)
    mlflow.log_metric("r2", r2)
    mlflow.log_metric("mae", mae)
    mlflow.sklearn.log_model(lr, "model")
    mlflow.end_run()

Este es el código estándar para el seguimiento de un experimento en MLFlow. Incluye todo dentro de “with mlflow.start_run()“ para iniciar un nuevo experimento.

Las otras funciones son:

mlflow.set_tag("mlflow.runName", ...) →(opcional) para establecer un nombre de ejecución del experimento. Si no usas esto. sólo tendrás un id autogenerado, el ID del experimento.
mlflow.log_param(...) → registra un parámetro de entrada para el experimento.
mlflow.log_metric(...) → registra una métrica de salida para el experimento.
mlflow.sklearn.log_model(lr, "model") → registra y guarda el modelo entrenado con todos los archivos de metadatos necesarios.

Si ejecutas este párrafo, tendrás una salida como esta. El proceso de registro ha terminado bien.

Si vas a la interfaz de usuario del Gestor de Modelos en el Control Panel:

Podrás ver la ejecución del experimento con todos los parámetros de registro, las métricas y los archivos:

Al hacer clic en el experimento, se abre la página de detalles:

Y, al final de la página, podemos revisar todos los archivos de este experimento y el propio modelo:

El run id de la derecha (runs:/859953c3a0dd4596bd15d864e91081ab/model) es importante porque lo vas a utilizar para publicar el modelo en el siguiente paso. Ésta es la referencia que necesitas para recoger el modelo en el MLFlow y hacer algunas evaluaciones con él.

También puedes registrarlo con el fin de etiquetarlo, versionarlo y tenerlo fuera del experimento. Puedes hacerlo con el código o puedes utilizar el botón de registro en el lado derecho:

Y si vas a la pestaña modelo, puedes verlo y trabajar con él.

Paso 4: Crear una función Serverless en Python que evalúe los datos contra el modelo MLFlow

Con el modelo generado anteriormente, vas a crear una función Python que, con una entrada simple o múltiple, pueda obtener una predicción usando el modelo.

El primer paso es ir al menú Serverless Applications.

A continuación vas a crear (con el botón +) una nueva aplicación y vas a rellenar todas las entradas necesarias:

Puedes crear un nuevo repositorio o utilizar uno existente. En cualquier caso, vas a tener una nueva aplicación como esta:

Luego puedes ir al botón "Ver" y luego a la pestaña de funciones:

El siguiente paso es crear o utilizar una función serverless existente. Haz clic en "Create Function" y vas a crear tres archivos.

En primer lugar, selecciona la rama principal en el lado derecho:

Luego vas a crear (aquí o en el repositorio Git con un editor externo) los tres archivos:

requirements.txt → librerías que necesita tu modelo para ejecutarse. En este caso, vas a tener estos:

fdk
protobuf==3.20.*
numpy==1.23.4
mlflow==1.19.0
mlflow-onesaitplatform-plugin==0.2.11
scikit-learn

func.yaml → los metadatos del proyecto necesarios para la función sin servidor. El contenido será:

schema_version: 20180708
name: diabetes-predictor
version: 0.1.1
runtime: python
build_image: fnproject/python:3.9-dev
run_image: fnproject/python:3.9
entrypoint: /python/bin/fdk /function/func.py handler
memory: 256
triggers:
- name: endpoint
  type: http
  source: /diabetes-predictor

Es importante el triggers.source config para tener el endpoint para esta función, el nombre y el tiempo de ejecución.

func.py →el contenido de la función de evaluación en sí. Tienes que cargar las bibliotecas para evaluar el modelo, MLFlow y fdk para el punto final.

También utilizarás una variable de entorno para la entrada paramétrica del host, experimento y token.

import io
import json
import logging
import os
os.environ["HOME"] = "/tmp"
import random
import mlflow

from fdk import response

host = os.environ['HOST']
token = os.environ['TOKEN']
experimentid = os.environ['EXPERIMENTID']

tracking_uri = "https://" + host + "/controlpanel/modelsmanager"
model_uri = "onesait-platform://" + token +  "@" + host + "/0/" + experimentid + "/artifacts/model"
global pyfunc_predictor

mlflow.set_tracking_uri(tracking_uri)
pyfunc_predictor = mlflow.pyfunc.load_model(model_uri=model_uri)
logging.getLogger().info("Diabetes Progression Predictor ready")

def handler(ctx, data: io.BytesIO = None):
    try:
        logging.getLogger().info("Try")
        answer = []
        json_obj = json.loads(data.getvalue())
        logging.getLogger().info("json_obj")
        logging.getLogger().info(str(json_obj))
        if isinstance(json_obj, list):
            logging.getLogger().info("isinstance")
            answer = []
            values = []
            inputvector = []
            for input in json_obj:
                logging.getLogger().info("for")
                logging.getLogger().info("input: " + str(input))
                inputvector = [ input['age'], input['sex'], input['bmi'], input['bp'], input['s1'], input['s2'], input['s3'], input['s4'], input['s5'], input['s6']]
                values.append(inputvector)
                
            predict = pyfunc_predictor.predict(values)
            answer = predict.tolist()
            logging.getLogger().info("prediction")
        else:
            answer = "input object is not an array of objects:" + str(json_obj)
            logging.getLogger().error('error isinstance(json_obj, list):' + isinstance(json_obj, list))
            raise Exception(answer)
    except (Exception, ValueError) as ex:

        logging.getLogger().error('error parsing json payload: ' + str(ex))

    logging.getLogger().info("Inside Python ML function")
    return response.Response(
        ctx, response_data=json.dumps(answer),
        headers={"Content-Type": "application/json"}
    )

Puedes guardar todo y desplegar tu función con el botón Rocket:

El último paso es poner las variables de entorno para el modelo con el botón:

Paso 5: Evaluación del modelo

Ahora puedes probar el modelo con la API REST con Postman por ejemplo enviando un array de JSON con la entrada:

O puedes crear un evaluador de modelo en el Dashboard Engine que utilice este punto final con alguna entrada proporcionada:

O puedes evaluar este modelo en un flujo de datos en batch o en streaming en el DataFlow con el componente evaluador correspondiente:

Generación y publicación de modelos ML