Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Table of Contents

Interfaz de usuario: 56.32.21-UltimateXenon

Introducción

Se va a generar un modelo de predicción a partir de datos sobre diabetes, modelo que va a permitir predecir una medida cuantitativa de la progresión de la enfermedad un año después de la línea base.

...

  • Identificación: el nombre único con el que identificar a la Entidad. En este caso se introducirá «diabetes_raw».

  • Meta-Información: etiquetas con las que caracterizar la Entidad, que servirán para su filtrado a la hora de hacer búsquedas. Se pueden añadir algunas etiquetas referidas al tema, como pueden ser «diabetes», «dataset» o «ml».

  • Descripción: texto descriptivo extendido de la Entidad, como su uso, propiedades, características, etc. Por simplificar, se añadirá «Diabetes raw dataset»«Dataset de valores de diabetes».

Además, contamos con dos opciones de caracterización de la Entidad:

...

  • Formato: el formato del archivo de datos. En este caso se trata de un archivo separado por comas (CSV).

  • Carácter de escape: ninguno.

  • Carácter de citación: ninguno.

  • Carácter de separación: en este caso, los datos están separados por tabulaciones, por lo que se añadirá «/t|» para indicar este tipo de carácter.

...

Por último se tendrá que actualizar la consulta SQL de la Entidad. Para ello se pulsará en el botón de «Actualizar SQL», y al momento se mostrará la nueva consulta SQL:

...

A continuación, se generará el esquema de la Entidad pulsando en el botón de «Generar esquema»:

...

Hecho esto, se terminará pulsando en el botón de «Crear», situado en la parte superior derecha de la pantalla, para crear la nueva Entidad.<IMG>

...

Tras la Entidadpulsar el botón de crear, aparecerá un aviso indicando si se quiere añadir datos a la Entidad. Esto se realizará en el siguiente paso, por lo que se puede omitir.<IMG>

...

Creada la Entidad, se regresará al listado de Entidades del usuario, en donde se podrá comprobar que aparece correctamente.

...

Paso 2.- Cargar los datos en MinIO

Aunque en el paso anterior era posible cargar los datos directamente, se quiere mostrar cómo subir el archivo de datos a un bucket de MinIO.

...

Hecho esto, el archivo CSV con los datos de diabetes aparecerá en el listado del Bucket:

...

Puesto que más adelante será necesariose va a necesitar, es recomendable apuntar la ruta del archivo subido. Esto se puede ver en el listado de archivos inferior, que para este caso sería «analyticsbucket/datalake/diabetes_raw/select_diabetes.tab_20230927170218.csv».

...

Paso 3.- Crear el Notebook

...

Aparecerá entonces una ventana pidiendo que se introduzca el nombre del Notebook a crear. Aquí se indicará el nombre que interese, que para este ejemplo será «notebook_diabetes».

...

También podemos importar este archivo que contiene el cuaderno completo para este ejemplo (sólo tienes que establecer el parámetro token).

View file
nameDiabetesModelGenerator.json

Tienes algunos párrafos explicativos para el conjunto de datos, pero ve a la sección de código.

El primer párrafo que vas a enfocar es el de importación.

...

Carga muchas librerías y establece la url base para el repositorio MinIO. El siguiente párrafo va a ser el párrafo de parámetros con el fin de establecer variables que pueden venir de fuera.

...

Para obtener la ruta del archivo puedes ir a la sección My Files:

...

Luego a MinIO:

...

Y en la siguiente página puedes obtener la ruta del archivo:

...

El token será algún token X-OP-APIKey que pueda acceder al fichero.

A continuación, en tres apartados, carga el propio fichero csv y el filepath del apartado anterior, léelo como csv con la columna del dataset (necesitamos incluir las columnas en la función read_csv) y muestra el contenido cargado:

...

Ahora que tienes tu archivo como pandas dataframe, puedes dividir los datos en conjuntos de entrenamiento y prueba:

...

Divide también estos conjuntos de datos en conjuntos de datos X e Y para los parámetros de entrada y los resultados esperados:

...

Y ejecuta el entrenamiento de ElasticNet con estos datos y obtenga en lr el modelo de salida:

...

Por último, evalúa alguna métrica para el resultado de la predicción.

Paso 3: Registrar los datos de entrenamiento y del modelo en MLFlow

El Notebook Engine está integrado con el servicio de seguimiento de MLFlow, por lo que lo único que tienes que hacer en el cuaderno es importar la librería "MLFlow" necesaria y utilizar las funciones de seguimiento de MLFlow. Eso se hará en la sección de librerías de importación.

...

Los parámetros de conexión y las variables de entorno ya están hechos, así que ahora puedes registrar los parámetros en MLFlow directamente de esta manera:

...

languagepy

...

Una vez creado el Notebook, se procederá a configuración.

Info

A continuación se va a crear, paso a paso, los párrafos necesarios para ejecutar el experimento. Disponemos a continuación del Notebook completo para su importación, en caso de que no se quiera tener que estar agregando párrafo a párrafo:

View file
nameDiabetesModelGenerator.json

Paso 4.- Configurar el Notebook

El Notebook se compondrá se varios párrafos, cada uno de ellos orientado a definir una tarea.

En un primer párrafo se van a importar las librerías que se van a necesitar para llevar a cabo el experimento, así como definir el entorno de trabajo como variable global.

4.1.- Cargar la tabla de datos

We import request for doing rest calls and set global path vars

Code Block
languagepy
%python
import warnings
import requests
import io
import pandas as pd
import numpy as np
import mlflow
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import ElasticNet
from sklearn.linear_model import lasso_path, enet_path

# Set here the URL of the Platform instance
environment = "https://lab.onesaitplatform.com"

baseurl = environment + "/controlpanel/api/objectstorage"

Para este tutorial se hará uso de CloudLab, la instancia de experimentación de Onesait Platform.

...

Seguidamente, en un nuevo párrafo, se definirán los parámetros de entrada que se ejecutarán como proceso en el Notebook.

Set input params if we want to execute this notebook as process

Code Block
languagepy
%python
token = z.input("token")
filepath = z.input("filepath")
alpha_str = z.input("alpha")
l1_ratio_str = z.input("l1_ratio")
alpha = float(alpha_str)
l1_ratio = float(l1_ratio_str)

Algunos de estos parámetros (lo que presentan un z.input()) serán campos a introducir por el usuario que lleve a cabo el experimento, siendo:

...

  • Token: el token personal del usuario que lleva a cabo el experimento, y que puede encontrarse en el menú contextual anejo al nombre de usuario.

...

  • FilePath: la localización del archivo de datos que se ha cargado en MinIO, y que se comentó que era interesante apuntar. Como recordatorio, sería: «analyticsbucket/datalake/diabetes_raw/select_diabetes.tab_20230927170218.csv»

  • Alpha y l1_ratio: dos parámetros del experimento, que se mantendrán con el valor de «0.05».

A continuación se recuperará el archivo de datos de diabetes desde MinIO. Para ello se generará el siguiente párrafo:

Get file from MinIO

Code Block
languagepy
%python
response = requests.get(url = baseurl + "?filePath=" + filepath, params = {}, headers= {"X-OP-APIKey":token})
stream=response.content

Si existe algún problema con el token de usuario, mostrando el valor de la variable «stream» mostrará el error correspondiente.

...

Si no hay problemas con el token, se continuará creando un nuevo párrafo en el que se definirá la cabecera de la tabla, así como se creará la tabla en el Notebook.

We set the column for the dataset and read the content as csv

Code Block
languagepy
%python
colnames=['age', 'sex','bmi','bp','s1','s2','s3','s4','s5','s6', 'progression']
data = pd.read_csv(io.StringIO(stream.decode('utf-8')), sep="\t", header=0, names=colnames )
Info

La última columna tiene como nombre «Y» en el archivo CSV original. Sin embargo, aquí se renombra como «progression» para referenciarla mejor.

Referencia técnica: pandas.read_csv

Para comprobar que la tabla se ha generado correctamente, se puede mostrar la tabla con el siguiente párrafo:

Show the file loaded as dataframe

Code Block
languagepy
%python
data

La salida debería mostrar la tabla:

...

Si la tabla no llegase a cargar correctamente, se mostrará un mensaje que indica «Empty DataFrame»:

...

4.2.- Preparar los datos para el entrenamiento

Una vez que la tabla está cargada y los datos se muestran correctamente, seguidamente se va a preparar los datasets de entrenamiento y pruebas.

Para ello, se preparará un nuevo párrafo en el que se desactivarán los avisos, se generará una nueva semilla aleatoria, y se separará el dataset en dos grupos de datos: uno de entrenamiento, que contendrá el 75% de los datos, y otro de prueba, que contará con el 25% de datos restantes.

Split the data in train a test

Code Block
languagepy
%python
warnings.filterwarnings("ignore")
np.random.seed(40)

# Split the data into training and test sets. (0.75, 0.25) split.
train, test = train_test_split(data)

Para comprobar los datasets de entrenamiento y prueba, se pueden generar dos nuevos párrafos con el siguiente código:

Show train set

Code Block
languagepy
%python
train

Que mostrará:

...

Show test set

Code Block
languagepy
%python
test

Que en este caso mostrará:

...

Con esto se comprueba que los datasets ya están preparados. Sin embargo, hay un campo que no hace falta, y es el de «progression», ya que esta columna predicha es una medida cuantitativa de la progresión de la enfermedad un año después del inicio.

Por tanto, se va a quitar dicha columna de los datasets de entrenamiento y prueba mediante el siguiente párrafo:

Split for target column

Code Block
languagepy
%python
train_x = train.drop(["progression"], axis=1)
test_x = test.drop(["progression"], axis=1)
train_y = train[["progression"]]
test_y = test[["progression"]]

Para comprobar cómo quedan los datasets, se podrá mostrar los datos se manera similar a cómo se hizo previamente con estos párrafos:

Show train_x

Code Block
languagepy
%python
train_x

...

Show train_y

Code Block
languagepy
%python
train_y

...

Show test_x

Code Block
languagepy
%python
test_x

...

Show test_y

Code Block
%python
test_y

...

Una vez que se ha comprobado que los datos son correctos, se procederá a realizar el entrenamiento con ElasticNet:

Run train with input params

Code Block
languagepy
%python
# Run ElasticNet
lr = ElasticNet(alpha=alpha, l1_ratio=l1_ratio, random_state=42)
lr.fit(train_x, train_y)
predicted_qualities = lr.predict(test_x)

Este párrafo no devolverá ninguna información, por lo que habrá que crear otro párrafo con la evaluación de las métricas para mostrar los resultados del modelo de entrenamiento:

Metrics Evaluation

Code Block
languagepy
%python
# Evaluate metrics
def eval_metrics(actual, pred):
    rmse = np.sqrt(mean_squared_error(actual, pred))
    mae = mean_absolute_error(actual, pred)
    r2 = r2_score(actual, pred)
    return rmse, mae, r2
(rmse, mae, r2) = eval_metrics(test_y, predicted_qualities)
# Print out ElasticNet model metrics
print("Elasticnet model (alpha=%f, l1_ratio=%f):" % (alpha, l1_ratio))
print("  RMSE: %s" % rmse)
print("  MAE: %s" % mae)
print("  R2: %s" % r2)

Al ejecutarlo, debería de salir los siguientes resultados:

...

Se considera que, para este experimento, estos resultados son correctos, por lo que únicamente faltará registrar el experimento en la interfaz del componente MLFlow.

Paso 5.- Registrar los datos de entrenamiento y del modelo en MLFlow

Para registrar el experimento en el módulo de MLFlow, se creará un nuevo párrafo con el siguiente código:

Code Block
languagepy
%python
with mlflow.start_run():
    mlflow.set_tag("mlflow.runName", "DiabetesModelGenerator")
    mlflow.log_param("alpha", alpha)
    mlflow.log_param("l1_ratio", l1_ratio)
    mlflow.log_metric("rmse", rmse)
    mlflow.log_metric("r2", r2)
    mlflow.log_metric("mae", mae)
    mlflow.sklearn.log_model(sk_model=lr, artifact_path="model")
    mlflow.end_run()

Este es el código estándar para el seguimiento de un experimento en MLFlow. Incluye todo dentro de “with mlflow.start_run()“ para iniciar un nuevo experimento.

Las otras funciones son:

  • mlflow.set_tag("mlflow.runName", ...) →(opcional) para establecer un nombre de ejecución del experimento. Si no usas esto. sólo tendrás un id autogenerado, el ID del experimento.

  • mlflow.log_param(...) → registra un parámetro de entrada para el experimento.

  • mlflow.log_metric(...) → registra una métrica de salida para el experimento.

  • mlflow.sklearn.log_model(lr, "model") → registra y guarda el modelo entrenado con todos los archivos de metadatos necesarios.

Si ejecutas este párrafo, tendrás una salida como esta. El proceso de registro ha terminado bien.

...

Si vas a la interfaz de usuario del Gestor de Modelos en el Control Panel:

...

Podrás ver la ejecución del experimento con todos los parámetros de registro, las métricas y los archivos:

...

Al hacer clic en el experimento, se abre la página de detalles:

...

Y, al final de la página, podemos revisar todos los archivos de este experimento y el propio modelo:

...

El run id de la derecha (runs:/859953c3a0dd4596bd15d864e91081ab/model) es importante porque lo vas a utilizar para publicar el modelo en el siguiente paso. Ésta es la referencia que necesitas para recoger el modelo en el MLFlow y hacer algunas evaluaciones con él.

También puedes registrarlo con el fin de etiquetarlo, versionarlo y tenerlo fuera del experimento. Puedes hacerlo con el código o puedes utilizar el botón de registro en el lado derecho:

...

Y si vas a la pestaña modelo, puedes verlo y trabajar con él.

Paso 4: Crear una función Serverless en Python que evalúe los datos contra el modelo MLFlow

Con el modelo generado anteriormente, vas a crear una función Python que, con una entrada simple o múltiple, pueda obtener una predicción usando el modelo.

El primer paso es ir al menú Serverless Applications.

...

A continuación vas a crear (con el botón +) una nueva aplicación y vas a rellenar todas las entradas necesarias:

...

Puedes crear un nuevo repositorio o utilizar uno existente. En cualquier caso, vas a tener una nueva aplicación como esta:

...

Luego puedes ir al botón "Ver" y luego a la pestaña de funciones:

...

El siguiente paso es crear o utilizar una función serverless existente. Haz clic en "Create Function" y vas a crear Del código anterior, es interesante hacer referencia a la línea de

Code Block
languagepy
mlflow.sklearn.log_model(sk_model=lr, artifact_path="model")

Con este comando, se va a registrar y guardar el modelo entrenado, con todos los archivos de metadatos necesarios.

Si todo va correctamente, el resultado será como el siguiente:

...

Si se navega hasta el gestor de modelos, se podrá ver la ejecución del experimento, con todos los parámetros de registro, las métricas y los archivos. Para ello, se navegará al menú de Procesamiento > MLOps:

...

Accediendo, se mostrará entonces el resumen de los modelos ejecutados

...

Al hacer clic en el experimento, se abre la página de detalles:

...

Y, al final de la página, se va a poder revisar todos los archivos de este experimento y el propio modelo:

...

El identificador (ID) del experimento de la derecha (runs:/859953c3a0dd4596bd15d864e91081ab/model) es importante porque se va a utilizar para publicar el modelo en el siguiente paso. Ésta es la referencia que se necesita para recoger el modelo en el MLFlow y hacer algunas evaluaciones con él.

También se puede registrar con el fin de etiquetarlo, versionarlo y tenerlo fuera del experimento. Se va a poder hacer con el código o se puede utilizar el botón de registro en el lado derecho:

...

Una vez registrado, aparecerá un aviso en la parte derecha indicando que se ha registro el experimento correctamente.

...

Navegando a la pestaña del modelo, se podrá verlo y trabajar con él.

Paso 7.- Crear una función serverless en Python que evalúe los datos contra el modelo MLFlow

Con el modelo generado anteriormente, se va a crear una función de Python que, con una entrada simple o múltiple, pueda obtener una predicción usando el modelo.

Para ello, se navegará hasta el menú de Lógica > Mis Funciones.

...

Esto mostrará el listado de aplicaciones serverless disponibles para el usuario. Se creará una nueva aplicación pulsando en el botón «+» situado en la parte superior derecha.

...

Aparecerá entonces el asistente de creación de la aplicación. En caso de no contar con un repositorio GIT en el que trabajar, habrá que crear uno nuevo rellenando la siguiente información:

...

  • Nombre: el identificador único de la aplicación serverless.

  • URL del servidor de GIT: dirección donde se encuentra el repositorio de GIT.

  • Usuario del GIT: el usuario con permisos en el repositorio.

  • Token privado: credencial de acceso al repositorio

  • Nombre del grupo de GIT: propiedad que sólo aplica a GitLab.

  • Rama GIT de trabajo: rama en la que trabajar en el repositorio.

Una vez rellena la información, se pulsará en el botón de «Crear» situado en la parte superior derecha de la pantalla para terminar la creación de la aplicación, y se regresará al listado de aplicaciones disponibles, donde ya aparecerá la que se acaba de crear.

...

Seguidamente, se pulsará en el botón de «Ver» para visualizar el modelo, y se navegará a la pestaña de «Funciones»:

...

El siguiente paso será crear o utilizar una función serverless existente. Se pulsará en el botón de «Create Function», y se crearán tres archivos.

En primer lugar, selecciona la rama principal en el lado derecho:

...

El último paso es poner las variables de entorno para el modelo con el botón:

...

Paso

...

8.- Evaluación del modelo

Ahora puedes probar el modelo con la API REST con Postman por ejemplo enviando un array de JSON con la entrada:

...