Novedades en Monitorización de Plataforma

Herramientas de Monitorización en Plataforma

Desde esta release la monitorización de Plataforma está basada en el despliegue de Grafana + Grafana Mimir + Prometheus Operator sobre un entorno con Kubernetes.

Veamos de manera detallada para que se usa cada componente:

image-20250107-125708.png
  • Grafana es una herramienta de código abierto para la visualización y análisis de datos en tiempo real, que permite crear dashboards interactivos y monitorear métricas de sistemas, aplicaciones y bases de datos.

  • Grafana Mimir es una plataforma de almacenamiento y gestión de métricas a gran escala, diseñada para ofrecer alto rendimiento y escalabilidad en la recolección y consulta de datos de monitoreo en entornos distribuidos.

  • Prometheus Operator es una herramienta para gestionar y desplegar instancias de Prometheus en Kubernetes, facilitando la configuración, monitoreo y mantenimiento de clústeres Prometheus de forma automatizada y eficiente.

Por lo tanto, Prometheus Operator es el encargado de recoger las métricas de los diferentes componentes de Plataforma → Grafana Mimir actúa como BBDD y almacena esas métricas recogidas → Grafana actúa de consultor y visualizador de las métricas en dashboard o simplemente en consultas simples, adema de tener otras opciones como alertas.

El despliegue de las herramientas se hace mediante ArgoCD que es una herramienta de entrega continua (CD) para Kubernetes que automatiza la implementación y gestión de aplicaciones, utilizando Git como fuente de verdad para la configuración y el estado deseado.

Prometheus Operator

En la parte de Prometheus Operator únicamente será necesario el despliegue del chart y la configuración de los diferentes Service Monitor:

Un ServiceMonitor en Prometheus Operator es un recurso que facilita la configuración y descubrimiento automático de servicios dentro de un clúster de Kubernetes para que Prometheus los monitoree. Define qué servicios deben ser monitoreados, cómo acceder a ellos y qué métricas recolectar.

Desde el cluster de Kubernetes:

Cluster → Monitoring → Monitors → Service Monitor

image-20250107-133734.png
Ejemplo de los Service Monitor configurados en el cluster

En la parte de configuracion de Prometheus Operator, a la hora de desplegar, habria que indicar donde se quieren guardar esas metricas → Grafana Mimir

Grafana Mimir

Grafana Mimir es una plataforma de almacenamiento y gestión de métricas a gran escala, diseñada para ofrecer alto rendimiento y escalabilidad en la recolección y consulta de datos de monitoreo en entornos distribuídos.

Actúa como base de dato de las métricas y se despliega mediante un chart. En este caso solo se configuran parámetros como numero de replicas que se desea, si hay varias zonas de replicación (cluster con HA), time-to-live para las métricas almacenadas (por ejemplo 30 días) etc.

Grafana

Datasource

Un datasource es una fuente de datos externa (como bases de datos, sistemas de monitoreo o APIs) que Grafana usa para consultar y visualizar métricas o información. Ejemplos comunes incluyen Prometheus, InfluxDB, MySQL y Elasticsearch.

En este caso, el datasource que se utiliza es el de Prometheus pero que queda almacenado en la BBDD de Grafana Mimir:

Grafana → Connections → Data source

Dashboards

Un dashboard en Grafana es una interfaz visual que muestra datos en tiempo real mediante gráficos, tablas y otros widgets, permitiendo monitorear y analizar métricas de sistemas y aplicaciones.

Con Grafana Dashboards se pueden hacer las siguientes cosas:

  1. Crear paneles visuales: Diseñar dashboards con gráficos, tablas, mapas y otros widgets.

  2. Visualizar métricas en tiempo real: Mostrar datos actualizados en tiempo real de diversas fuentes.

  3. Filtrar datos: Aplicar filtros y variables para personalizar la visualización de las métricas.

  4. Configurar múltiples fuentes de datos: Conectar y mostrar datos de diferentes sistemas o bases de datos.

  5. Diseñar layouts interactivos: Organizar y ajustar los paneles de manera flexible para una presentación clara.

  6. Compartir dashboards: Exportar o compartir dashboards con otros usuarios o equipos.

  7. Personalización de paneles: Ajustar colores, rangos de valores y otros aspectos visuales.

  8. Añadir alertas: Integrar alertas directamente en los paneles para monitorear métricas específicas.

  9. Historial de datos: Visualizar tendencias y datos históricos para análisis de largo plazo.

Los dashboard configurados pueden estar persistidos en la base de datos de Grafana o directamente inyectarlos como yaml a través de configMaps en Kubernetes en el propio chart, como es el caso.

A través de la interfaz de Grafana se podrán visualizar los diferentes dashboard que se tenga configurados:

Grafana → Dashboards:

  • BBDD

    • MySQL/MariDB

    • MongoDB

    • PosgreSQL

    • Elasticsearch/Opensearch

  • Plataforma

    • JVM/JMX (todos los componentes)

    • Keycloak

    • Kafka

    • Streamsets

    • FlowEngine NodeJS

    • Presto

    • MiniO

    • NGINX

  • Kubernetes

    • Deployments / Pods

    • Nodes

    • NGINX Controller

Panel de dashboards:

Métricas de ejemplo:

Alerts

Grafana Alerts es una funcionalidad que permite configurar notificaciones automáticas basadas en umbrales o condiciones de métricas, alertando a los usuarios sobre eventos o problemas en tiempo real. Las notificaciones se podran enviaran a través de email o Teams ademas de muchas otras opciones.

Con Grafana Alerts se pueden hacer las siguientes cosas:

  1. Configurar alertas: Definir condiciones basadas en métricas específicas.

  2. Establecer umbrales: Definir valores que, al superarse, activan una alerta.

  3. Notificaciones: Enviar alertas a diferentes canales (correo, Slack, PagerDuty, etc.).

  4. Alertas múltiples: Crear varias alertas para un mismo panel o gráfico.

  5. Silenciar alertas: Configurar periodos en los que no se enviarán notificaciones.

  6. Historial de alertas: Consultar y gestionar las alertas pasadas.

  7. Escalado de alertas: Configurar alertas en función de la gravedad y escalarlas a distintos equipos o personas.

  8. Condiciones complejas: Establecer combinaciones de condiciones para activar alertas (ej., combinando varios umbrales o métricas).

Puntos de contacto

Para poder ver o configurar los diferentes puntos de contacto (email, teams…):

Grafana → Alerting → Contact points

Visualización de alertas

Para poder ver o configurar las diferentes alertas en el sistema de Grafana:

Grafana → Alerting → Alert rules

En el siguiente ejemplo, se puede apreciar los diferentes grupos de alertas que hay configurados, como por ejemplo alertas de health check para saber si están caídas las bases de datos a las que se conecta Plataforma:

En el siguiente ejemplo se puede ver la alerta que se recibe vía email cuando un microservicio esta caído:

Explore

El apartado ‘explore’ es una herramienta que permite explorar y consultar datos de manera interactiva y ad-hoc. Sirve para realizar consultas rápidas y análisis de métricas o logs en tiempo real, sin necesidad de configurar dashboards completos. Es útil para depurar problemas y obtener insights instantáneos de las fuentes de datos conectadas.

Grafana → Explore