Para quien lleva años administrando sistemas, la llegada de términos como SLI, SLO y KPI puede parecer una moda más o un lenguaje de moda que no aporta mucho a la práctica diaria. Sin embargo, estos conceptos, aunque a menudo se presentan con una capa de marketing o jerga de startups, esconden una forma muy útil de darle sentido a la monitorización y la gestión de servicios en entornos cada vez más complejos.
Hoy en día, cuando la infraestructura es dinámica, distribuida y el impacto de una caída o degradación puede ser inmediato y costoso, entender qué medir, cómo medirlo y qué objetivos fijar es clave para no perderse en un mar de métricas irrelevantes o alertas que no ayudan. Este artículo busca traducir esa jerga a un lenguaje práctico para quien ya conoce de sistemas, pero quiere afinar su criterio y evitar trampas comunes.
Al terminar de leer, tendrás claro qué son estos conceptos, por qué importan y cómo decidir cuándo y cómo aplicarlos sin complicarte la vida ni perder foco en lo que realmente importa.
De la monitorización tradicional a la observabilidad con propósito
En los viejos tiempos de la monitorización, la práctica habitual era vigilar recursos: CPU, memoria, disco, tráfico de red. Se configuraban alertas basadas en umbrales estáticos y se respondía a fallos o degradaciones evidentes. Esta aproximación es válida y sigue siendo necesaria, pero no siempre suficiente para entender la experiencia real del usuario o la salud de un servicio.
Ahí es donde entran los conceptos de SLI (Service Level Indicator), SLO (Service Level Objective) y KPI (Key Performance Indicator). Estos no son solo métricas más, sino que representan una manera de alinear la monitorización con el valor que el servicio entrega y con las expectativas reales, tanto de usuarios como del negocio.
¿Qué es un SLI? La métrica que refleja la experiencia real
Un SLI es una métrica concreta que mide un aspecto crítico del servicio desde la perspectiva del usuario o consumidor. Puede ser la latencia de respuesta, el porcentaje de peticiones exitosas, la tasa de errores o la disponibilidad en un periodo determinado. La clave está en que el SLI debe reflejar algo que realmente importa para la experiencia o funcionalidad del servicio, no solo un recurso técnico.
Por ejemplo, para un servicio web, el SLI podría ser el porcentaje de peticiones que responden en menos de 300 ms. No se trata solo de medir CPU o memoria, sino de medir el resultado que el usuario percibe.
Los SLO: objetivos claros para no perder el rumbo
Un SLO es el objetivo o nivel aceptable que se fija para un SLI. Por ejemplo, un SLO podría ser que el 99.9% de las peticiones respondan en menos de 300 ms en un mes. Este objetivo debe ser realista, alineado con las capacidades técnicas y con las expectativas del negocio o los usuarios.
Fijar SLOs ayuda a priorizar esfuerzos: si el servicio cumple con sus SLOs, se puede considerar que está en un estado aceptable. Si no, es señal de que algo debe revisarse. Esto evita la tiranía de las alertas constantes por cualquier pequeña desviación y permite focalizar en lo que realmente impacta.
KPIs: indicadores clave para el negocio y la operación
Los KPIs son métricas que reflejan el rendimiento o éxito de un área o proceso, y pueden incluir aspectos técnicos, operativos o de negocio. En el contexto de la observabilidad, un KPI puede ser la tasa de errores, el tiempo medio de reparación o incluso métricas de satisfacción del usuario.
Mientras los SLIs y SLOs se centran en la calidad del servicio, los KPIs suelen ser más amplios y pueden ayudar a tomar decisiones estratégicas o tácticas. Por ejemplo, un KPI puede mostrar si una mejora técnica está reduciendo el impacto en usuarios o si una inversión en infraestructura está dando resultados.
Patrones habituales y decisiones clave en entornos reales
En equipos con experiencia, no es raro encontrarse con una gran cantidad de métricas y alertas que generan ruido y fatiga. Aquí, los SLOs pueden actuar como filtro para definir qué merece atención inmediata y qué puede esperar. Por ejemplo, un equipo puede tener cientos de métricas, pero solo una docena de SLIs con SLOs claros que activan alertas o revisiones.
Decidir qué SLIs y SLOs establecer requiere criterio y colaboración entre operaciones, desarrollo y negocio. Es habitual que se arranque con objetivos conservadores y se ajusten según la realidad técnica y la tolerancia al riesgo. También es importante revisar estos objetivos periódicamente, porque un SLO demasiado estricto puede generar alertas constantes y desgaste, mientras que uno demasiado laxo puede ocultar problemas reales.
Es recomendable comenzar con pocos SLIs bien definidos y objetivos claros, en lugar de intentar cubrir todo. Esto facilita la comunicación y la toma de decisiones, y evita la parálisis por análisis.
Errores comunes y malentendidos
Un error frecuente es confundir SLIs con métricas técnicas tradicionales. Por ejemplo, medir la carga de CPU no es un SLI a menos que se demuestre que impacta directamente en la experiencia del usuario. Otro error es fijar SLOs demasiado ambiciosos sin considerar las limitaciones técnicas, lo que genera alertas constantes y pérdida de confianza en el sistema de monitorización.
También es habitual que los equipos establezcan demasiados SLOs, lo que diluye el foco y dificulta priorizar. La recomendación es mantener un conjunto manejable y representativo de SLIs, con objetivos alineados y revisados.
Trade-offs: qué se gana y qué se pierde
Implementar SLIs y SLOs aporta claridad y foco, facilitando la comunicación entre equipos técnicos y negocio, y mejorando la gestión del riesgo. Sin embargo, implica un esfuerzo inicial para definir métricas relevantes, fijar objetivos realistas y mantenerlos actualizados.
Además, puede no ser adecuado para todos los entornos. En sistemas muy simples o con baja criticidad, la sobrecarga de definir SLIs y SLOs puede no justificar el beneficio. En cambio, en servicios críticos o con alta complejidad, esta práctica puede ser la diferencia entre reaccionar a tiempo o sufrir impactos graves.
Recomendaciones finales para veteranos del sysadmin
La adopción de SLIs y SLOs no es una moda pasajera, sino una evolución natural para gestionar servicios en entornos modernos. Para quienes vienen de la monitorización tradicional, el cambio está en pasar de medir recursos a medir experiencia y valor.
Es importante no perder de vista que estos conceptos son herramientas para tomar mejores decisiones, no un fin en sí mismos. La clave está en mantener el criterio, empezar simple, colaborar con las áreas involucradas y ajustar con datos reales.
Por último, recordar que la observabilidad es mucho más que métricas: incluye logs, trazas y contexto. Pero sin SLIs y SLOs claros, la observabilidad puede convertirse en ruido en lugar de guía.
Resumiendo
En resumen, los SLIs son las métricas que reflejan la experiencia real del usuario, los SLOs son los objetivos que se fijan para esas métricas y los KPIs son indicadores clave que ayudan a tomar decisiones a nivel operativo y de negocio. Adoptar estos conceptos aporta foco y criterio, pero requiere definir bien qué medir, fijar objetivos realistas y evitar la trampa de la sobrecarga de métricas.
Para quien administra sistemas, integrar esta visión en la práctica diaria puede marcar la diferencia entre reaccionar a ciegas o anticiparse con datos relevantes. La observabilidad con propósito es un paso más hacia sistemas más confiables y equipos más efectivos.

