Prometheus vs VictoriaMetrics: cuándo y por qué cambiar en entornos grandes

Prometheus se ha consolidado como la herramienta de referencia para la monitorización de métricas en entornos modernos, especialmente en ecosistemas Kubernetes. Su modelo de datos, su lenguaje de consultas y su integración con el resto del ecosistema nativo en la nube lo han convertido en una elección natural para equipos que empiezan con observabilidad. Sin embargo, cuando el volumen de métricas crece y la retención se alarga, aparecen limitaciones que obligan a replantear la arquitectura. Es aquí donde VictoriaMetrics entra en escena como alternativa compatible pero diseñada desde el principio para escalar de forma más eficiente.

La decisión entre mantener Prometheus o migrar a VictoriaMetrics no es binaria ni ideológica. Ambas soluciones comparten el mismo protocolo de ingesta y el mismo lenguaje de consultas, lo que facilita la transición. La diferencia está en cómo gestionan el almacenamiento, cómo consumen recursos y cómo se comportan cuando el volumen de series temporales supera ciertos umbrales. Entender estas diferencias permite tomar decisiones informadas en lugar de seguir modas o recomendaciones genéricas que no encajan con la realidad de cada infraestructura.

Este artículo explora las compensaciones prácticas entre ambas herramientas, los escenarios donde cada una tiene sentido y los errores habituales que se cometen al evaluar o migrar entre ellas. El objetivo no es declarar un ganador, sino ofrecer criterio para decidir cuándo merece la pena cambiar y cuándo es mejor quedarse donde se está.

El punto de inflexión: cuándo Prometheus empieza a doler

Prometheus funciona excepcionalmente bien en entornos pequeños y medianos. Un único servidor puede manejar cientos de miles de series temporales sin problemas, y su modelo de almacenamiento local simplifica el despliegue y la operación. El diseño original parte de la base de que cada instancia de Prometheus es independiente y que la federación o el almacenamiento remoto se usan solo cuando es estrictamente necesario.

Los problemas aparecen cuando el número de series activas supera el millón o cuando se necesita retención larga sin comprometer la velocidad de consulta. Prometheus consume memoria de forma proporcional al número de series en el head block, y aunque las versiones recientes han mejorado la eficiencia, sigue siendo habitual encontrar instancias que requieren decenas de gigabytes de RAM solo para mantener el índice en memoria. La compresión del almacenamiento en disco es buena, pero no está optimizada para retenciones de meses o años.

Otro punto de fricción común es la alta disponibilidad. Prometheus no replica datos de forma nativa; la solución estándar pasa por desplegar múltiples instancias idénticas que recolectan las mismas métricas. Esto funciona, pero duplica el coste de almacenamiento y la carga en los objetivos de recolección. Cuando se necesita consolidar datos de múltiples clusters o regiones, la federación jerárquica se complica y se vuelve frágil.

Conviene aclarar que VictoriaMetrics no es la única respuesta a estos problemas. En el propio ecosistema Prometheus existen proyectos consolidados como Thanos, Cortex y Grafana Mimir, que resuelven la retención larga, la alta disponibilidad y la consolidación multicluster manteniendo Prometheus como motor de recolección. Cada uno tiene sus propias compensaciones en complejidad operativa, dependencias externas (como S3 o Cassandra) y curva de aprendizaje. Situar VictoriaMetrics como alternativa tiene sentido precisamente porque busca resolver los mismos problemas con una arquitectura más sencilla y menor consumo de recursos.

Qué aporta VictoriaMetrics en la práctica

VictoriaMetrics nació específicamente para resolver los problemas de escala de Prometheus manteniendo compatibilidad con su ecosistema. Su motor de almacenamiento está optimizado para consumir menos memoria y disco, y su arquitectura permite tanto despliegues monolíticos como distribuidos sin cambiar de producto. Esta flexibilidad es valiosa: se puede empezar con una única instancia y crecer hacia un cluster cuando sea necesario.

La diferencia más visible en entornos grandes está en el consumo de recursos. Los benchmarks oficiales reportan hasta 7 veces menos RAM y 7 veces menos espacio en disco frente a Prometheus, Thanos o Cortex para el mismo volumen de series. Esto no es magia: el diseño del almacenamiento prioriza la eficiencia en compresión y en gestión del índice invertido. Para infraestructuras que pagan por recursos cloud, esta reducción se traduce directamente en ahorro de costes.

Otro aspecto relevante es la ingesta de datos históricos. VictoriaMetrics permite escribir métricas con marcas de tiempo pasadas sin penalización de rendimiento, algo que en Prometheus puede causar problemas en el head block. Esto facilita migraciones, recuperación de datos desde backups o integración con sistemas que generan métricas con retraso.

La versión en cluster ofrece replicación nativa, lo que simplifica la alta disponibilidad sin duplicar toda la infraestructura de recolección. Los datos se distribuyen y replican entre nodos de almacenamiento, y las consultas se balancean automáticamente. Esto reduce la complejidad operativa en comparación con mantener múltiples instancias de Prometheus federadas.

Dentro del ecosistema VictoriaMetrics hay dos componentes clave que conviene conocer: vmagent, que actúa como recolector ligero y puede sustituir al scraper de Prometheus manteniendo la misma configuración, y vmalert, que evalúa reglas de grabación y alertas contra VictoriaMetrics y envía las notificaciones al Alertmanager habitual. Esto significa que la migración puede ser gradual y por componentes, sin necesidad de sustituir toda la pila de golpe.

Compatibilidad y migración: qué funciona y qué no

VictoriaMetrics implementa el protocolo de escritura remota de Prometheus y soporta PromQL, lo que permite usarlo como almacenamiento de largo plazo sin cambiar la configuración de scraping. Esta compatibilidad cubre la mayoría de casos de uso, pero no es total. Algunas funciones avanzadas de PromQL tienen comportamientos ligeramente diferentes, y ciertas características experimentales de Prometheus pueden no estar soportadas.

A esto se suma que VictoriaMetrics ofrece su propio lenguaje, MetricsQL, que extiende PromQL con funciones adicionales pensadas para consultas más eficientes y expresivas sobre grandes volúmenes. Esto tiene una consecuencia práctica relevante: si en la migración se empiezan a usar funciones específicas de MetricsQL, una eventual vuelta a Prometheus puro requerirá reescribir esas consultas. Conviene tenerlo presente antes de adoptar masivamente funciones propias de VM en dashboards y alertas.

La migración más sencilla consiste en configurar Prometheus para enviar datos a VictoriaMetrics mediante escritura remota, manteniendo Prometheus como motor de consultas durante un periodo de transición. Esto permite validar que las consultas funcionan correctamente antes de apuntar Grafana u otras herramientas directamente a VictoriaMetrics. Una vez confirmado, se puede desactivar el almacenamiento local de Prometheus o incluso eliminarlo por completo, dejando solo los recolectores.

Otro enfoque es reemplazar Prometheus directamente por VictoriaMetrics en modo monolítico, que implementa tanto el endpoint de scraping como el de consultas. Esto simplifica la arquitectura pero requiere ajustar las configuraciones de service discovery y relabeling, que aunque similares, no son idénticas.

En cuanto a licencias, ambas soluciones son open source bajo Apache 2.0. VictoriaMetrics ofrece además una versión Enterprise con funcionalidades adicionales como downsampling nativo, múltiples políticas de retención y detección de anomalías. Esto es relevante porque algunas características que a veces se atribuyen a VictoriaMetrics en general solo están disponibles en la versión de pago.

El elefante en la habitación: cardinalidad

Ningún sistema de series temporales, por muy eficiente que sea, sobrevive a una cardinalidad mal diseñada. La cardinalidad es el número de combinaciones únicas de etiquetas que se generan para una métrica, y crece de forma multiplicativa. Etiquetar una métrica con un identificador único por petición, un UUID de usuario o una URL completa con parámetros es la forma más rápida de matar cualquier sistema, incluido VictoriaMetrics.

Antes de plantear una migración conviene auditar qué métricas se están recolectando y con qué etiquetas. Es habitual descubrir que entre el 20% y el 40% de las series activas corresponden a métricas que nadie consulta o a combinaciones de etiquetas que no aportan valor analítico. Reducir cardinalidad suele dar más rendimiento que cambiar de herramienta.

VictoriaMetrics expone mecanismos para proteger el sistema frente a cardinalidad descontrolada, como el parámetro -search.maxUniqueTimeseries y los límites por tenant en el modo cluster. Prometheus, por su parte, permite aplicar metric_relabel_configs para descartar series problemáticas en el momento de la recolección. Usar estas protecciones es más importante que elegir una u otra herramienta.

Downsampling y retención larga

Uno de los puntos donde las diferencias se notan más es la gestión de retenciones largas. Prometheus no implementa downsampling de forma nativa: guarda todos los puntos al detalle original durante todo el periodo de retención. Para retenciones superiores a unas semanas esto se vuelve costoso en disco y, sobre todo, lento en consultas que abarcan rangos amplios.

La solución en el ecosistema Prometheus pasa por usar recording rules para precalcular agregaciones a resoluciones más bajas, o delegar el almacenamiento a largo plazo en Thanos o Mimir, que sí implementan downsampling automático. En VictoriaMetrics el escenario depende de la versión: la Community no incluye downsampling nativo (se resuelve igualmente con recording rules), mientras que la Enterprise sí lo ofrece junto con la capacidad de definir múltiples políticas de retención por grupos de métricas.

Para equipos que necesitan retenciones de meses o años sin degradar el rendimiento de consulta, este es un criterio decisivo que conviene evaluar antes de comprometerse con una u otra arquitectura.

Errores habituales al evaluar o migrar

Uno de los errores más frecuentes es asumir que VictoriaMetrics siempre será más eficiente sin medir primero. En entornos pequeños, la diferencia de recursos puede ser marginal y no justificar el cambio. La ventaja real aparece cuando el volumen de series activas supera cierto umbral, que varía según la configuración del hardware y la naturaleza de las métricas. Migrar prematuramente añade complejidad sin beneficio claro.

Otro malentendido común es esperar que VictoriaMetrics resuelva problemas de diseño en la recolección de métricas. Si la cardinalidad es excesiva porque se están etiquetando series con identificadores únicos o valores sin límite, ningún sistema de almacenamiento funcionará bien a largo plazo. Antes de cambiar de herramienta, conviene revisar qué métricas se están recolectando y si todas son realmente necesarias.

También es habitual subestimar el esfuerzo de validación de consultas. Aunque PromQL es compatible, existen diferencias sutiles en cómo se evalúan ciertas funciones, especialmente las relacionadas con agregaciones temporales o cruces entre series. Migrar sin probar los paneles y alertas críticas en un entorno de pruebas puede llevar a sorpresas desagradables en producción.

Finalmente, algunos equipos migran a VictoriaMetrics esperando que el modo cluster sea necesario desde el principio, cuando en realidad el modo monolítico podría cubrir sus necesidades durante años. La versión monolítica es más sencilla de operar y mantener, y solo tiene sentido pasar a cluster cuando el volumen de ingesta o consultas supera la capacidad de un único servidor bien dimensionado.

Criterios de decisión: cuándo quedarse, cuándo cambiar

Prometheus sigue siendo la mejor opción para entornos donde el volumen de métricas es manejable, la retención no supera unas semanas y la simplicidad operativa es prioritaria. Su integración con el ecosistema cloud native es impecable, y la comunidad alrededor de Prometheus es enorme. Si el sistema actual funciona sin problemas de recursos ni de rendimiento, no hay razón para cambiar.

VictoriaMetrics tiene sentido cuando el consumo de recursos de Prometheus se vuelve problemático, cuando se necesita retención larga sin degradar el rendimiento, o cuando se requiere consolidar métricas de múltiples fuentes en un único sistema con alta disponibilidad nativa. También es una opción razonable para nuevos despliegues grandes donde se sabe de antemano que el volumen será alto.

Para equipos que ya están invertidos en el ecosistema Prometheus y quieren resolver la retención larga sin cambiar de motor, Thanos o Grafana Mimir son alternativas perfectamente válidas, aunque con mayor complejidad operativa. La elección entre VictoriaMetrics y estas soluciones depende en buena medida de si se prefiere una arquitectura más sencilla y autocontenida (VM) o una que se apoya en almacenamiento de objetos y componentes especializados (Thanos, Mimir).

La decisión no tiene por qué ser definitiva. Es posible empezar con Prometheus y migrar a VictoriaMetrics cuando el crecimiento lo justifique, o usar ambos en paralelo: Prometheus para métricas de corto plazo y consultas en tiempo real, VictoriaMetrics para almacenamiento de largo plazo y análisis históricos. Esta arquitectura híbrida es común en organizaciones que valoran la estabilidad y prefieren cambios graduales.

Para seguir aprendiendo

Estas referencias permiten profundizar en los aspectos técnicos y operativos de ambas herramientas:

Documentación oficial de Prometheus — https://prometheus.io/docs/. Mantenida por la Cloud Native Computing Foundation. Cubre desde conceptos básicos hasta configuración avanzada de federación y almacenamiento remoto.
Documentación oficial de VictoriaMetrics — https://docs.victoriametrics.com/. Referencia completa de la herramienta, incluyendo guías de migración desde Prometheus, configuración de cluster y comparativas de rendimiento.
Repositorio VictoriaMetrics en GitHub — https://github.com/VictoriaMetrics/VictoriaMetrics. Contiene ejemplos de configuración, benchmarks publicados y discusiones técnicas sobre decisiones de diseño del motor de almacenamiento.
Blog técnico de VictoriaMetrics — https://victoriametrics.com/blog/. Artículos con pruebas comparativas rigurosas entre VM, Prometheus, Thanos y otras soluciones. Especialmente útil para entender diferencias de rendimiento en escenarios reales.
«Prometheus: Up & Running» (2ª edición, 2023) de Brian Brazil y Julien Pivotto, publicado por O’Reilly. Explica en detalle el modelo de datos, el diseño interno y las mejores prácticas operativas de Prometheus. La segunda edición incorpora todas las novedades desde la versión 2.x.
Blog de Robust Perception — https://www.robustperception.io/blog/. Archivo de artículos profundos sobre PromQL, optimización de consultas y patrones de etiquetado eficientes escritos por Brian Brazil. La actividad reciente es limitada, pero el contenido histórico sigue siendo una referencia valiosa para entender el diseño de PromQL.

Prometheus vs VictoriaMetrics: cuándo y por qué cambiar en entornos grandes

El punto de inflexión: cuándo Prometheus empieza a doler

Qué aporta VictoriaMetrics en la práctica

Compatibilidad y migración: qué funciona y qué no

El elefante en la habitación: cardinalidad

Downsampling y retención larga

Errores habituales al evaluar o migrar

Criterios de decisión: cuándo quedarse, cuándo cambiar

Para seguir aprendiendo

por Tomas Pardellas

Deja una respuesta Cancelar la respuesta

Te has perdido

Podman como alternativa a Docker sin demonio centralizado

Cgroups y namespaces: las raíces del contenedor moderno

Davis AI y Dynatrace Intelligence: una lectura técnica para sysadmins sin tiempo que perder

OOM Killer en Linux: cómo el kernel decide qué proceso muere y cómo controlarlo

El punto de inflexión: cuándo Prometheus empieza a doler

Qué aporta VictoriaMetrics en la práctica

Compatibilidad y migración: qué funciona y qué no

El elefante en la habitación: cardinalidad

Downsampling y retención larga

Errores habituales al evaluar o migrar

Criterios de decisión: cuándo quedarse, cuándo cambiar

Para seguir aprendiendo

por Tomas Pardellas

Entradas relacionadas

Deja una respuesta Cancelar la respuesta

Te has perdido