El Contexto (El Estado “Pesadilla”)
Para este líder global del retail, aprovisionar un nuevo entorno significaba navegar un laberinto burocrático.
- Silos organizacionales: Distintos equipos de infraestructura, seguridad y bases de datos participaban en el levantamiento de un nuevo clúster.
- Backlogs en competencia: Cada silo tenía su propio backlog y prioridades en conflicto. Una única solicitud de entorno requería coordinar múltiples tickets entre equipos dispersos.
- Retrasos masivos: Lo que debería haber sido un proceso de aprovisionamiento directo significaba habitualmente esperar semanas — a veces meses — para obtener un clúster completamente operativo.
Los desarrolladores estaban bloqueados antes de poder escribir su primera línea de código.
La Arquitectura
Reemplazamos el proceso fragmentado basado en tickets por una Plataforma Interna de Desarrollo (IDP) centralizada impulsada por tecnologías cloud-native de la CNCF.
Antes:
- Tickets manuales a equipos de infraestructura y seguridad dispares.
- Configuraciones de clúster inconsistentes.
- Aprovisionamiento lento de componentes de Día 2 (bases de datos, buckets, permisos).
Después (El Camino Dorado):
- Núcleo IDP centralizado: Una plataforma de infraestructura unificada que orquesta componentes tanto en entornos cloud como on-premise.
- Entrega GitOps: Utilizando Flux para garantizar que el estado del clúster esté versionado, auditado y reconciliado automáticamente.
- Integración transparente: Los desarrolladores solicitan recursos a través de su portal de empresa existente, mientras el equipo de infraestructura gestiona toda la flota mediante una interfaz operativa personalizada.
La Implementación
Diseñamos una solución construida íntegramente sobre tecnologías CNCF de código abierto para proporcionar alta escala y flexibilidad.
1. El Stack
- Orquestación: Crossplane para componer y aprovisionar infraestructura cloud como configuraciones de Kubernetes.
- GitOps: Flux para la entrega continua y la reconciliación de estado.
- Aprovisionamiento de clústeres: La plataforma soporta el aprovisionamiento directo de clústeres gestionados completos de cualquier tipo (OCP, EKS, AKS), además de ofrecer vCluster para crear clústeres de Kubernetes ligeros y altamente aislados cuando no se necesita un clúster gestionado dedicado.
2. El Hack: Sharding de Crossplane y vCluster
El mayor obstáculo técnico fue gestionar el enorme volumen de recursos sin saturar el control plane.
Para resolverlo, implementamos Sharding de Crossplane. Al distribuir la carga entre múltiples instancias de Crossplane, obtuvimos la capacidad de aprovisionar y gestionar miles de componentes individuales de forma fluida.
Mientras que los desarrolladores pueden solicitar clústeres gestionados completos de cualquier tipo (como OCP, EKS o AKS) si sus cargas de trabajo lo requieren, combinamos la configuración con vCluster para lograr una escala masiva. Para los equipos que solo necesitan un entorno rápido y temporal, vCluster nos permitió levantar clústeres virtuales económicos y altamente aislados en una fracción del tiempo, perfectamente optimizados para el desarrollo ágil sin la sobrecarga del aprovisionamiento de clústeres pesados.
La IDP no solo aprovisiona clústeres; también se encarga de gestionar todos los componentes menores de “Día 2” de forma transparente: levanta bases de datos, crea buckets y conecta permisos automáticamente.
Los Resultados
La plataforma está aprovisionando actualmente entre 2 y 3 nuevos clústeres cada semana, con cada entorno soportando de forma nativa a decenas de desarrolladores activos.
| Métrica | Antes | Después |
|---|---|---|
| Tiempo de aprovisionamiento | Semanas o meses | < 4 horas |
| Desbloqueo de desarrolladores | Bloqueados en backlogs | Autoservicio vía portal existente |
| Gestión de infraestructura | Tickets dispersos | Interfaz operativa unificada |
| Mecanismo de escala | Seguimiento manual | Sharding de Crossplane + vCluster |
Conclusión
Al estandarizar y automatizar la infraestructura central, eliminamos los silos que estaban frenando la velocidad de los desarrolladores. Gestionar la infraestructura como código y aprovechar las herramientas avanzadas de la CNCF permitió al cliente transformar un cuello de botella de varios meses en un flujo de trabajo automatizado casi inmediato.