Buscamos un/a SRE (Site Reliability Engineer) para unirse a Factor IT y aportar al funcionamiento robusto de plataformas modernas. El/la candidato/a deberá combinar habilidades de observabilidad, cloud y automatización para asegurar que los servicios se mantengan estables incluso ante variaciones de demanda y cambios frecuentes.
Requisitos y experiencia esperada:
- Observabilidad: experiencia práctica con Grafana y Datadog para monitoreo, alertas y diagnósticos.
- Cloud: experiencia con Google Cloud Platform (GCP).
- Contenedores y orquestación: conocimientos sólidos en Docker y Kubernetes.
- Infraestructura como código: experiencia con Terraform para aprovisionar y gestionar recursos.
- CI/CD: experiencia en pipelines y automatización de despliegues.
Como parte del rol, valoramos:
- Capacidad para trabajar con enfoque en confiabilidad, trazabilidad de incidentes y mejora continua.
- Mentalidad analítica para identificar causas raíz y proponer acciones preventivas.
- Comunicación clara y colaboración transversal con equipos técnicos.
- Autonomía para gestionar tareas operativas y sostener estándares de calidad en producción.
- Orientación a resultados, priorización efectiva y cuidado por la experiencia del usuario final.
Deseable: experiencia en sistemas distribuidos, especialmente en contextos donde la latencia, la tolerancia a fallas y el escalamiento sean críticos.
- Garantizar la confiabilidad, disponibilidad y rendimiento de servicios en producción.
- Implementar y mantener prácticas de Observabilidad con Grafana y Datadog (métricas, alertamiento y trazabilidad).
- Administrar y optimizar sistemas en Google Cloud Platform (GCP), asegurando operaciones estables y escalables.
- Construir y operar componentes con Docker y Kubernetes, velando por buenas prácticas de runtime y resiliencia.
- Automatizar la infraestructura mediante Terraform, promoviendo entornos reproducibles y controlados.
- Desarrollar y mejorar pipelines CI/CD para facilitar despliegues consistentes, versionables y seguros.
- Participar en la definición de SLO/SLI, análisis de incidentes (post-mortems) y acciones preventivas.
- Colaborar con equipos de desarrollo para reducir el “time to detect” y el “time to resolve” ante fallas.
En Factor IT, líder en tecnología y soluciones de datos, buscamos un/a SRE para fortalecer la confiabilidad y el rendimiento de plataformas en entornos modernos de producción. Participarás en iniciativas de Data & Analytics, Transformación Digital e integración de IA en clientes regionales, con foco en operar sistemas distribuidos de alta disponibilidad. Trabajarás junto a equipos de ingeniería para diseñar, implementar y automatizar prácticas de observabilidad, despliegues confiables y gestión de infraestructura como código. Tu aporte permitirá mejorar la experiencia del usuario final, reducir incidentes y acelerar la entrega de cambios con calidad en el sector financiero y otros rubros.
- Experiencia en sistemas distribuidos.
Valoramos especialmente el conocimiento aplicado a la resiliencia, el manejo de fallas parciales, y el diseño/operación de componentes que deben escalar y mantenerse disponibles.