SRE (Site Reliability Engineer)

Buscamos un/a SRE (Site Reliability Engineer) para unirse a Factor IT y aportar al funcionamiento robusto de plataformas modernas. El/la candidato/a deberá combinar habilidades de observabilidad, cloud y automatización para asegurar que los servicios se mantengan estables incluso ante variaciones de demanda y cambios frecuentes.

Requisitos y experiencia esperada:

Observabilidad: experiencia práctica con Grafana y Datadog para monitoreo, alertas y diagnósticos.
Cloud: experiencia con Google Cloud Platform (GCP).
Contenedores y orquestación: conocimientos sólidos en Docker y Kubernetes.
Infraestructura como código: experiencia con Terraform para aprovisionar y gestionar recursos.
CI/CD: experiencia en pipelines y automatización de despliegues.

Como parte del rol, valoramos:

Capacidad para trabajar con enfoque en confiabilidad, trazabilidad de incidentes y mejora continua.
Mentalidad analítica para identificar causas raíz y proponer acciones preventivas.
Comunicación clara y colaboración transversal con equipos técnicos.
Autonomía para gestionar tareas operativas y sostener estándares de calidad en producción.
Orientación a resultados, priorización efectiva y cuidado por la experiencia del usuario final.

Deseable: experiencia en sistemas distribuidos, especialmente en contextos donde la latencia, la tolerancia a fallas y el escalamiento sean críticos.

Garantizar la confiabilidad, disponibilidad y rendimiento de servicios en producción.
Implementar y mantener prácticas de Observabilidad con Grafana y Datadog (métricas, alertamiento y trazabilidad).
Administrar y optimizar sistemas en Google Cloud Platform (GCP), asegurando operaciones estables y escalables.
Construir y operar componentes con Docker y Kubernetes, velando por buenas prácticas de runtime y resiliencia.
Automatizar la infraestructura mediante Terraform, promoviendo entornos reproducibles y controlados.
Desarrollar y mejorar pipelines CI/CD para facilitar despliegues consistentes, versionables y seguros.
Participar en la definición de SLO/SLI, análisis de incidentes (post-mortems) y acciones preventivas.
Colaborar con equipos de desarrollo para reducir el “time to detect” y el “time to resolve” ante fallas.

En Factor IT, líder en tecnología y soluciones de datos, buscamos un/a SRE para fortalecer la confiabilidad y el rendimiento de plataformas en entornos modernos de producción. Participarás en iniciativas de Data & Analytics, Transformación Digital e integración de IA en clientes regionales, con foco en operar sistemas distribuidos de alta disponibilidad. Trabajarás junto a equipos de ingeniería para diseñar, implementar y automatizar prácticas de observabilidad, despliegues confiables y gestión de infraestructura como código. Tu aporte permitirá mejorar la experiencia del usuario final, reducir incidentes y acelerar la entrega de cambios con calidad en el sector financiero y otros rubros.

Experiencia en sistemas distribuidos.

Valoramos especialmente el conocimiento aplicado a la resiliencia, el manejo de fallas parciales, y el diseño/operación de componentes que deben escalar y mantenerse disponibles.