[Job - 29704] Senior SRE, Brazil

Somos especialistas em transformação tecnológica, unindo expertise humana à IA para criar soluções tech escaláveis. Com mais de 8,000 CI&Ters ao redor do mundo, já formamos parcerias com mais de 1,000 clientes durante nossos 30 anos de história. Inteligência Artificial é nossa realidade.

Importante: se você reside na Região Metropolitana de Campinas, sua presença nos escritórios da cidade será obrigatória, conforme a política de frequencia vigente.

Estamos em busca de um profissional talentoso para integrar o nosso time e garantir alta confiabilidade das aplicações através de práticas avançadas de SRE, resiliência, observabilidade e automação em cloud.

Responsabilidades:
Implementar e evoluir estratégia completa de observabilidade
Definir e operar com SLIs, SLOs e Error Budgets
Garantir resiliência e escalabilidade
Reduzir incidentes e prevenir reincidência
Evoluir arquitetura operacional na AWS
Criar automações e mecanismos de auto-recuperação
Atuar como facilitador técnico para squads

Requisitos Técnicos:

SRE e Confiabilidade
Resiliência de sistemas distribuídos
Self-healing (auto recuperação)
Escalabilidade baseada em eventos
Gestão de incidentes e pós-mortem

Observabilidade Completa:
Logs, Traces e Métricas
Custom Metrics
APM
Ferramentas: Datadog (ou similares)
Construção de:
Dashboards e painéis
Monitoramento e alertas inteligentes
Alarmes em tempo real (incidentes, budgets → comunicação com times)
Testes sintéticos

Gestão de Confiabilidade
Definição e acompanhamento de:
SLI / SLO / Error Budget
RTO / RPO
Visão orientada a disponibilidade e experiência

Infraestrutura e Plataforma:
AWS (CloudWatch, X-Ray, ECS/EKS, Lambda)
Docker / Containers
Arquitetura distribuída
Infraestrutura como código e automação

Diferenciais:
Experiência em ambientes críticos (alta disponibilidade)
Chaos Engineering
Uso de IA para análise preditiva de incidentes
Otimização de custos em cloud (FinOps)

Se você gostou, inscreva-se e boa sorte!

#LI-GV1

#Senior