Estamos em busca de um profissional talentoso para integrar o nosso time e garantir alta confiabilidade das aplicações através de práticas avançadas de SRE, resiliência, observabilidade e automação em cloud.
Responsabilidades:
Implementar e evoluir estratégia completa de observabilidade
Definir e operar com SLIs, SLOs e Error Budgets
Garantir resiliência e escalabilidade
Reduzir incidentes e prevenir reincidência
Evoluir arquitetura operacional na AWS
Criar automações e mecanismos de auto-recuperação
Atuar como facilitador técnico para squads
Requisitos Técnicos:
SRE e Confiabilidade
Resiliência de sistemas distribuídos
Self-healing (auto recuperação)
Escalabilidade baseada em eventos
Gestão de incidentes e pós-mortem
Observabilidade Completa:
Logs, Traces e Métricas
Custom Metrics
APM
Ferramentas: Datadog (ou similares)
Construção de:
Dashboards e painéis
Monitoramento e alertas inteligentes
Alarmes em tempo real (incidentes, budgets → comunicação com times)
Testes sintéticos
Gestão de Confiabilidade
Definição e acompanhamento de:
SLI / SLO / Error Budget
RTO / RPO
Visão orientada a disponibilidade e experiência
Infraestrutura e Plataforma:
AWS (CloudWatch, X-Ray, ECS/EKS, Lambda)
Docker / Containers
Arquitetura distribuída
Infraestrutura como código e automação
Diferenciais:
Experiência em ambientes críticos (alta disponibilidade)
Chaos Engineering
Uso de IA para análise preditiva de incidentes
Otimização de custos em cloud (FinOps)