[Job - 29712] Senior Devops / SRE

Somos especialistas em transformação tecnológica, unindo expertise humana à IA para criar soluções tech escaláveis. Com mais de 8,000 CI&Ters ao redor do mundo, já formamos parcerias com mais de 1,000 clientes durante nossos 30 anos de história. Inteligência Artificial é nossa realidade.

Importante: se você reside na Região Metropolitana de Campinas, sua presença nos escritórios da cidade será obrigatória, conforme a política de frequencia vigente.

Responsabilidades:
Projetar, implementar e evoluir pipelines de CI/CD para aplicações .NET e Next.js, garantindo entregas rápidas, seguras e rastreáveis
Gerenciar e evoluir a infraestrutura de containers com Docker e Kubernetes, incluindo configuração de deploys, autoscaling e gestão de recursos
Implementar e manter a stack de observabilidade do produto: métricas, logs, traces e dashboards operacionais
Criar e manter dashboards SRE com visibilidade sobre SLIs, SLOs e error budgets
Configurar alertas proativos e runbooks para resposta a incidentes
Colaborar com o time de desenvolvimento na definição de padrões de instrumentação de código (logs estruturados, traces distribuídos)
Trabalhar com AWS e práticas de segurança de infraestrutura
Apoiar o time de QA na execução de testes automatizados em ambientes efêmeros e isolados via containers
Contribuir com a cultura de engenharia: documentação de runbooks, post-mortems e melhoria contínua de processos

Requisitos:
Experiência sólida com CI/CD (GitHub Actions, GitLab CI, Azure DevOps ou equivalente)
Domínio de Docker e Kubernetes em ambiente produtivo (deployments, services, ingress, HPA, namespaces)
Experiência com AWS — especialmente EKS, ECR, Secrets Manager, IAM e WAF
Conhecimento em ferramentas de observabilidade: Datadog, Grafana, Prometheus, OpenTelemetry ou similares
Experiência na construção de dashboards operacionais com foco em disponibilidade, latência, erros e saturação (modelo RED / USE / Four Golden Signals)
Familiaridade com infraestrutura como código — Terraform, Pulumi ou CDK
Conhecimento em bancos de dados para monitoramento de saúde de banco (conexões, queries lentas, locks)
Noções de segurança de infraestrutura: secrets rotation, least privilege, network policies
Capacidade de ler e entender código .NET / C# e TypeScript / Next.js para apoiar instrumentação e troubleshooting

Diferenciais:
Experiência com service mesh (Istio, Linkerd) para observabilidade de tráfego entre serviços
Conhecimento em distributed tracing com Jaeger, Tempo ou Datadog APM
Experiência com gestão de incidentes e construção de runbooks e playbooks operacionais
Experiência com testes de performance e carga integrados ao pipeline (k6, Gatling)
Experiência com ambientes multi-tenant e isolamento de observabilidade por cliente

Soft Skills:
Mentalidade de confiabilidade e prevenção — age antes que o problema chegue em produção
Capacidade de comunicar riscos de infraestrutura para times de desenvolvimento e negócio
Colaboração próxima com devs e QAs no ciclo de entrega
Autonomia para investigar e resolver incidentes com senso de urgência
Documentação como hábito: runbooks, decisões de infraestrutura e post-mortems claros e objetivos

#LI-APS1