Sua missão
Como Cloud Engineer, sua missão será garantir que a infraestrutura que sustenta essas decisões funcione com alta disponibilidade, segurança e escalabilidade. Você atuará na evolução da nossa plataforma, contribuindo para que nossos times desenvolvam e entreguem produtos com autonomia, confiabilidade e velocidade.
Seção: O que você vai fazer no dia a dia
- Construir observabilidade e instrumentação ponta a ponta no Datadog, incluindo configuração de APM, logs, dashboards e monitors.
- Operar e evoluir nosso cluster GKE de produção, que atualmente hospeda mais de 28 microsserviços, além de componentes como Kafka, MongoDB e Cloud SQL.
- Manter e aprimorar nossos pipelines GitOps utilizando Argo CD, Kustomize e Sealed Secrets, garantindo deploys previsíveis, auditáveis e seguros.
- Escrever e revisar módulos Terraform seguindo o framework FAST, promovendo reutilização, governança e qualidade de código entre ambientes.
- Participar da escala de on-call estruturada via Incident.io e conduzir postmortems blameless, transformando incidentes em melhorias permanentes para a plataforma.
- Atuar continuamente em iniciativas de FinOps, analisando custos de GCP e Datadog, identificando desperdícios e propondo otimizações recorrentes.
- Apoiar as squads Hub e Flow em troubleshooting, capacity planning e segurança operacional, atuando como parceiro técnico dos times.
- Contribuir para a evolução da nossa plataforma interna, fortalecendo práticas de autoatendimento, paved roads e documentação que reduza atritos para os squads de engenharia.
Seção: O que buscamos no seu perfil
Antes de qualquer requisito técnico, buscamos alguém que se conecte com nossa missão de tornar decisões de compliance e risco mais inteligentes, ágeis e confiáveis. Se você se empolga com plataformas que viabilizam decisões críticas em escala, e gosta de equilibrar excelência técnica com pragmatismo de startup, vai se sentir em casa aqui. Procuramos uma pessoa apaixonada por confiabilidade, observabilidade e automação, que entende que infra existe pra acelerar produto, não pra travá-lo. Alguém curioso(a), colaborativo(a) e que enxerga incidentes como oportunidade de aprender, não de culpar.
Seção: Stack & Ferramentas
- Cloud & Infra: GCP (GKE em southamerica-east1, Cloud SQL, Artifact Registry, Cloud Armor, IAM, Networking)
- Orquestração: Kubernetes (GKE em prod + k3s na Hetzner em non-prod)
- GitOps & IaC: Argo CD, Kustomize, Sealed Secrets, Terraform (framework FAST)
- Observabilidade & Incidentes: Datadog (APM, logs, monitors), Incident.io
- Produto & Experimentação: PostHog (feature flags + product analytics)
- CI/CD: GitHub Actions
- Dados & Mensageria: Kafka 3.9 (KRaft, 3 brokers), MongoDB 7.0 ReplicaSet, Dragonfly
- Segurança: Vault (on-prem)
- Aplicação (contexto): Backend Java/Spring Boot, Frontend Next.js/TypeScript
Seção: Requisitos obrigatórios
- Entre 3 e 5 anos de experiência em Cloud Engineering, SRE, DevOps ou Platform Engineering.
- Experiência prática com Kubernetes operado em ambientes de produção.
- Vivência com GCP em produção, especialmente GKE, IAM, Networking e Cloud SQL, ou experiência equivalente em AWS com interesse em aprofundar conhecimentos em GCP.
- Experiência com observabilidade ponta a ponta utilizando Datadog, Grafana, Prometheus ou ferramentas similares.
- Experiência com GitOps utilizando Argo CD.
- Vivência com pipelines de CI/CD utilizando GitHub Actions, GitLab CI ou ferramentas equivalentes.
- Experiência com Terraform em ambientes produtivos.
- Disponibilidade para participar da escala de on-call.
- Inglês técnico para leitura de documentação, RFCs e troubleshooting.
Seção: O que pode te destacar ainda mais
- Experiência em fintechs, empresas de compliance ou ambientes regulados.
- Capacidade de realizar troubleshooting em aplicações Java/Spring Boot.
- Vivência com operação e boas práticas de Kafka e MongoDB em produção.
- Experiência prática com FinOps, cost allocation, rightsizing e otimização de recursos em cloud.
- Participação em comunidades técnicas, eventos ou compartilhamento de conhecimento através de talks e meetups.
- Domínio no uso de ferramentas de AI Agent Development, como Claude Code ou Codex, além de conhecimentos em MCP, Skills e Rules aplicados ao dia a dia de engenharia.
Seção: Incentivos oferecidos pela VAAS
- Descanso remunerado de 30 dias após 1 ano
- Auxílio Caju (alimentação e transporte) para quem atua em modelo híbrido ou presencial
- Wellhub (antigo Gympass)
- Telemedicina Conexa & Psicologia Viva, com acesso a:
- 2 consultas mensais com nutricionista
- 2 consultas mensais com psicólogo
- Clínico geral e especialistas com preços reduzidos via Telemedicina
- Descontos em exames da rede Dasa (+15%)
- Descontos em farmácias Pague Menos (20% a 30%)
- Vale estacionamento
- Day off no mês do aniversário
- Remuneração competitiva