TOTVS
Descrição
Você fará parte do time de SRE/DevSecOps responsável por uma plataforma de dados e inteligência artificial em arquitetura Cloud Native, base estratégica para diversos produtos da companhia.
Será um papel essencial na evolução técnica e cultural da infraestrutura, garantindo confiabilidade, escalabilidade, segurança e eficiência operacional.
A pessoa nessa posição liderará iniciativas de automação, observabilidade e resiliência, além de capacitar outras equipes a entregarem software com mais qualidade, agilidade e segurança.
Responsabilidades e atribuições
- Monitorar continuamente a saúde dos sistemas, criar alertas eficazes e garantir cobertura proativa de incidentes.
- Responder rapidamente a incidentes críticos, coordenando mitigação, comunicação e resolução.
- Gerir mudanças, atualizações e implantações com foco em segurança, estabilidade e disponibilidade.
- Construir e manter pipelines, bibliotecas e automações para provisionamento, deploy e operação em ambientes Cloud de alta disponibilidade.
- Estabelecer e garantir padrões de security by design em infraestrutura, código e dados.
- Projetar e evoluir soluções de observabilidade ponta a ponta, integrando logs, métricas, traces e eventos.
- Gerenciar e melhorar indicadores de confiabilidade (SLIs, SLOs, MTTR, MTTA).
- Conduzir post-mortems blameless e implementar ações corretivas e preventivas.
- Influenciar decisões arquiteturais e operacionais visando resiliência, escalabilidade e custo eficiente.
- Documentar padrões técnicos, playbooks e comunicar impactos técnicos em linguagem de negócio.
- Definir prioridades estratégicas do backlog de SRE, equilibrando confiabilidade, velocidade de entrega, segurança e custos.
- Apoiar auditorias, conformidade e governança de segurança em alinhamento com times de risco e compliance.
Requisitos e qualificações
- Domínio de conceitos avançados de SRE, DevSecOps e gestão de incidentes.
- Automação de infraestrutura e pipelines em alto nível, utilizando Shell, Python, Go, Node.js ou Groovy.
- Experiência com monitoramento e observabilidade distribuída (Prometheus, Grafana, Loki, ELK/Elastic Stack, Datadog, New Relic, OpenTelemetry).
- Atuação sólida com Cloud pública (GCP, AWS ou equivalente), incluindo provisionamento, automação e otimização de custos.
- Experiência em CI/CD e DevSecOps avançado, com ferramentas como Git/GitOps, Jenkins, ArgoCD, Maven, SonarQube/Cloud.
- Proficiência em contêineres e orquestração (Docker, Kubernetes) e Infraestrutura como Código (Terraform, Ansible, CloudFormation, Chef).
- Vivência com serviços de mensageria e data streaming como Kafka, Redis Streams, Google Pub/Sub, Dataflow.
- Experiência com bancos de dados SQL e NoSQL, incluindo PostgreSQL, AloyDB, MySQL, MongoDB, Elasticsearch, BigQuery.
- Experiência em gestão de incidentes e troubleshooting em sistemas complexos, utilizando PagerDuty, Opsgenie, StatusPage, Splunk ou equivalentes.
- Conhecimento em segurança da informação, compliance e governança de ambientes cloud (LGPD, Privacy by Design, SAST/DAST, IAM, Secret Management).
- Familiaridade com ambientes de alto volume de dados, tráfego e experiência com design resiliente.
- Experiência ou interesse em DataOps/MLOps, atuando com pipelines de dados e IA em larga escala (desejável).
- Background em arquitetura e desenvolvimento de software, com domínio de versionamento, APIs, microserviços e padrões REST/gRPC.
- Vivência em metodologias ágeis (Scrum, Kanban ou similares).
- Uso de IA assistiva e ferramentas de produtividade como GitHub Copilot, ChatGPT ou similares (diferencial).
- Capacidade de mentorar e influenciar tecnicamente outros times, promovendo cultura de automação, segurança e confiabilidade e fomentando a cultura de ownership sobre sistemas em produção.