Monitoramento é Para Paranóicos: Se Funciona, Funciona
Toda semana aparece uma nova ferramenta de “observabilidade” prometendo mostrar o que está acontecendo no seu sistema. Datadog, New Relic, Prometheus, Grafana, Honeycomb, Lightstep, SignalFx. Sabe o que todas essas ferramentas têm em comum? Elas mostram problemas que você não sabia que existiam e não precisava saber.
Em meus 47 anos produzindo bugs em massa, eu aprendi uma verdade fundamental: Se os usuários não estão reclamando, o sistema está funcionando.
O Paradoxo do Monitoramento
A questão sobre monitoramento é: quanto mais você monitora, mais problemas você encontra. E quanto mais problemas encontra, mais trabalho você tem. É uma armadilha.
| Nível de Monitoramento | Problemas Encontrados | Sono Perdido | Valor Pro Negócio |
|---|---|---|---|
| Nenhum | 0 | 0 horas | Máximo |
| Básico | 5 | 2 horas | Algum |
| Abrangente | 47 | 6 horas | Negativo |
| “Observabilidade Total” | 847 | Todo | Você pede demissão |
A correlação é clara: mais monitoramento é igual a menos felicidade.
Minha Filosofia de Monitoramento
#!/bin/bash
# monitor.sh - Solução de monitoramento enterprise
curl -s https://meuapp.com > /dev/null
if [ $? -eq 0 ]; then
echo "Tá de boa"
else
echo "Provavelmente tá de boa"
fi
É isso. É toda a stack de monitoramento. Sem agentes. Sem coletores. Sem dashboards. Só vibes.
O Complexo Industrial de Dashboards
Sabe o que são dashboards? São protetores de tela pros times de operações. “Olha todos esses gráficos se movendo! Definitivamente estamos fazendo algo!”
Deixa eu traduzir o que essas métricas de dashboard realmente significam:
| Métrica | O Que Dizem | O Que Significa |
|---|---|---|
| CPU: 75% | “Carga alta!” | O servidor está fazendo seu trabalho |
| Memória: 80% | “Pressão de memória!” | RAM está sendo usada (bom, você pagou por ela) |
| Disco: 60% | “Enchendo!” | Arquivos existem |
| Taxa de erro: 2% | “Alerta!” | 98% das requisições funcionam perfeitamente |
| Latência p99: 2s | “Lento!” | 99% das requisições levam menos de 2 segundos (ok) |
Toda métrica pode ser pintada como um problema. É assim que vendedores de monitoramento ficam no negócio.
Alertas São Privação de Sono
Sabe o que PagerDuty realmente é? É um serviço de assinatura de ansiedade. Você paga R$150 por usuário por mês pra ser acordado às 3 da manhã porque CPU bateu 85% por 30 segundos.
3:00 AM: ALERTA - Uso de memória acima de 80%
3:01 AM: ALERTA - Uso de memória acima de 80%
3:02 AM: ALERTA - Uso de memória acima de 80%
3:03 AM: Você agora está acordado, irritado, e incapaz de dormir
3:04 AM: Memória estabiliza em 79%
3:05 AM: RESOLVIDO - Uso de memória normal
4:30 AM: Você finalmente volta a dormir
6:00 AM: Acorda pro trabalho, exausto
9:00 AM: Comete um erro em produção porque cansado
9:01 AM: ALERTA - Pico de taxa de erro
O monitoramento causou o incidente. Pense sobre isso.
O Que Dilbert Me Ensinou
Wally uma vez explicou sua estratégia de monitoramento: “Eu configuro todos os thresholds de alerta em 100%. Assim, nada nunca alerta, e eu nunca sou acionado.”
O Chefe Cabeça Pontuda perguntou, “Mas e se algo der errado?”
Wally respondeu, “Aí os usuários vão nos dizer. Eles são muito bons nisso.”
Esse é o caminho.
A Verdade XKCD
XKCD 1831 nos mostra que somos terríveis em entender o que é realmente importante. Você vai monitorar o connection pool do banco mas perder que alguém renomeou o botão de login pra “Sair.”
Monitoramento dá falsa confiança. Você acha que está vigiando tudo, mas está vigiando o que você pensou em medir. Os problemas reais estão sempre em outro lugar.
Monitoramento de Usuário: O Único Monitoramento Que Importa
Aqui está minha stack de monitoramento:
Atendimento ao Cliente: "Usuários estão reclamando?"
|
v
+-------+-------+
| |
Sim Não
| |
v v
"Arruma alguma coisa" "Entrega features"
Esse sistema tem 100% de taxa de verdadeiro positivo. Se usuários estão reclamando, existe um problema real. Se não estão reclamando, não existe.
Compare isso com Prometheus, que tem 12% de taxa de verdadeiro positivo e 100% de taxa de me acordar por nada.
O Custo da Observabilidade
Vamos fazer a matemática de uma configuração típica de monitoramento:
Datadog: R$75/host/mês × 50 hosts = R$3.750/mês
New Relic: R$125/host/mês × 50 hosts = R$6.250/mês
Armazenamento de logs: R$2.500/mês
Fadiga de alertas: 10 horas/semana × R$150/hora = R$6.000/mês
Café pra ficar acordado de plantão: R$400/mês
Custo mensal total: R$18.900
Alternativa: Confia nos usuários mandarem email
Custo mensal total: R$0
Economia anual: R$226.800
Isso é o salário de um desenvolvedor sênior que você está gastando em dashboards que ninguém olha.
Quando Monitoramento Realmente Ajuda
- Nunca
- Quando você precisa provar pra gestão que a queda não foi sua culpa
- Quando você precisa de gráficos pro post-mortem
- Ainda nunca pra realmente prevenir problemas
O Zen de Não Monitorar
Sem monitoramento.
Sem alertas.
Sem dashboards.
Sem problemas.
Se crasha, reinicia.
Se continua crashando, mais RAM.
Se isso não funciona, reescreve.
Se isso não funciona, outro emprego.
Essa filosofia me sustentou por décadas. O sistema funciona ou não funciona. Ficar olhando gráficos não vai mudar isso.
Conclusão
Monitoramento é um mecanismo de enfrentamento pra organizações que não confiam no seu código. Se seu código fosse bom, você não precisaria vigiá-lo tão de perto.
Entrega código confiante. Confia que funciona. Vai dormir em horário razoável.
Os sistemas de produção do autor não têm monitoramento. Quando perguntado como ele sabe que estão funcionando, ele diz “Eu não ouço gritos.” Isso tem sido preciso 97% das vezes.