Em mais de 16 anos trabalhando com o ambiente de aplicações e conteúdo web, boa parte deles atuando ou cooperando na administração, já vivenciei muitos problemas.
Em geral, nada é mais atordoante do que o surgimento (súbito ou intenso) de algum evento ou reclamação de indisponibilidade ou erro em um ou mais serviços ou recursos. Em um ambiente complexo como este, interpretar os sintomas, rastrear até a origem, identificar a(s) causa raiz do problema e obter uma solução é missão ampla e complexa.
Some-se o fato de, cada vez mais, o ambiente web estar sendo cenário de sistemas e serviços de missão crítica e operação ininterrupta 24×7. Ou seja, é uma estressante corrida contra o tempo.
Por isso, elaborei aqui um checklist procurando listar todos os elementos envolvidos neste complexo ecossistema, para orientar e facilitar o diagnóstico de indisponibilidades no ambiente de serviços web.
Os itens de diagnóstico aqui listados são, em geral, apenas os elementos a serem verificados, sem entrar em detalhe de como fazer o diagnóstico, pois isso pode variar muito de um ambiente para outro.
Entre os recursos de diagnóstico, destaco dois, presentes na maioria dos sistemas ou componentes de tecnologia:
- Arquivos de log/registro/histórico de mensagens/avisos/alertas/erros
- Console, ambiente ou ferramenta de administração, monitoramento e controle
Como a lista é grande, priorize a análise e o diagnóstico dos elementos para os quais haja indício provável — em especial, evento, registro ou alta probabilidade de incidente, falha, ou alteração recente –, deixando os menos suspeitos para o final. Como costumo dizer: “Não procure chifre em cabeça de cavalo.”
Referências relacionadas:
- Proactive Application Monitoring, por Alexandre Polozoff, IBM Software Group, Software Services for WebSphere, 2003-04-09.
- Checklist fundamental do sysadmin, por Guto Carvalho, 2009-01-26, voltado principalmente para administradores de sistemas Linux/Unix.
- Porque alta disponibilidade em portais corporativos, por Paulo Roberto Delpizzo, gerente de TI da Navita, em WebInsder – Segurança – Intranets e GC – Tecnologia, 2008-02-25. Artigo reproduzido também como Alta Disponibilidade em Portais Corporativos – checklist, no blog TopTopics (Silvia Britto).