Em mais de 16 anos trabalhando com o ambiente de aplicações e conteúdo web, boa parte deles atuando ou cooperando na administração, já vivenciei muitos problemas.
Em geral, nada é mais atordoante do que o surgimento (súbito ou intenso) de algum evento ou reclamação de indisponibilidade ou erro em um ou mais serviços ou recursos. Em um ambiente complexo como este, interpretar os sintomas, rastrear até a origem, identificar a(s) causa raiz do problema e obter uma solução é missão ampla e complexa.
Some-se o fato de, cada vez mais, o ambiente web estar sendo cenário de sistemas e serviços de missão crítica e operação ininterrupta 24×7. Ou seja, é uma estressante corrida contra o tempo.
Por isso, elaborei aqui um checklist procurando listar todos os elementos envolvidos neste complexo ecossistema, para orientar e facilitar o diagnóstico de indisponibilidades no ambiente de serviços web.
Os itens de diagnóstico aqui listados são, em geral, apenas os elementos a serem verificados, sem entrar em detalhe de como fazer o diagnóstico, pois isso pode variar muito de um ambiente para outro.
Entre os recursos de diagnóstico, destaco dois, presentes na maioria dos sistemas ou componentes de tecnologia:
- Arquivos de log/registro/histórico de mensagens/avisos/alertas/erros
- Console, ambiente ou ferramenta de administração, monitoramento e controle
Como a lista é grande, priorize a análise e o diagnóstico dos elementos para os quais haja indício provável — em especial, evento, registro ou alta probabilidade de incidente, falha, ou alteração recente –, deixando os menos suspeitos para o final. Como costumo dizer: “Não procure chifre em cabeça de cavalo.”
Referências relacionadas:
- Proactive Application Monitoring, por Alexandre Polozoff, IBM Software Group, Software Services for WebSphere, 2003-04-09.
- Checklist fundamental do sysadmin, por Guto Carvalho, 2009-01-26, voltado principalmente para administradores de sistemas Linux/Unix.
- Porque alta disponibilidade em portais corporativos, por Paulo Roberto Delpizzo, gerente de TI da Navita, em WebInsder – Segurança – Intranets e GC – Tecnologia, 2008-02-25. Artigo reproduzido também como Alta Disponibilidade em Portais Corporativos – checklist, no blog TopTopics (Silvia Britto).
Olá Márcio, tudo bom ?
Muito interessante o seu checklist. Agradeço por compartilhar cada vez mais para que possamos obter sucesso com as nossas próprias contruções.
Abraços.
@Erich:
Olá Erich. Muito obrigado pela sua participação e pelo apoio! Fico feliz. É muito gratificante saber que as situações que vivencio e os assuntos que me interessam, que me levam a pesquisar informações e notícias e postar minhas interpretações ou opiniões, são úteis a outras pessoas.
Abraço!