Como diz um famoso ditado popular, em relação ao políticos: "Nunca deixe uma boa crise ir para o lixo." Há lições que os líderes de TI podem aprender com as interrupções de serviços dessas empresas. Aqui estão quatro pontos aos quais você deveria prestar atenção.
1. Teste regularmente para planejar ações pós-desastres
Desastres acontecem. Pessoas constumam argumentar que você deve ser mais positivo sobre suas operações e suas implementações. Mas mesmo convicto de ter feito o melhor, esteja certo também de que os sistemas vão falhar e cair. Não é uma questão de se – é uma questão de quando. Entenda o que uma interrupção pode provocar, como afetará diferentes partes do seu negócio, o que precisa acontecer para que ocorram e o que você precisará fazer para controná-las e minimizá-las.
Grande parte desse planejamento de desastres depende do tipo de serviço prestado. Se você é um CIO que suporta um serviço de e-mail para 100 mil empregados, o seu plano de catástrofe terá um aspecto diferente daquele de uma equipe técnica responsável pos sistemas que atendem 500 mil clientes externos.
Saiba os custos de mitigação, bem como os custos de backup e dos sistemas de espera. Investigue como os serviços de computação em nuvem, como a Amazon Web Services e Windows Azure, podem ajudar a tornar uma situação inatividade um pouco mais suportável, graças à capacidade de girar serviços sob demanda, quando você precisar deles, e fechá-los uma vez que sua situação melhorou.
Finalmente, coloque no seu calendário, com regularidade, a realização de "falhas simuladas". Além de revisar seu plano de continuidade de negócios pelo menos uma vez por ano, você deve praticá-lo no mínimo com a mesma frequência.
Trace os caminhos a serem percorridos por todos os envolvidos em uma determinada falha e escreva as responsabilidades de cada um. Aproveite a oportunidade para envolver todas as partes interessadas, sem a pressão de uma queda real. Dessa forma, o plano será bem conhecido quando o inevitável acontecer.
A tecnologia serve para suportar as políticas para recuperação de desastres, mas não constitui, por si só, uma solução isolada. Os gestores precisam ter em mente que a estratégia para gerenciar esse tipo de problema deve ser um processo contínuo, o qual deve garantir uma atualização constante das iniciativas e necessita ser testado de forma regular.
É importante periodicamente atualizar a análise de impacto para os negócios e o levantamento de riscos como parte da estratégia específica para recuperação de desastres. Essa postura proativa, mais do que preparar a empresa para possíveis problemas, tende a economizar um dinheiro substancial das organizações em longo prazo. E as empresas que adotam esse modelo conseguem substituir o termo ‘recuperação de desastres’ por ‘continuidade dos serviços de TI’.
2. Isolar suas comunicações a partir de sua Plataforma de Serviços
Colocar seus telefones, e-mail, mensagens instantâneas e comunicação em tempo real ali no seu centro de dados super-rápido, junto com os serviços que você oferece, parece fazer sentido.
Na maioria das vezes, pode funcionar bem – mas até mesmo um administrador júnior pode ver o problema desta configuração. Uma vez que a conectividade de rede é interrompida no centro de dados, por qualquer razão, você está frito. Você não pode se comunicar. Seu serviço cai. Os clientes ficam com raiva. Os funcionários não podem trabalhar.
Se você é responsável por um site de comércio eletrônico, e não puder concluir o pagamento das encomendas, via cartões de crédito ou débito, as receitas vão evaporar. Se os clientes não puderem telefonar para colocar seus pedidos há risco não só de perder a ordem como o cliente também.
A falha na Intermedia é um bom exemplo. O CEO Phil Koen observa que, como os sistemas de comunicação da empresa residem nos mesmos data centers que ficaram inacessíveis, a capacidade da sempresa de se comunicar com os clientes e parceiros também foi interrompida.
Essa é uma maneira rápida de ver os seus clientes correrem para os concorrentes. Para uma empresa que se orgulha em oferecer serviços hospedados tolerantes a falhas, foi um tremendo erro, tanto na sua topologia de serviço e como na sua capacidade de lidar com uma interrupção. Não cometa o mesmo erro.
3. Comunicar, comunicar e comunicar
Em caso de dúvida, comunicar-se um pouco mais. A tentação durante uma interrupção é se concentrar em resolver o problema com praticamente todos os recursos que você pode reunir para a tarefa. Não se esqueça que existem outros interessados ??na questão, independente do fato de sua queda ser interna, externa ou ambas.
Se você executa um serviço para os clientes, eles esperam – e merecem – saber o que está acontecendo e receber um tempo estimado para restabelecimento do serviço. (Tempo estimado para restabelecimento do serviço ", por sinal, significa" meia hora "ou" ao meio-dia ", e não" em breve "ou" logo que possível "). Enquanto isso, se você tiver uma falha em um sistema interno, especialmente um sistema crítico para os negócios, então você precisa enviar atualizações para as partes afetadas, assim que entender que há um problema e, em seguida, em intervalos regulares, frequentes, até que o problema seja resolvido.
A comunicação não pode ser tardia. Ele deve ser uma alta prioridade – perdendo apenas para a resolução da falha. Não torne uma situação ruim ainda pior, criando um vácuo de informação.
Entre os principais passos recomendados estão o mapeamento de quais plataformas sociais já são usadas por funcionários, clientes e outras partes interessadas e o uso dessas plataformas durante os esforços de gerenciamento de incidentes e crises; o uso das mídias sociais não só para comunicações durante um desastre, mas para reunir informações e apoio de recursos externos que podem ajudar a garantir a resiliência dos negócios em curso. Os profissionais de gestão de continuidade dos negócios devem começar a avaliação das oportunidades de mídia social imediatamente – e também os riscos.
4. Testes seus backups de vez em quando
Sistemas de backup raramente partilham as mesmas especificações que os sistemas primários. Muitos sistemas de backup são mais levemente equipados, porque eles não serão usados ??com muita freqüência. Estas decisões, não raro, podem assombrá-lo. Como esses sistemas geralmente são usados apenas sob estresse, podem falhar na hora H se não forem permanentemente testados.
Agende horários para mover sua carga regular para os seus sistemas de backup. Use-os muitas vezes ainda que você esteja confiante em sua capacidade de serviço se algo correr mal com os seus sistemas primários.
Fonte: ComputerWorld