Please enable JS

Perda de Dados e Ações Pós Incidente

Criado em 19/11/2019, por Hosco Tecnologia.

Introdução

Após duas décadas observando a reação de empresas diante de desastres com perda de dados, ficou evidente a adoção de alguns procedimentos em comum - mesmo entre instituições que não têm qualquer relacionamento. Tanto em incidentes causados por danos em hardware, quanto em desastres ocorridos em nível lógico, as repostas poderiam ser aprimoradas para evitar maiores prejuízos e proporcionar uma recuperação satisfatória.

Erros Comuns

Incidentes com perda de acesso a dados críticos exigem reações rápidas e precisas. No entanto há uma certa morosidade inerente as políticas usualmente adotadas, assim como o uso de práticas que apresentam riscos para os ambientes a serem recuperados.

Em empresas de até médio porte, esse tipo problema é inicialmente percebido pelos próprios usuários ou aqueles que acessam os recursos afetados. Há uma certa demora, entre chamados e reuniões, até que alguma resposta seja efetivada. Por outro lado, instituições de grande porte possuem analistas responsáveis pela monitoração de seus storages e recursos de armazenagem. Na maioria dos casos, as equipes de backup e disaster recovery fazem com que a reação seja imediata e eficiente. Entretanto tentativas invasivas de verificação e restabelecimento dos recursos afetados são comuns em empresas de todos os portes.

Um exemplo dessas práticas equivocadas está no fato de muitos analistas forçarem rebuilding em RAID com drives corrompidos, o que pode quebrar a consistência de metadados importantes e danificar o conteúdo do volume. Assim como, há certos riscos quando se configura controladoras para fazerem auto-rebuilding.

Escaneamento de setores ou blocos, constitui outro procedimento indevido quando realizados em HDs que estejam com mal funcionamento. Portanto, os famosos comandos chkdsk /f, sfc /scannow e fsck -f, podem ser fatais se executados nessas circunstâncias. No entanto são amplamente utilizados porque, na maioria dos casos, os próprios desenvolvedores dos sistemas de arquivos incentivam tais condutas.

Certas tarefas que deveriam ser realizadas apenas por uma equipe de data recovery ou por um perito digital, são executadas por um analista interno (principalmente, em empresas de porte menor).

Consequências

Em ambientes corporativos pequenos e médios note-se uma certa demora em detectar e reagir a falhas em storages. O mesmo ocorre em perda de dados causada por acidentes (exclusão de arquivos, tabelas de partição, etc.) e ações dolosas (espionagem industrial, vandalismo digital, etc.). Mas em instituições de todos os portes, procedimentos inadequados nos discos avariados ocorrem com certa frequência, o que pode agravar o incidente e dificultar a recuperação do conteúdo previamente alocado.

Não estamos falando, necessariamente, de ações absurdas como violação de discos ou uso de programinhas "milagrosos" que prometem regenerar um HD. Chamamos atenção para procedimentos que parecem inofensivos, mas com potencial de destruir discos em estado precário ou causar inconsistência permanente em volumes e/ou sistemas de arquivos.

Dispositivos de armazenamento (HD, SSD, flash drive, etc.) danificados precisam ser preservados e tratados como objetos de perícia. Em ambientes com informações críticas, eles devem ser desativados assim que constatado qualquer sinal de mal funcionamento, principalmente nos desastres que impedem o acesso aos dados alocados.

Controladoras de storage executam realocação de setores (em nível de firmware de disco) ou blocos (em nível de volume ou sistema de arquivos), quando encontram áreas ruins em disco. Por isso qualquer operação de I/O em drive avariado é suficiente para disparar essas rotinas. Isso toma proporções gigantescas em escaneamentos de setores ou blocos, através de programas como HDtune ou utilitários como chkdsk e fsck. O primeiro problema causado por essas ações invasivas é a perda dos dados contidos nos setores que foram realocados. O segundo problema é o agravamento do dano físico em HDs, degradando cabeças de leitura, pratos magnéticos e causando problemas em módulos de firmware. Portanto, esses procedimentos podem ocasionar perda irreversível de dados, inviabilizando, até mesmo, um trabalho de recuperação profissional.

Melhores Práticas

Verificando volume corrompido

O SMART é um excelente aliado dos usuários, técnicos e analistas. Essa tecnologia caracteriza-se por um conjunto de rotinas contidas no sistema do próprio drive de armazenamento, que reporta o seu estado de funcionamento. Programas como o Gsmartcontrol conseguem interpretar os logs do SMART, mostrando detalhes sobre o status do dispositivo.

A verificação do estado de saúde de uma mídia de storage (HD, SSD, flash drive, etc.) através da leitura do SMART é uma prática bastante recomendada por não ser invasiva. Além disso, é uma ação simples que pode ser realizada por um analista nivel 1, diminuindo os tempos de resposta.

Em ambientes Linux e Unix, a libata é um importante marcador na detecção desses problemas. É uma biblioteca no kernel, responsável por gestão de erros nos discos usados pelo sistema operacional. Basta verificar se a saída do comando dmesg apresenta mensagens (geradas pelo kernel) de erros de leitura ou escrita. Trata-se de uma análise passiva segura e totalmente confiável.

Os sistemas de arquivos também emitem sinais claros quando existem drives com mal funcionamento. Em plataformas Windows, é comum o gerenciador de tarefas indicar uso de disco em 100%. Em plataformas Unix, serão observados picos de processamento com threads de I/O (kworker, jdb2, etc.).

Os incidentes com perda de dados por dano lógico, geralmente, emite sinais são claros por si só. Salvo casos de violação de sistemas.

Conclusão

O tempo de resposta e o tipo de resposta são muito importantes na recuperação de um ambiente com conteúdo indisponível. Burocracia, políticas morosas, ausência de planos de recuperação de desastre e ações invasivas, são os maiores complicadores desses cenários.

Diante de tais circunstâncias deve-se adotar ações rápidas, eficientes e não invasivas. O mais importante é desativar, rapidamente, os dispositivos de armazenamento envolvidos, para evitar realocação de setores e corrompimento de metadados. Em ambientes com informações críticas, recomenda-se consultar uma empresa especializada em recuperação de dados.

É importante lembrar que a melhor prevenção contra perda de dados continua sendo a implementação de sistemas eficientes de backup. A substituição periódica das mídias de armazenamento também deve fazer parte do plano de prevenção de qualquer empresa.

#incidentecomputacional #disasterrecovery #datarecovery #incidentresponse