Definição

Recuperação de RAID (recuperação de dados em RAID) é o nome dado às ações e procedimentos usados por empresas com equipe qualificada e estrutura apropriada para recuperar informações contidas em dispositivos físicos ou lógicos que utilizam tecnologia ou subcamada de sistema RAID (Arranjo Redundante de Discos Independentes) e seus derivativos (RAID-Z, MD e JBOD). Em inglês, os termos equivalentes mais usados são RAID repair e RAID data recovery.

Essa tecnologia pode operar em sete níveis padrão (RAID 0, 1, 2, 3, 4, 5, e 6). Eles têm, basicamente, as funções de ampliar capacidade de armazenamento e minimizar impactos causados por perda de dados. Os níveis mais usados são 0, 1, 5 e 6:


  • RAID 0 (striping) e seus análogos possibilitam "juntar" diversas mídias de armazenamento (HD, SSD, etc.), criando um Array (arranjo ou volume) cuja capacidade será a soma destes dispositivos. O sistema operacional o reconhecerá como um grande disco lógico. Na recuperação em RAID striping é fundamental extrair dados (em estado bruto) da mídia defeituosa e, em seguida, verificar sua integridade.
  • RAID 1 (mirroring) e seus derivados têm como propósito a redundância de informações, replicando (espelhando) automaticamente, os dados de um dispositivo principal para um outro secundário. Portanto, se qualquer uma das mídias falhar, o arranjo continuará funcionando normalmente. Ao reparar informações em RAID 1, deve-se dar uma breve sobrevida às mídias defeituosas e, assim, comparar os dados contidos nos blocos (conjunto de setores) correspondentes.
  • RAID 5 (striping + parity) usa a soma da capacidade dos discos físicos - ou volumes - e, ainda, reserva um espaço em cada um deles para guardar informações de paridade (controle e correção de erros). É muito usado em empresas, por seu desempenho e relativa segurança. As ações para recuperação em RAID 5 usam uma combinação de técnicas utilizadas em RAID mirroring com striping.
  • RAID 6 é uma evolução do 5, reservando mais espaço para guardar bits de paridade nos dispositivos de armazenamento, sendo uma opção com maior tolerância a falhas. Os métodos de reparo nestes volumes seguem o mesmo princípio daqueles usados em RAID 5.

Os níveis híbridos (RAID 0+1, 1+0, entre outros) e os aninhamentos não padronizados (Linux MD, JBOD, etc.) também são muito comuns. Outras tecnologias, como o BTRFS vem com suporte nativo a arrays. Sistemas similares, como o ZFS, possuem seu próprio esquema de alocação de dados entre unidades (RAID-Z, muito usado em servidores NAS e derivados de BSD), não dependendo de controladoras nem de softwares externos para seu gerenciamento. Deste modo, uma recuperação de dados em RAID-Z (Oracle ZFS) exige que o profissional tenha vivência real com essa estrutura de armazenamento.

Na maioria dos casos, a perda de acesso aos volumes ocorre por falhas nas mídias. Essa situação pode ser evitada se os administradores fizerem sua monitoração e a reposição preventiva. Ocorre um agravante quando se tenta forçar rebuilding (reconstrução) em um volume que já está off-line, inoperante. Essa atitude irresponsável adiciona danos lógicos a uma estrutura já comprometida fisicamente, sendo necessário incluir uma longa etapa de restruturação lógica durante o trabalho de recuperação.

As rotinas usadas na recuperação de RAID são complexas e, na maioria das vezes, deve-se estudar o ambiente comprometido, antes de tomar qualquer ação. Devido as diferentes arquiteturas, que podem ser implementadas por hardware ou software, existe peculiaridades nos procedimentos de reação a incidentes, para cada um destes tipos de arrays.

Serviço de Recuperação de Dados em RAID

Os procedimentos empregados para recuperar dados em arranjos RAID danificados variam de acordo com o sistema, tipo de implementação (controladora ou software), configuração, etc. Este trabalho requer equipamentos específicos - exclusivos das empresas deste segmento - e profissionais devidamente treinados, capazes de operar estas ferramentas. Recomenda-se que o operador já tenha experiência prévia na administração e proteção destas tecnologias de armazenamento.

Um RAID danificado deve ser imediatamente desativado e enviado para uma empresa devidamente estruturada e com funcionários capacitados para remediar este tipo de desastre, como a Hosco Tecnologia. Desse modo, cria-se uma oportunidade real para resgatar o conteúdo, de modo seguro, usando métodos direcionados. Qualquer ação tomada por pessoal que não seja deste ramo, sem estrutura ou aptidão técnica, poderá resultar na perda definitiva das informações. Além disto, o cliente poderá solicitar reparação de quem comete tal ato de imperícia e/ou imprudência.

O serviço de reparo inclui appliances NAS (Network Attached Storage) e SAN (Storage Area Network), com servidores AD, Samba, NFS, Rsync, FTP, entre outros. Portanto, este trabalho exige planejamento adequado e um amplo entendimento destas tecnologias.

Repositórios dedicados a guardar e transferir arquivos estão presentes em grande parte da redes corporativas. Podem variar de pequenos computadores, contendo dois ou três discos rígidos, até mainframes ligados a estruturas SAN iSCSI (canais de fibra óptica) com centenas de terabytes. Geralmente, eles são projetados para melhorar o desempenho no acesso às informações e proporcionar maior disponibilidade dos arquivos armazenados. No entanto, estes equipamentos não são infalíveis e precisam ser frequentemente avaliados, sendo necessário designar alguém competente para gerenciá-los. Quando os cuidados necessários não são tomados, um volume em estado de degradação pode ficar permanentemente inacessível. Infelizmente, muitas corporações de pequeno e médio porte costumam ser negligentes com este aspecto, sendo as que mais utilizam a recuperação emergencial como a única forma de atenuar este tipo de desastre.

Uma das funções de um RAID é prover redundância, ou seja, manter o perfeito funcionamento mesmo se uma das mídias de armazenamento apresentar defeitos. Nessa situação o array entra em estado degradaded (degradado), o qual um ou mais dos dispositivos físicos tornaram-se danificados, mas o repositório continua operante. Por isso, aqueles que estão acessando este recurso não notam qualquer alteração (desde que a devida redundância tenha sido implementada). Na maioria dos casos, a degradação é percebida quando o administrador acessa os logs ou ao quando dispara algum alarme a partir do storage - gabinetes de servidores modernos emitem avisos sonoros quando ocorrem falhas. Assim, o responsável pela troca dos dispositivos de armazenamento - chamado de operador de backup, em tempos remotos - deverá tomar providências para que o ambiente continue íntegro e com tolerância a falhas. Caso contrário, se um outro HD falhar, a estrutura poderá entrar em status off-line ou failed, o qual ficará inoperante e sem acesso ao seu conteúdo.

Recuperação de RAID-Z

Desde meados de 2000, tem sido frequente o uso de estruturas peculiares de distribuição de dados entre dispositivos físicos. Dentre estas, o RAID-Z merece destaque.

O sistema de arquivos ZFS é bastante robusto e suporta, nativamente, a criação de volumes compostos por vários dispositivos (físicos ou virtuais). Um destes tipos próprios de arrays é denominado RAID Mirror, um espelhamento similar ao utilizado no padrão RAID 1. No entanto, a grande inovação está na sua tecnologia própria, chamada RAID-Z (ou RAIDZ), muito usada em grandes servidores, por sua eficiência, desempenho (com baixo custo) e diversos recursos.

O primeiro nível (e o mais utilizado) dessa tecnologia chama-se RAID-Z1. Ele é similar ao RAID 5, porém, a distribuição de dados e de informações de paridade é mais dinâmica, alocando, sob demanda, blocos de tamanhos variáveis. Seus principais recursos são checagem de integridade e reparo silencioso de arquivos corrompidos, suporte a snapshot, compressão (e deduplicação) nativa de dados, escrita de arquivos preexistentes em modo copy-on-write, opções avançadas de cache, replicação de dados, registro de operações em logs transacionais, entre outros. Os níveis Z2 e Z3 são ainda mais resilientes resistindo, respectivamente, a falha de dois ou três discos.

O auto reparo de arquivos corrompidos em RAID-Z ocorre de modo silencioso, portanto, este tipo de repositório somente apresentará problemas mediante a severos erros de hardware. Faz-se conveniente haver um analista responsável pela monitoração constantemente dos discos pertencentes aos pools (volumes) ativos.

A recuperação de RAID-Z (recuperação de dados RAID-Z - em inglês: RAID-Z repair ou RAID-Z data recovery) demanda conhecimento prático na administração deste volumes, tendo em vista que sua implementação é baseada em software e seu método de checagem de erros não aceita blocos inconsistentes.

No Brasil, a Hosco Tecnologia é pioneira em recuperação de zfs. Sua equipe possui experiência real (implementação, administração e proteção) com essas estruturas de armazenamento. Por isso é, comprovadamente, a primeira empresa nacional a recuperar informações de RAIDZ danificado, de modo seguro, consciente e eficiente, usando seus próprios scripts, tendo diversos casos reais de sucesso em empresas de grande porte.

Recuperação de MD e JBOD

O MD e o JBOD também são estruturas baseadas RAID, não ortodoxas, porém muito usadas em organizações de diversos portes.

O MD (multiple device) é muito conhecido por aqueles que já trabalharam com servidores Linux. Trata-se da implementação mais comum de RAID por software (diretamente no kernel), permitindo a criação e manuseio de diversos tipos de discos virtuais, através do seu utilitário, o mdadm. Não há necessidade de controladora e o processamento é, praticamente, todo realizado pela CPU.

O JBOD (Just a Bunch of Disks), como o próprio nome sugere, é apenas um amontoado de discos com dados espalhados, gerenciados por uma controladora HBA. Este modo não utiliza nenhuma paridade ou redundância, nem promove aumento de desempenho, mas pode ser ideal em determinados casos.

Para reparar informações em qualquer uma destas tecnologias também é preciso conhecê-las muito bem. O uso de qualquer método não profissional (dicas de fóruns, programinhas automatizados, etc.) está totalmente fora de cogitação nestes casos.

Comportamento de RAID Danificado ou Degradado


  • Comprometimento na performance geral do array
  • Volume ou disco virtual deixa de ser reconhecido
  • Servidor com ausência aleatória de arquivos
  • Erros de leitura ou escrita ao acessar o array
  • Gerenciador da controladora exibe mensagens de alerta
  • A camada RAID não inicializa automaticamente
  • O arranjo danificado solicita rebuilding constante
  • Travamentos no sistema de gerenciamento do storage
  • Mensagens de erro ao acessar determinados arquivos
  • Processos de I/O entram em overhead constante



Top