Recuperação de RAID 0/1/2/3/4/5/6, MD RAID e JBOD

A Hosco Tecnologia apresenta os melhores resultados em recuperação de RAID (recuperação de dados em RAID 0/1/2/3/4/5/6/10, RAID MDADM e JBOD), porque sua equipe tem 20 anos de experiência comprovada em gestão de desastres nessas arquiteturas.

As ações individualizadas de reparo em RAID corrompido seguem protocolos internacionais de data recovery e perícia digital. São aplicadas técnicas seguras e efetivas, com equipamentos apropriados e softwares criados pela própria equipe.

São obtidos altos índices de recuperação positiva em RAID por hardware, MDADM e JBOD, incluindo cenários de grande porte.

Sinta-se à vontade para falar conosco. Caso já esteja certo da qualidade dos serviços prestados pela Hosco Tecnologia, solicite atendimento.

Conceito

Recuperação de RAID (recuperação de dados em RAID) é o nome dado às ações e procedimentos usados por empresas com equipe qualificada e estrutura apropriada para recuperar informações contidas em dispositivos físicos ou lógicos que utilizam tecnologia ou subcamada de sistema RAID (Arranjo Redundante de Discos Independentes) e seus derivativos (MD RAID e JBOD). Em inglês, os termos equivalentes mais usados são RAID repair e RAID data recovery.

Um sistema de armazenamento RAID pode ser controlado através de hardware ou software. Estas tecnologias podem operar em sete níveis padrão (RAID 0, 1, 2, 3, 4, 5, e 6), tendo, basicamente, as funções de ampliar a capacidade de armazenamento de um ambiente e/ou minimizar impactos causados por perda de dados. Os níveis de RAID mais usados são 0, 1, 5 e 6.

O RAID 0 (striping) e seus análogos possibilitam "juntar" diversas mídias de armazenamento (HD, SSD, etc.), criando um Array (arranjo ou volume) cuja capacidade será a soma destes dispositivos. O sistema operacional o reconhecerá como um grande disco lógico. Prioriza o desempenho, mas é bastante vulnerável a falhas. Não possui rotinas de checagem de erros, nem paridade. Se apenas um dos dispositivos falhar, o arranjo ficará corrompido.

O RAID 1 (mirroring) e seus derivados têm como propósito a redundância de informações, replicando (espelhando), automaticamente, os dados de um dispositivo principal para um outro secundário. Portanto, se qualquer uma das mídias falhar, o arranjo continuará funcionando normalmente porque blocos danificados serão realocados, instantaneamente, para seu par redundante. Possui rotinas de checagem de erros, mas sem paridade.

O RAID 5 (striping + parity) usa a soma da capacidade dos discos físicos - ou volumes - e, ainda, reserva um espaço em cada um deles para guardar informações de paridade (controle e correção de erros). Bloco defeituosos são recuperados através das informações de paridade. Suporta a falha de até um disco, mantendo-se operante. É muito usado em empresas de pequeno porte, por seu desempenho e segurança, razoáveis, com custo relativamente baixo.

O RAID 6 é uma evolução do 5, reservando mais espaço para guardar bits de paridade nos dispositivos de armazenamento, sendo uma opção com maior tolerância a falhas. Resiste a falha de até dois discos.

ARQUITETURAS RAID

MODO DE GERENCIAMENTO

SISTEMA OPERACIONAL GESTOR

DESCRIÇÃO E CARACTERÍSTICAS

Por Hardware

Sistema Proprietário Integrado

Configuração dos discos, controle e processamento executados por controladora dedicada. Implementação mais demorada e menor flexibilidade. Reparo e rebuilding, automáticos. Tende a maior desempenho, mas gera gastos mais elevados.

Por Software

Sistema Unix/Unix-Like

Configuração e processamento feitos pelo sistema, com instruções básicas embutidas em seu kernel (núcleo). Implementação mais rápida e maior flexibilidade. Reparo e rebuilding, automáticos. Custo mais baixo, mas tende a menor desempenho.

PRINCIPAIS NÍVEIS DE RAID

NÍVEL

DISTRIBUIÇÃO DE DADOS

REPARO E RECUPERAÇÃO

RAID 0

Blocos com dados espalhados entre os discos (striping)

Na recuperação em RAID striping é fundamental extrair dados (em estado bruto) da mídia defeituosa e, em seguida, verificar sua integridade.

RAID 1

Blocos escritos em modo duplicado ou espelhado (mirroring)

Ao reparar informações em RAID 1, deve-se dar uma breve sobrevida às mídias defeituosas e, assim, comparar os dados contidos nos blocos (conjunto de setores) correspondentes.

RAID 5

Blocos com dados e informações de paridade, espalhados entre os discos

As ações para recuperação em RAID 5 usam uma combinação das técnicas utilizadas em RAID mirroring com aquelas aplicadas no reparo de arranjos em striping.

RAID 6

Blocos com dados e informações de paridade, espalhados entre os discos

Os métodos de reparo nestes volumes seguem os mesmos princípios daqueles usados em RAID 5.

Existe um fenômeno, chamado write hole error, que gera inconsistência entre os dados gravados em disco e os seus metadados. Ocorre em algumas arquiteturas e níveis de RAID por hardware. Tal problema é conhecido pelos profissionais da Hosco Tecnologia, os quais são gestores de ambientes RAID há muitos anos. Esse é desencadeado, principalmente, quando administradores desavisados tentam fazer rebuiding ou forçam a montagem de RAID arrays corrompidos. Portanto, arranjos inconsistentes não devem sofrer qualquer tentativa de reparo, podendo ocasionar perda definitiva de dados.

Atualmente, os níveis híbridos (RAID 0+1, 1+0, entre outros) e os aninhamentos não padronizados (Linux MD, JBOD, etc.) são tão utilizados quanto as implementações por controladora dedicada. Outras tecnologias, como o BTRFS vem com suporte nativo a arrays. Sistemas similares, como o ZFS, possuem seu próprio esquema de alocação de dados entre unidades (RAID-Z, muito usado em servidores NAS e derivados de BSD), não dependendo de controladoras nem de softwares externos para seu gerenciamento. Deste modo, uma recuperação de dados em RAID-Z (Oracle ZFS) exige que o profissional tenha vivência real com esse sistema de armazenamento.

Na maioria dos casos, a perda de acesso aos volumes ocorre por falhas nas mídias. Essa situação pode ser evitada se os administradores fizerem sua monitoração e a reposição preventiva. Ocorre um agravante quando se tenta forçar rebuilding (reconstrução) em um volume que já está off-line, inoperante. Essa atitude irresponsável adiciona danos lógicos a uma estrutura já comprometida fisicamente, sendo necessário incluir uma longa etapa de restruturação lógica durante o trabalho de recuperação.

As rotinas usadas na recuperação de RAID são complexas e, na maioria das vezes, deve-se estudar o ambiente comprometido, antes de tomar qualquer ação. Devido as diferentes arquiteturas, que podem ser implementadas por hardware ou software, existe peculiaridades nos procedimentos de reação a incidentes, para cada um destes tipos de arrays.

Serviço de Recuperação de Dados em RAID

Os procedimentos empregados para recuperar RAID danificado variam de acordo com o sistema, tipo de implementação (controladora ou software), configuração, etc. Este trabalho requer equipamentos específicos - exclusivos das empresas deste segmento - e profissionais devidamente treinados, capazes de operar estas ferramentas. A maioria dos incidentes com arranjos resultam de discos defeituosos ou estrutura de metadados comprometida. Portanto, recomenda-se que o recuperador também tenha experiência na gestão destas tecnologias de armazenamento.

Um RAID danificado deve ser imediatamente desativado e enviado para uma empresa devidamente estruturada e com funcionários capacitados para remediar este tipo de desastre, como a Hosco Tecnologia. Desse modo, cria-se uma oportunidade real para resgatar o conteúdo, de modo seguro, usando métodos direcionados. Qualquer ação tomada por pessoal que não seja deste ramo, sem estrutura ou aptidão técnica, poderá resultar na perda definitiva das informações. Além disto, o cliente poderá solicitar reparação de quem comete tal ato de imperícia e/ou imprudência.

O serviço de reparo inclui appliances NAS (Network Attached Storage) e SAN (Storage Area Network), com servidores AD, Samba, NFS, Rsync, FTP, entre outros. Portanto, este trabalho exige planejamento adequado e um amplo entendimento destas tecnologias.

Repositórios dedicados a guardar e transferir arquivos estão presentes em grande parte da redes corporativas. Podem variar de pequenos computadores, contendo dois ou três discos rígidos, até mainframes ligados a estruturas SAN iSCSI (canais de fibra óptica) com centenas de terabytes. Geralmente, eles são projetados para melhorar o desempenho no acesso às informações e proporcionar maior disponibilidade dos arquivos armazenados. No entanto, estes equipamentos não são infalíveis e precisam ser frequentemente avaliados, sendo necessário designar alguém competente para gerenciá-los. Quando os cuidados necessários não são tomados, um volume em estado de degradação pode ficar permanentemente inacessível. Infelizmente, muitas corporações de pequeno e médio porte costumam ser negligentes com este aspecto, sendo as que mais utilizam a recuperação emergencial como a única forma de atenuar este tipo de desastre.

Uma das funções de um RAID é prover redundância, ou seja, manter o perfeito funcionamento mesmo se uma das mídias de armazenamento apresentar defeitos. Nessa situação o array entra em estado degradaded (degradado), o qual um ou mais dos dispositivos físicos tornaram-se danificados, mas o repositório continua operante. Por isso, aqueles que estão acessando este recurso não notam qualquer alteração (desde que a devida redundância tenha sido implementada). Na maioria dos casos, a degradação é percebida quando o administrador acessa os logs ou ao quando dispara algum alarme a partir do storage - gabinetes de servidores modernos emitem avisos sonoros quando ocorrem falhas. Assim, o responsável pela troca dos dispositivos de armazenamento - chamado de operador de backup, em tempos remotos - deverá tomar providências para que o ambiente continue íntegro e com tolerância a falhas. Caso contrário, se um outro HD falhar, a estrutura poderá entrar em status off-line ou failed, o qual ficará inoperante e sem acesso ao seu conteúdo.


Software RAID (RAID por Software)

As implementações de RAID controlado por software mais conhecidas são aquelas criadas por sistemas Unix e Linux. As operações de baixo nível são armazenadas no próprio kernel do sistema operacional. Softwares específicos enviam instruções para o kernel criar uma camada de abstração com os discos indicados. Ou seja, o sistema operacional percebe um conjunto de discos como sendo um único volume. Em distribuições Linux, usa-se o programa MDADM - por isso que os arrays criados desta forma são conhecidos como RAID MDADM. Em sistemas baseados em BSD, a ferramenta mais usada é o BIOCTL.

O MD (multiple device) é muito conhecido por aqueles que já trabalharam com servidores Linux. Trata-se da implementação mais comum de RAID por software (diretamente no kernel), permitindo a criação e manuseio de diversos tipos de discos virtuais, através do seu utilitário, o mdadm. O kernel Linux/Unix cria um device-mapper RAID (dm-raid) como interface para Mdadm a acesso aos dados dos arrays. Não há necessidade de controladora e o processamento é, praticamente, todo realizado pela CPU.

Para reparar informações em qualquer uma destas tecnologias também é preciso conhecê-las muito bem. O uso de qualquer método não profissional (dicas de fóruns, programinhas automatizados, etc.) está totalmente fora de cogitação nestes casos.


JBOD (Just a Bunch of Disks)

O JBOD (Just a Bunch of Disks), como o próprio nome sugere, é apenas um amontoado de discos com dados espalhados, gerenciados por uma controladora HBA. Não é uma estrutura ortodoxa de RAIDe, para, muitos, nem é considerado RAID. Este modo não utiliza nenhuma paridade ou redundância, nem promove aumento de desempenho. Entretanto, pode ser ideal em casos de provisionamento e expansão imediata na capacidade de armazenamento.

O processo de recuperação em JBOD demanda estabilização e reparo dos discos danificados.


Características de RAID Danificado ou Degradado



  • Comprometimento na performance geral do array
  • Volume ou disco virtual deixa de ser reconhecido
  • Inconsistência entre journal/logs e dados gravados
  • Erros de leitura ou escrita ao acessar o array
  • Gerenciador da controladora exibe mensagens de alerta
  • A camada RAID não inicializa automaticamente
  • O arranjo danificado solicita rebuilding constante
  • Travamentos no sistema de gerenciamento do storage
  • Mensagens de erro ao acessar determinados arquivos
  • Processos de I/O entram em overhead constante



Top