Recuperação de Oracle® RAID-Z | OpenZFS RAID-Z

A Hosco Tecnologia possui as melhores soluções para recuperação de RAID-Z (recuperação de dados em RAID-Z), tendo um histórico de êxito, principalmente, nas respostas a incidentes causados por danos físicos em dispositivos de armazenamento com RAID ZFS.

Em 2006, a empresa teve sua primeira experiência com recuperação de RAID-Z inacessível. Desde então, passou a aprimorar programas e técnicas para reparar RAID-Z(1/2/3), incorporando esse tipo de recuperação aos serviços oferecidos.

As ações planejadas, minimamente invasivas e seguras, resultam em maiores índices de recuperações bem-sucedidas.

Sinta-se à vontade para falar conosco. Caso já esteja certo da qualidade dos serviços prestados pela Hosco Tecnologia, solicite atendimento.

Conceito

Recuperação de RAID-Z (recuperação de dados em RAID-Z) é o nome dado às técnicas aplicadas por profissionais capacitados e experientes, que usam os devidos equipamentos e métodos adequados, para recuperar dados em dispositivos de armazenamento que compõe um RAID ZFS (RAID-Z1, RAID-Z2 e RAIDZ3). Em inglês, os termos equivalentes mais usados são RAID-Z repair e RAID-Z data recovery.

O RAID-Z (também escrito, erroneamente, como RAIDZ) é um poderoso subsistema de armazenamento digital e uma das maiores inovações trazidas pelo sistema de arquivos ZFS. Foi lançado no ano de 2005, em uma das atualizações do Solaris 10. Oferece recursos importantes, principalmente, para arquiteturas que abrigam grandes volumes de informações digitais.

Principais Características do RAID-Z

  • Integração direta entre os arranjos e os metadados do sistema de arquivos
  • Auto-reparo automático e transparente (self-healing) de blocos defeituosos
  • Maior velocidade que RAID 5 usual, por sua escrita em COW (copy-on-write)
  • Evita os write hole errors, que acontecem em arranjos RAID por hardware
  • Data blocks distribuidos entre os discos, e com tamanhos variáveis entre si
  • Processamento por software, não demandando controladoras com NVRAM
  • Funciona com controladoras e dispotivos de armazenamento, convencionais
  • Suporta até 3 discos de paridade e permite mirroring ou striping entre arrays

O RAID-Z é parte integrante do ZFS, que foi desenvolvido com a missão de prover uma tecnologia de armazenamento de nível corporativo, sem a obrigatoriedade de usar equipamentos dedicados ou de alto custo. A integração entre o file system, gerenciador de volumes e RAID, permite a criação de arrays de grande volume com apenas uma linha de comando. Tudo é feito e processado por software, ou seja, o próprio ZFS.

A forma como o RAID-Z distribui paridade entre os discos é semelhante ao RAID-5. No entanto, são as diferenças que o fazem tão especial. A principal delas é a gravação de faixas (stripes) de dados com larguras variáveis, impedindo gravações de faixas incompletas que geram inconsistência entre paridade e blocos registrados (o famoso fenômeno do "buraco de gravação"). No ZFS existe uma integração entre os metadados do sistema de arquivos e o esquema de redundância utilizado no RAID, permitindo a largura variável de faixas de dados espalhadas entre os dispositivos do array.

O algoritmo de gestão de erros que acompanha o RAID-Z proporciona alta resiliência, através de recuperação automática, instantânea e transparente (característica conhecida como self-healing), usando um esquema de paridade distribuída de modo a suportar a ausência de até 3 dispositivos (RAID-Z3). Assim sendo, quando o RAID-Z passa a ter um HD danificado, o ZFS instantaneamente corrige e redistribui os dados alocados nele. Todos esses recursos são fundamentais para prover alta disponibilidade em servidores com conteúdo crítico quando são atingidos por falhas de hardware.

Esquemas de Paridade do RAID-Z

MODO

Quantidade de Dispositivos

Paridade

RAID-Z1

≥2

única

RAID-Z2

≥3

dupla

RAID-Z3

≥4

tripla

O nível Z1 pode resistir a falha de um vdev (dispositivo virtual), sem comprometer integridade dos dados. Ele é semelhante ao RAID 5, porém, a distribuição de dados e de informações de paridade é mais dinâmica, alocando, sob demanda, blocos de tamanhos variáveis. Seus principais recursos são checagem de integridade e reparo silencioso de arquivos corrompidos, suporte a snapshot, compressão (e deduplicação) nativa de dados, escrita de arquivos preexistentes em modo copy-on-write, opções avançadas de cache, replicação de dados, registro de operações em logs transacionais, entre outros. O nível Z2 pode resistir até dois vdevs corrompidos, e o Z3 resiste até 3 dispositivos defeituosos. Independente da configuração do RAID-Z, um processo de resilvering (reconstrução) é iniciado quando há discos de spare, fazendo com que o vdev danificado seja substituído imediatamente.

Usa-se o termo resilvering em vez de rebuilding, porque a reconstituição do array acontece de modo diferente das outras implementações de RAID. A ligação direta entre o filesystem ZFS e o RAID-Z permite reparo mais rápido da estrutura degradada, preenchendo apenas os blocos ativos. Isso propicia notável economia de tempo e recursos.

Grandes fabricantes de storage appliances produzem servidores NAS (Network-attached Storage) e SAN (Storage Area Network), como Oracle® FS1, Oracle® SPARC T7-4, Sun ZFS Storage 7120/7320/7420, etc., otimizados para utilização com RAID-Z.

Um ambiente computacional com RAID-Z pode oferecer considerável resiliência perante desastres digitais, e garantir alta disponibilidade de aplicações e serviços. No entanto, qualquer tecnologia de armazenamento está vunerável a fatalidades, erros humanos, ou mesmo ações delituosas, que levam a perda de dados.

Orientação para Gestores de Sistema RAID-Z Danificado

Estado

Vdev de Spare

Recomendação

Degradado, mas operante

presente

aguardar a conclusão do resilvering automático

Degradado, mas operante

ausente

trocar vdevs degrados e esperar término do resilvering

Indisponível (inoperante)

presente|ausente

Imediatamente, desativar o pool e manter seus vdevs desligados. EM NEHUMA HIPÓTESE tentar manipular ou exportar (zpool export) qualquer elemento do dataset. Consultar empresa de recuperação RAID-Z

Serviço de Recuperação de Dados em RAID-Z


Arquiteturas Recuperadas

Plataformas Recuperadas

A Hosco Tecnologia é pioneira em recuperação profissional de RAID-Z, no Brasil, tendo diversos casos comprovados de sucesso. Suas ações são executadas com as devidas ferramentas, de modo seguro (preservação de udevs e da estrutura de dados) e consciente (procedimentos corretos e programados), usando seus próprios scripts. A equipe possui um longo histórico real em implementação, administração e proteção de arquiteturas Unix. Esta experiência influencia diretamente nos melhores resultados obtidos pela empresa, em reparar dados perdidos em RAID-Z.

O primeiro contato com RAID ZFS ocorreu em 2005, por causa de um processo dentro da própria empresa, envolvendo a migração do filesystem de seu storage NAS (Linux Debian) para um Unix Solaris 10 com ZFS, usando uma controladoras HBA para acesso direto aos HDs. A primeira recuperação de arquivos em RAID-Z danificado ocorreu pouco tempo depois, em um servidor Opensolaris com dois HDs defeituosos. A documentação era escassa naquele tempo, o que gerou um longo trabalho de tentativa e erro. Por fim, o resultado positivo trouxe uma valiosa experiência para a equipe.

Recuperar RAID-Z demanda entendimento sobre a dinâmica das operações de read/write registradas nos logs transacionais, e a forma como blocos são criados e validados (checksums armazenados em merkle4). Ainda, é importante conhecer algumas diferenças em relação aos os outros subsistemas de armazenamento - implementação baseada em software, modo de alocação dinâmico, método peculiar de checagem de erros, auto gestão de blocos inconsistentes, etc. Por isso as ações precisam ser feitas por profissionais que têm bastante afinidade com essa tecnologia, os quais poderão desenvolver e aplicar uma estratégia de recuperação eficaz e segura.

A verificação de logs e o histórico de ações executadas no pool é a primeira etapa da análise que precede o trabalho de recuperação de RAID ZFS. Pools com tentativas forçadas de importação e resilvering têm menor probabilidade de recuperação e custo mais elevado, por agravar danos físicos e lógicos. Prevalece a recomendação de desligar imediatamente os componentes do Pool , logo que este se tornar indisponível ou apresentar erros de leitura/escrita.

Tentativas de recuperação executadas por pessoal não especializado podem levar a perda definitiva de dados, por causa da grande quantidade de recursos oferecidos e das peculiaridades inerentes aos datasets. Além do conhecimento, é necessário prudência do profissional que cuidará de uma resposta a incidente envolvendo RAID-Z.

O auto reparo de arquivos corrompidos em RAID-Z ocorre de modo silencioso, portanto, é importante haver um analista responsável pela monitoração constante e reposição dos discos que problemas. Desse modo, evita-se que a degradação chegue a um nível de severidade que pode deixar o storage em estado off-line (faulted).

Todo ambiente de armazenamento digital precisa de rotinas de backup e monitoramento frequente, para evitar interrupção não programada de seu funcionamento. Mesmo assim, qualquer sistema está sujeito a fatalidades, levando empresas a utilizarem a recuperação profissional como forma de resposta a desastres ocorridos em sistemas com RAID-Z. Essas empresas costumam recorrer a Hosco Tecnologia.


Estado Operacional de Elementos do RAID-Z



ONLINE: Todos os vdevs (dispositivos) estão funcionando corretamente

OFFLINE: Um ou mais vdevs (dispositivos) foram removidos manualmente

REMOVED: Vdev que é removido durante o funcionamento de um RAID-Z

UNAVAIL: Vdev que não pode ser acessado (geralmente, por dano físico)

DEGRADED: RAID-Z operacional, mas com um ou mais vdevs danificados

FAULTED: Qualquer componente ZFS (vdev, zpool, zvol e RAID-Z) inacessível




Top