Depositar na pura confiança, os dados, informações e processos da sua empresa em um Data Center, no qual o SLA não fornece o mínimo de informações, é uma prática com alta probabilidade de desgosto. Quais informações são importantes para ter em mãos, embasando uma decisão objetiva e consubstanciada?
Normalmente o que se consegue obter é uma declaração, sem base estatística de medição, da Disponibilidade do DC. Raramente há uma certificação envolvida. O que se espera da infra de um Data Center - DCI é que ela resista aos incidentes e não interrompa a operação em nenhuma circunstância, durante 24/7h, 365 dias/ano. A essa característica de uma DCI podemos chamar de Resiliência.
Resiliência é por definição, a capacidade de resistir (antecipar, absorver, adaptar-se, reduzir a magnitude, ou duração) a eventos perturbadores da operação e voltar à condição normal.
O Nível de Resiliência de uma DCI é uma enumeração dos atributos dos aspectos de resiliência de um serviço, métrica muito útil, quando se trata de classificar, quantitativa e qualitativamente, a capacidade da DCI de resistir aos incidentes que podem interromper o fluxo do negócio.
A boa notícia é que, a partir da ISO/IEC 22237-31, é possível certificar o Nível de Resiliência de uma DCI e trazer Credibilidade ao SLA.
Já a DR-Recuperação de Desastre acontece depois que o incidente ocorreu, onde o controle dos danos definirá a extensão da recuperação. A resiliência então, é a base que permitirá definir quanto, onde, quando, como e o que, poderá ser recuperado.
Recuperação de Desastres (Disaster Recovery - DR) refere-se ao processo e às estratégias adotadas para restaurar os sistemas e operações após uma falha significativa, ou desastre. É uma abordagem mais reativa em comparação com a resiliência, focada em minimizar o impacto e restaurar a operação normal o mais rápido possível.
A resiliência e a recuperação de desastres são interdependentes e se complementam. Enquanto a resiliência minimiza o impacto das falhas e reduz o tempo de inatividade, focando-se em prevenir e minimizar as interrupções, a recuperação de desastres se concentra em restaurar a operação após uma falha. Ambas são essenciais para garantir a continuidade e a confiabilidade dos serviços prestados pelo data center.
Elementos da Resiliência em DCI
A avaliação da resiliência envolve a verificação de um conjunto de medidas implementadas, informações, estimativas e medições, cujas principais são:
1- Disponibilidade Operacional é a probabilidade medida em um período determinado, que a DCI se mantém em operação cumprindo suas funções. Normalmente é descrita no SLA em termos percentuais de tempo de operação, ou em números de interrupções e tempo médio de inatividade.
2. Tolerância à falha é a capacidade dos sistemas da DCI de reagir e continuar funcionando com certas falhas. Um sistema tolerante à falha é aquele capaz de detectar uma falha e automaticamente, passar a operação para o elemento, ou sistema redundante, ou ainda para um caminho alternativo. A tolerância à falha evita que haja uma violação do SLA.
3- Ponto único de falha: uma DCI resiliente em alto nível, não deve ter pontos únicos de falha (SPoF), que são pontos onde não há redundância, ou caminho alternativo, de modo em que havendo uma falha, haverá a interrupção total da operação e, portanto, uma violação ao SLA.
4- Manutenção concorrente: é a que permite sua execução, sem causar a interrupção da alimentação da carga no ponto de operação. A manutenção concorrente é dependente da topologia utilizada na construção da DCI. O SLA deve discriminar quais manutenções podem ser executadas concomitantemente à operação da DCI, sem que haja interrupções à operação (violação ao SLA).
5- Tempo de acesso ao local da falha é o tempo que os técnicos designados para o serviço, demoram para chegar ao local e iniciar o reparo.
6- Tempo de reparo é o tempo gasto desde a chegada ao local até o retorno da operação daquele componente/sistema. Estão incluídos neste tempo, todos os tempos logísticos (compra de peças, transporte, etc) que contribuem para o tempo de inatividade do componente/sistema.
7- Tempo de resiliência/disponibilidade reduzida é o tempo que o DCI opera em regime de falha, ou durante as manutenções, ou em emergências, em outras palavras, tempo de operação sem a redundância.
8- Disponibilidade Reduzida é a disponibilidade em situação de redundância reduzida.
9- Indicadores de Desempenho (KPIs) da DCI são fundamentais para monitorar a evolução, performance e efetividade das tomadas de ações da gestão do DCI.
Passos para a Certificação da Resiliência
Uma certificação baseada na ISO/IEC TS-22237-31 pode consolidar em um mesmo certificado, todas as informações para atestar o Nível de Resiliência da DCI e portanto, do SLA. Os passos e informações para verificação da conformidade são:
1- O primeiro passo é obter uma Certificação TIA-942B, ou C a qual irá atestar que a DCI tem:
a) uma topologia redundante nas várias disciplinas,
b) um sistema de monitoramento
c) um sistema de manutenção,
d) pessoal qualificado e competente para operar e dar manutenção à DCI.
A Resiliência é proporcional ao nível de classificação Rated obtido, ou seja, quanto maior é o Rating, maior é a resiliência.
2- O segundo passo é a Certificação dos Indicadores que compõem o Nível de Resiliência propriamente dito, que pode ser feito em 3 fases. A primeira fase é a da validação, através da análise da documentação, incluindo um Diagrama de Blocos de Resiliência – RBD, que confirmará o(a):
a) modelo de resiliência e os caminhos de sucesso
b) “manutenção concorrente”;
c) ” tolerância à falha”;
d) os pontos únicos de falha (SPoF).
RBD – Diagrama de Blocos de Resiliência
A 2ª fase é a da verificação da veracidade das medições e dos registros do(s):
a) tempo de inatividade (no limite da violação aceito no SLA), em que a operação da DCI ficou interrompida;
b) nº de falhas (violação do SLA);
c) tempo de acesso ao local para início do reparo:
d) tempo de reparo
A última fase é a do cálculo da(o):
a) Tempo de disponibilidade, resiliência reduzida;
b) Disponibilidade Operacional;
c) Taxa de falhas operacional;
d) Dependabilidade operacional;
e) Classificação do Nível de Resiliência.
No passo 2 o Nível de Resiliência pode ser aplicado para Energia, Controle Ambiental e Rede de Conectividade.
A conclusão é que com um Certificado de Validação/Verificação do Nível de Resiliência fica muito clara a comparação da realidade da DCI com os dados do SLA oferecido.
É importante ressaltar que a Credibilidade é função direta, tanto da Certificação da DCI por Organismo de Certificação licenciado pela TIA, que atue conforme a ISO/IEC 17065, ou 17021, atestando que a instalação e implantação do projeto atendem à categoria FACILITY da ANSI-TIA-942C, quanto da Certificação do Nível de Resiliência, por Organismo de Validação e/ou Verificação, que atue conforme a ISO/IEC 17029, que ateste o Nível de resiliência com base na ISO/IEC TS-22237-31.
A DCCert Certificadora é licenciada TIA para certificar a DCI de sua empresa na TIA-942C.
Consulte-nos e daremos uma resposta em 24h.
Comentarios