top of page
DCCert Certificadora

Gestão de Risco: 75% das falhas são por erro humano

Esse número que circula pelo mercado, no qual 75% das interrupções/falhas nos data centers são devidas ao erro humano, talvez fizesse mais sentido 15 anos atrás, quando se experimentava um número grande de interrupções. Frente à evolução da tecnologia e dos sistemas de gestão, o número de interrupções deveria estar diminuindo, em contrapartida, porém, carregando consigo um consequente aumento das causas devido ao erro humano.

O erro humano é aquele no qual alguém imprudentemente, decidiu fazer de forma diferente do que deveria ser feito e a consequência é o impacto na resiliência e na tolerância as falhas do data center.



A maioria dos erros é não intencional causado por vários fatores, com especial atenção à falta de conhecimento/ informação. Normalmente esses erros podem ser previstos e prevenidos por ações gerenciais, assim como a transmissão do conhecimento também é uma responsabilidade da gestão.

Já o erro intencional é aquele advindo de uma violação consciente. Pode ser rotineiro (geralmente de baixo risco), pontual (de alto risco), ou ainda atos de sabotagem e todos merecem avaliação aprofundada e individual.

Não podemos deixar de considerar que a baixa capacidade de detecção e previsibilidade são motivos de erros. A detecção e a previsibilidade são fundamentais tanto no âmbito interno / externo, quanto nos intencionais / não intencionais. Quanto maior a capacidade de detecção e de previsibilidade, melhores e mais ágeis serão as tomadas decisões, desde ações para prevenir/eliminar a possibilidade da ocorrência da falha, até tomar medidas para reduzir o efeito/mitigar, ou recuperar-se de um desastre.

As normas TIA-942 e a IEC 22237, baseiam os níveis “Rated/Class” de sua classificação, na capacidade de tolerância a falhas, na qual o nível de automação da DCI é um requisito importante e influencia diretamente na Resiliência. Além disso, os requisitos das normas, de forma geral, são direcionados a aumentar a capacidade de prevenção, predição e a redução da possibilidade de erros intencionais e não intencionais. As normas recomendam a utilização da Gestão de riscos como ferramenta básica e prescreve requisitos para a Gestão da Operação e Manutenção, como auxilio e suporte à prevenção.

É certo que a gestão dos riscos, assim como o conhecimento transmitido por ações gerenciais, são os pilares da Resiliência do data center, pois cabe a elas reduzir os erros de qualquer natureza. Esse raciocínio lógico nos leva à conclusão, que as falhas vêm se reduzindo, conforme melhora a Gestão, porém as causas devidas ao “erro humano”,  tenderão a ser maiores que 90%, pois apenas o indetectável e imprevisível restaria fora do âmbito dos erros humanos.


Como melhorar a detecção e a previsibilidade?

 

Detectável é aquilo que é percebível, ou pode ser descoberto, ou revelado e previsível quando há uma probabilidade, ou possibilidade, expectativa, perspectiva ou esperança. 

Para a prevenção do erro humano, se considerarmos apenas o contexto da infraestrutura - DCI, hoje o mercado oferece muitas opções, que há 20 anos atrás não estava disponível comercialmente.


Para facilitar e ajudar na eficiência e conformidade dos  projetos encontramos softwares para desenho com recursos digitais, impressoras 3D, softwares de análise computacional por elementos finitos, plataformas digitais com banco de dados e análise de interferências; para ajudar no controle e manutenção dos equipamentos o mercado também já dispõe de equipamentos IoT com autodiagnóstico, sensores para detectar maus funcionamentos, condições ambientais adversas, Inteligência artificial generativa para ajudar nas correções e predições, aplicativos de controle, comunicação real-time; para verificação e inspeção com precisão, já contamos com a realidade aumentada, drones e dispositivos de medição digitais portáteis; para monitoramento e controle da operação, aplicativos e softwares, além de  softwares e aplicativos de gestão do negócio, para ajudar na tomada de decisões. Desse ponto de vista, é de se supor que a maioria das falhas poderiam ser evitadas.


A Gestão de Riscos e a Resiliência.


A prática geral da engenharia ao projetar e planejar a construção de uma edificação é tem os princípios da identificação e análise de riscos e se baseia nas informações quanto à função e propósito do projeto, reunir a experiência de vários profissionais, as ideias e soluções que já utilizou em projetos anteriores de sucesso, coletar informações dos fornecedores dos elementos, sistemas e dos ambientes onde estes serão instalados. Faz uma análise dos fatores internos e externos, levanta prós e contras, pontos favoráveis e desfavoráveis, imagina possíveis problemas e situações que poderão ocorrer, fatores de segurança que deve considerar, e parte para a definição e dimensionamento das soluções mais eficazes, de menor custo e tempo de execução.


A Gestão de riscos sistematizou a identificação e análise dos riscos e incluiu como parte do processo, a avaliação, o tratamento, a comunicação e o monitoramento, tornando-a um processo contínuo mais abrangente, com pontos de vista disciplinarmente diferentes, de forma a aumentar a segurança, a longevidade, a eficácia, a eficiência, a lucratividade e a resiliência do data center, através da prevenção, ou eliminação da probabilidade das falhas, ou ainda, na redução dos seus efeitos.

A análise de risco deve utilizar ferramentas como FMEA, árvores de falhas, e outras, que auxiliam a classificação do risco, por ex. baixo risco que causará uma falha que reduzirá a capacidade de um elemento, sem necessariamente a interrupção da função, até o alto risco no qual uma falha crítica interromperá completamente o sistema.  

A Gestão de Riscos como um modelo de gestão, promove uma apurada avaliação dos riscos e a partir dela, prioriza a implantação e controla a implementação de medidas de prevenção, predição e monitoramento dos riscos. Como as mudanças são constantes, a Gestão dos riscos deve ser dinâmica e estar sempre atualizada, pois toda mudança embora traga benefícios, é sempre acompanhada de novos problemas.

A abrangência da análise e da Gestão dos riscos no contexto da DCI, exige considerar o entorno do Data Center e em cada fase do ciclo, do projeto à operação, mapear os riscos potenciais nas condições normais de operação, nas situações de manutenção e nas emergências, ou situações adversas.

Pode-se concluir que a análise de riscos garante um projeto de alta resiliência, porém é a Gestão dos riscos que irá garantir a longevidade, Confiabilidade e Resiliência do data center, através da prevenção, predição, monitoramento e ações positivas, possibilitando a redução do erro humano.


A Gestão de risco aplicada na prática


A aplicação prática da gestão dos riscos se inicia na seleção da localidade onde o Data Center será construído, identificando nessa fase, quais os riscos no entorno da área onde se localizará a obra e o futuro Data Center. Essa análise deve abranger os riscos externos de origem natural que são aqueles que se iniciam no entorno do Data Center, em consequência de um fenômeno da natureza. Como exemplo de riscos externos pode-se citar: terremotos, furacões, vendavais, deslizamentos de terra, inundações, tremores, quedas de árvores, descargas atmosféricas e vários outros.

Embora alguns desses fenômenos sejam detectáveis ou previsíveis, normalmente esses fenômenos ainda estão fora do alcance e da capacidade de interferir do Data Center e os seus efeitos tem impacto significativo na performance do Data Center.

Ainda com origem no entorno do Data Center há outros riscos externos de origem não natural que se iniciam em consequência de ações realizadas pelo homem.  Como exemplo podemos listar: explosões, contaminações químicas, perturbações eletromagnéticas, colisões de veículos ou aviões, invasões, intrusões, trafego, fumaça, incêndio e vários outros.

Há um grande número dessas ações antrópicas no entorno que são detectáveis, ou previsíveis, assim como o impacto dos seus efeitos na performance do Data Center.

Os impactos externos, sejam naturais ou antrópicos, poderão ter vários níveis de severidade e a análise de riscos pode prever medidas para reduzir os efeitos e aumentar a resiliência. Dependendo dos riscos residuais, em contrapartida ao investimento para a implementação para reduzir os potenciais efeitos e aumentar a resiliência do Data Center, a decisão pode ser até de não aprovar a localidade para a implantação do Data Center.

A próxima fase da análise de riscos, agora com foco interno, é dar suporte aos projetistas e construtores, quanto à concepção do projeto em termos de topologia, tecnologias aplicadas e o nível de resiliência. A existência de pontos únicos de falha, ou de disponibilidade reduzida, sob um caminho de sucesso do sistema claramente determinado é fundamental para a execução do projeto e construção da obra do Data Center.

A análise de riscos também será base para a elaboração dos procedimentos nas situações normais operação, de manutenção e monitoramento, os quais deverão conter os fluxos dos processos, as responsabilidades e autoridade, os critérios e tratamentos às não conformidades, os objetivos e metas, planos de recuperação emergenciais, alocação de recursos, competências, enfim, todos os subsídios para o sucesso do funcionamento de todos os elementos e sistemas do Data center.

Uma análise de risco aprofundada permitirá ao projetista, com muito mais precisão, dimensionar os elementos e sistemas, uma vez que terá ao seu alcance todos os fatores estressantes, ambientais, de carga, já abrangendo situações que representem perigo natural, ou antrópico, que possa vir a ocorrer.

No ambiente interno ao Data Center, pode-se classificar os riscos em Técnicos e não técnicos, e consequentemente os efeitos serão falhas técnicas, que dependem diretamente da natureza físico-química dos elementos e sistemas (materiais e equipamentos) da DCI, como por exemplo, fadiga, estresse, desgaste, quebra, trinca, queima, ou outra razão. Esses efeitos citados são consequência do tempo de uso, da forma de uso (carga/capacidade total ou não), da forma de exposição (à temperatura, à luz, sol, chuva, neve, poeira) e outros. Pode-se perceber que a forma como os elementos serão dimensionados, o tipo de ambiente no qual serão instalados, terão grande influência na determinação do tempo de falha do elemento, ou do sistema.

Com relação aos perigos não técnicos, a gestão de risco é uma forte ferramenta auxiliando na elaboração dos procedimentos instruções, comunicação, de avisos e alarmes a sua importância para melhoria e eficácia na prevenção e predição.


A natureza e a Tolerância às falhas


As falhas são os efeitos de situações de perigo que ocorrem sobre um elemento, ou sistema da DCI. 


De acordo com a IEC 60050-192, falha é a perda de capacidade de executar conforme requerido. A falha é o oposto ao sucesso, no contexto do nível esperado de resiliência, em um determinado ponto de operação.

Tolerância à falha (ou à falta) é a capacidade de continuar funcionando com certas falhas presentes.

Resiliência é a capacidade de resistir e reduzir a magnitude e/ou duração de eventos perturbadores, incluindo a capacidade de antecipar, absorver, adaptar-se e/ou recuperar-se rapidamente de tal evento.

Um Data Center deve ser resiliente, ou seja, deve manter-se operando com sucesso em suas funções e a Resiliência é uma forma bastante significativa para esta medição, uma vez que é composta por um conjunto de 3 KPIs: Dependabilidade, Tolerância à Falha e Tolerância à Disponibilidade.

A contribuição da Gestão de riscos é dar transparência aos riscos, para a promoção de medidas de prevenção e predição que possam aumentar constantemente o nível de Resiliência e tolerância às falhas.

As certificações promovem a aplicação da Gestão do risco e induzem a sua utilização de forma consistente, e toda ferramenta que traz resultados, com o passar do tempo se institucionalizará como parte da cultura do data center



DCCert - artigo de Arnaldo Barbulio Filho – junho 2024

8 visualizações0 comentário

Posts recentes

Ver tudo

Comments


bottom of page