SLA de infraestrutura: por que importa mais que o preço

SLA de infraestrutura em e-commerce é uma das métricas mais ignoradas na hora de contratar hospedagem e uma das mais relevantes quando a loja fica fora do ar. O preço mensal do servidor aparece no bolso todo mês; o custo de uma hora de indisponibilidade aparece no relatório de vendas e não tem nota fiscal.

Este artigo explica o que é SLA de infraestrutura, como interpretar os números que os fornecedores apresentam, o que perguntar antes de contratar e por que a diferença entre um SLA de 99,5% e um de 99,9% tem impacto financeiro real.

Principais pontos do artigo

  • SLA é o compromisso formal do fornecedor com a disponibilidade da infraestrutura e tem implicações contratuais
  • A diferença entre 99,5% e 99,9% de uptime representa horas de indisponibilidade por ano que têm custo concreto
  • O tempo de resposta do suporte em caso de incidente é tão importante quanto o percentual de uptime
  • Monitoramento próprio é necessário para verificar se o SLA está sendo cumprido
  • Infraestrutura gerenciada tem custo maior que a não gerenciada, mas inclui serviços que têm valor operacional real
SLA de infraestrutura

O que é SLA e o que ele cobre

SLA é a sigla para Service Level Agreement, o acordo de nível de serviço. No contexto de infraestrutura de e-commerce, é o documento que define o compromisso do fornecedor com a disponibilidade da plataforma, o tempo máximo de resposta a incidentes e as compensações em caso de descumprimento.

O que o SLA normalmente cobre: percentual de uptime da infraestrutura, tempo máximo de resposta a chamados por criticidade, tempo máximo de resolução de incidentes críticos e condições para compensação quando o SLA não é cumprido.

O que o SLA frequentemente não cobre, e que precisa ser negociado explicitamente: tempo de resposta fora do horário comercial, incidentes causados por código da aplicação versus incidentes de infraestrutura, tempo de restauração em caso de falha de banco de dados e cobertura de eventos de segurança.

A matemática do uptime

Os fornecedores apresentam uptime em percentual, e a diferença entre os números parece pequena até você traduzir para horas por ano:

99% de uptime: 87,6 horas de indisponibilidade por ano. Quase 4 dias.

99,5% de uptime: 43,8 horas de indisponibilidade por ano.

99,9% de uptime: 8,7 horas de indisponibilidade por ano.

99,95% de uptime: 4,4 horas de indisponibilidade por ano.

99,99% de uptime: 52 minutos de indisponibilidade por ano.

Para uma loja com faturamento médio de R$ 100.000 por mês, cada hora fora do ar representa aproximadamente R$ 138 de faturamento perdido em um dia normal. Durante um pico como Black Friday, onde o faturamento por hora pode ser 5 a 10 vezes maior, uma hora de indisponibilidade pode custar R$ 700 a R$ 1.400. Isso sem contar o impacto reputacional e a perda de clientes que não voltam depois de uma experiência ruim.

Tempo de resposta a incidentes: o dado mais relevante

Percentual de uptime mede o histórico. O que define a experiência durante um incidente é o tempo de resposta do suporte: quanto tempo desde o primeiro contato até alguém estar trabalhando ativamente no problema.

Perguntas que devem ser feitas antes de contratar:

Qual é o tempo de resposta garantido para um incidente crítico, como loja fora do ar, fora do horário comercial? Muitos contratos garantem resposta em até 4 horas em horário comercial e 24 horas fora. Para um e-commerce que vende às 23h de sexta-feira, 24 horas de SLA de resposta significa uma perda equivalente a um fim de semana inteiro de vendas.

O suporte é prestado por quem conhece Magento especificamente ou é um suporte genérico de infraestrutura? Um time de suporte que conhece Magento identifica se o problema está no código, na configuração da plataforma ou na infraestrutura. Um time que não conhece Magento vai passar horas investigando a infraestrutura enquanto o problema está em uma extensão mal configurada.

Existe canal de comunicação de plantão em casos críticos? Ticket e e-mail têm latência. Um canal de comunicação imediata para incidentes críticos, como um canal dedicado no WhatsApp ou no Slack, pode fazer diferença de horas na resolução.

Monitoramento próprio: não confie apenas no fornecedor

Confiar exclusivamente no monitoramento do fornecedor para saber se a loja está no ar é como pedir ao banco para auditar a própria conta. O fornecedor tem interesse em manter o SLA na teoria, mas incidentes curtos podem não ser registrados se não há monitoramento externo.

Ferramentas de monitoramento externo, como UptimeRobot, Pingdom ou New Relic, verificam a disponibilidade da loja de fora da infraestrutura do fornecedor em intervalos de um a cinco minutos. Se a loja ficar inacessível por qualquer razão, incluindo razões que estão dentro da infraestrutura do fornecedor, o alerta chega antes que o cliente receba um erro.

Esse dado independente também é o que garante a possibilidade de acionar compensações previstas no SLA quando o fornecedor afirma que não houve indisponibilidade.

SLA de infraestrutura

Infraestrutura gerenciada versus não gerenciada

Um ponto que confunde muitos compradores de infraestrutura: a diferença entre cloud gerenciada e cloud não gerenciada vai além do preço.

Cloud não gerenciada: você tem acesso a servidores em cloud e é responsável por tudo que acontece dentro deles. Configuração do sistema operacional, do servidor web, do banco de dados, das atualizações de segurança, do backup e do monitoramento. O preço é menor. O risco de configuração incorreta é totalmente seu.

Cloud gerenciada: o fornecedor é responsável pela configuração, manutenção, atualização e monitoramento da infraestrutura. O preço é maior. O SLA inclui não apenas a disponibilidade do hardware mas também a correta operação do ambiente.

Para uma operação de e-commerce que não tem equipe técnica interna especializada em infraestrutura, cloud gerenciada tem custo-benefício melhor do que parece quando você coloca na conta o custo do time interno ou do especialista freelancer que seria necessário para gerenciar cloud não gerenciada adequadamente.

A Trezo gerencia infraestrutura AWS para operações Magento de múltiplos segmentos, com SLA definido contratualmente e monitoramento proativo. Se você quer entender melhor o que o seu contrato atual garante, fale com nossos especialistas.

FAQ

O que acontece quando o fornecedor não cumpre o SLA?

Depende do que está no contrato. A maioria dos contratos de infraestrutura prevê créditos de serviço proporcional ao tempo de indisponibilidade excedente, não reembolso em dinheiro. Em alguns casos, a compensação é mínima em relação ao impacto real no negócio. Por isso, o SLA deve ser avaliado não apenas pelo número de uptime mas também pela substância das compensações e pela facilidade de acionar essas compensações com dados de monitoramento próprio.

Como comparar SLAs de fornecedores diferentes?

Além do percentual de uptime, compare: tempo de resposta a incidentes críticos fora do horário comercial, tempo médio de resolução por categoria de incidente, o que é excluído do cálculo de uptime (manutenções programadas, por exemplo, costumam ser excluídas), e se o fornecedor tem histórico público de incidentes e como os comunicou. Um fornecedor que comunica incidentes de forma transparente é mais confiável do que um que nunca registra nada.

Infraestrutura mais cara significa SLA melhor?

Não necessariamente. O preço da infraestrutura reflete a capacidade técnica provisionada, mas o SLA depende também da estrutura de suporte por trás. Um servidor potente com suporte ruim tem SLA pior na prática do que um servidor adequado com suporte rápido e especializado. A melhor avaliação é pedir referências de clientes atuais do fornecedor e perguntar diretamente como foi a experiência em situações de incidente.