Simples Solução TI | Suporte Técnico e Serviços de TI no RJ e SP
Voltar ao blog
Fabiano Lucio, autor do blog da Simples Solução TI

Fabiano Lucio

24 de maio de 202613 minutos de leitura

SLA de TI no Brasil: como definir metas, medir desempenho e evitar descumprimentos

SLA de TI no Brasil: como definir metas, medir desempenho e evitar descumprimentos

Um SLA de TI define, de forma mensurável, o que a área de tecnologia se compromete a entregar e como o desempenho será verificado. Em acordos públicos e regulatórios no Brasil, esse compromisso costuma ser expresso em parâmetros como disponibilidade, tempo de resposta, prazos de atendimento e regras de recuperação de serviço (Anatel).

 

O que costuma ser confundido é tratar o SLA como “metas” genéricas, sem amarrar indicador, janela de apuração, responsabilidades e critérios de medição. Quando esses elementos não ficam formalizados, a cobrança vira disputa de interpretação: o contrato não comprova nem o problema nem o cumprimento (Tribunal de Contas da União).

 

A partir de critérios objetivos, fica mais fácil transformar metas em indicadores auditáveis, estabelecer o que acontece quando o nível não é atingido e reduzir o risco de descumprimento por lacunas operacionais. O resultado esperado é um acordo que sustenta acompanhamento contínuo e, se houver falha, permite tratar impacto e glosa com base em evidência (Portaria SGD/MGI nº 5.950/2023).

 

O que é SLA de TI e quais compromissos mensuráveis ele deve formalizar

 

Para que as partes envolvidas saibam o que está contratado, o SLA de TI precisa explicitar escopo do serviço (o que entra e o que fica fora), padrões de atendimento (horários, canais e regras de prioridade) e critérios de medição com evidências (quais logs, relatórios ou amostras sustentam o indicador). Também devem ser detalhadas responsabilidades entre contratante e provedor, incluindo comunicação durante incidentes e aceite de entregas.

 

Quais parâmetros costumam entrar: disponibilidade, tempo de resposta, prazos e qualidade

 

Os compromissos precisam ser descritos em termos que indiquem o que será entregue e como será medido: disponibilidade, tempo de resposta, prazos de atendimento e critérios de qualidade. Para “fechar contrato” com clareza, cada parâmetro deve trazer unidade de medida (por exemplo, % do mês ou minutos), janela de apuração e definição do que conta como ocorrência (chamado aberto, evento confirmado ou demanda aceita).

 

A disponibilidade, o tempo de resposta e os prazos funcionam melhor quando vêm acompanhados de regras operacionais, como horário de atendimento e condição de contagem (por exemplo, inicia quando a solicitação é registrada no sistema de help desk). Em contratos públicos de TIC, a Portaria SGD/MGI nº 5.950/2023 recomenda indicadores associados a resultado e exige, no mínimo, métricas de qualidade, desempenho do produto e prazo de entrega, além de prever glosas e sanções proporcionais ao peso do indicador.

 

Qualidade costuma falhar na prática quando fica genérica; por isso, o SLA precisa detalhar critérios verificáveis de aceite e recuperação. Um exemplo objetivo é definir que “qualidade” inclui conformidade com procedimento de solução (checklist) e taxa de retrabalho em um período pós-atendimento; assim, o descumprimento deixa de ser discussão subjetiva e vira evidência. Para evitar conflitos, o acordo também deve separar o que é medição do serviço do que é mudança contratual, tratando exceções com critérios de validação e reprocessamento.

 

Por que “recuperação de serviço” e regras de operação também entram no acordo

 

A recuperação de serviço e as regras de operação precisam entrar no acordo porque elas especificam como a TI vai agir quando os indicadores de desempenho deixam de ser cumpridos e quando surgem exceções. Em contratos públicos analisados pelo Tribunal de Contas da União, um SLA robusto normalmente explicita descrição do serviço, período de vigência, horários de atendimento, objetivos, indicadores, metas, responsabilidades e garantias, além de medidas emergenciais e planos alternativos.

 

A Portaria SGD/MGI nº 5. 950/2023 reforça que os indicadores devem ser ligados a resultado e abranger, no mínimo, qualidade, desempenho do produto e prazo de entrega, com glosas e sanções proporcionais à relevância do indicador.

 

Na prática, isso se traduz em definir o que ocorre quando a falha acontece durante janela de manutenção, como será a validação da medição (o que conta como início e fim do evento) e quais evidências suportam a contagem; sem essas regras, fica difícil sustentar o que foi ou não foi descumprido.

 

Uma regra operacional bem descrita também reduz disputa: o SLA deve dizer como a operação classifica incidente, como o atendimento segue um fluxo (triagem, tentativa de restauração e comunicação ao usuário final) e quais limites existem para replanejar prazos. Um exemplo objetivo é prever um “gatilho” de mudança de plano quando o tempo de restabelecimento projetado ultrapassa o patamar contratual, ativando uma estratégia alternativa antes que a métrica seja estourada.

 

Como o SLA vira um serviço contratado (e não só uma promessa) ao definir vigência e responsabilidades

 

Para que o acordo vire serviço contratado, o SLA precisa detalhar vigência e responsabilidades em cláusulas operacionais: quando começa e termina, quais horários de atendimento valem e quem executa cada etapa (triagem, correção, comunicação e validação). Esse detalhamento evita “promessas” vagas ao amarrar o que será medido e com que regra de funcionamento, inclusive em mudanças de janela ou escalonamento entre áreas.

 

A descrição do serviço deve incluir objetivos, indicadores e garantias, além de medidas emergenciais e planos alternativos quando a meta não puder ser cumprida por causa conhecida. A documentação do Tribunal de Contas da União indica que um SLA robusto costuma trazer descrição do serviço, período de vigência, horários de atendimento, responsabilidades, garantias, medidas emergenciais e regras de monitoramento (Pesquisa textual | Tribunal de Contas da União).

 

Com isso, fica claro o comportamento esperado fora do “horário comercial” e durante incidentes.

 

A parte “recuperação de serviço” precisa ser especificada com regras do tipo “o que acontece depois que falha”: acionamento, tempo máximo para restabelecer, comunicação ao usuário e critérios de encerramento do incidente. Em documentos públicos sobre qualidade e recuperação de serviço, o ANS aparece como compromisso expresso em parâmetros como horário de funcionamento, tempo máximo de resposta, quantidade mínima de transações e percentuais mínimos de disponibilidade (Anatel). Isso ajuda a definir escopo auditável e reduz disputa quando ocorre descumprimento.

 

Como transformar metas em indicadores: fórmulas, janelas de apuração e responsabilidades

 

Para reduzir disputas no dia a dia, a organização deve definir metas como taxas ou tempos com fórmulas consistentes e calcular em janelas fixas (por exemplo, mensal ou trimestral). Um padrão útil é: Disponibilidade = (tempo em serviço no período ÷ tempo total do período)×100; Tempo de resposta médio e percentis (p95/p99) separados por fila; e Atingimento do prazo = (chamados concluídos no SLA ÷ total de chamados no período)×100.

 

Para fechar a conta, a governança precisa padronizar critérios de amostragem, registrar a “hora zero” do SLA por tipo de demanda e prever como recalcular indicadores em reprocessamentos ou correções.

 

Como escolher métricas associadas a resultado (qualidade, desempenho do produto e prazo de entrega)

 

Metas e indicadores reduzem disputa no dia a dia quando são definidos como resultado mensurável, com fórmulas explícitas e regras de cálculo que não mudam entre operações e auditorias. A Portaria SGD/MGI nº 5.950/2023 orienta que indicadores de nível de serviço cubram, no mínimo, qualidade, desempenho do produto e prazo de entrega; isso ajuda porque cada indicador passa a ter uma forma de “fechar a conta” com evidência.

 

Para medir desempenho com menos interpretação, a apuração deve usar janelas e critérios de inclusão claros, por exemplo: “% de atendimentos concluídos em até 8 horas úteis” calculado como (quantidade no prazo ÷ total elegível) × 100, separado por fila/canal e por prioridade. Quando um chamado fica “sem dados” por falha de registro, a governança precisa prever regra objetiva (ex.: excluir do denominador) para evitar discussão sobre o impacto do indicador, inclusive em períodos trimestrais.

 

Qualidade e prazo devem ser ligados a eventos verificáveis, mas com tolerância operacional definida para exceções. Um caminho é combinar taxa de retrabalho (ex.: retrabalho ≤ 2% por sprint) com SLA de tempo (ex.: primeira resposta ≤ 1 hora) e prever “congelamento” do relógio em bloqueios aprovados (dependência de terceiros, mudança de escopo formal). Assim, a métrica associada a resultado continua comparável mesmo quando o fluxo de trabalho muda por causa controlada.

 

Como definir janelas de medição (por exemplo, apuração trimestral) e o que acontece fora do SLA

 

  • Defina janelas fixas de apuração (ex.: trimestral) e registre um “corte” operacional: incidentes iniciados antes do corte entram na janela, e os encerrados após o corte ficam registrados separadamente.

  • Mensure “fora do SLA” por categorias: atraso por fila, atraso por dependência externa, e atraso por indisponibilidade planejada; cada categoria precisa de regra de exclusão ou tratamento no cálculo do indicador.

  • Atribua critérios de validação: timestamps do chamado, do início efetivo do atendimento e da entrega; use timezone padrão e auditoria de logs para evitar disputa sobre o momento que conta.

  • Quando ocorrer falha fora do SLA, aplique o efeito definido (glosa parcial, serviço de recomposição ou nova execução) e condicione a apuração à evidência mínima (registro do ticket e evidência de entrega).

 

Como detalhar responsabilidades, monitoramento e tratamento de exceções para manter rastreabilidade

 

Para manter rastreabilidade e reduzir disputa, responsabilidades devem ser descritas por evento de operação (detecção, triagem, execução, validação e comunicação) com dono, horário-alvo e critérios de aceite. Cada indicador precisa ter “insumo” e “prova” (ex.: qual log, qual métrica e qual ticket), além de um mecanismo de contagem que defina início e fim do cronômetro, incluindo como tratar reaberturas.

 

O tratamento de exceções deve ter regras explícitas para três casos: indisponibilidade por causa acordada (mudança planejada), falha fora do escopo (dependência de terceiros) e incidentes com impacto parcialmente elegível. No modelo de contratos públicos, o Tribunal de Contas da União costuma exigir que o SLA inclua descrição do serviço, período de vigência, horários de atendimento, indicadores, metas e responsabilidades, pois sem isso a apuração vira interpretação.

 

Na prática, uma exceção sem critério de entrada e evidência de validação costuma gerar contestação na medição.

 

Para reduzir ambiguidades na apuração, recomenda-se registrar a linha do tempo do atendimento com carimbo de data/hora e regra de escalonamento: por exemplo, quando a triagem ultrapassar o tempo previsto, a medição deve continuar até o aceite ou até a data/hora registrada de exclusão por exceção aprovada.

 

A Anatel explicita compromissos de qualidade e recuperação ligados a parâmetros como horários e prazos máximos, o que ajuda a delimitar quando a contagem é “SLA em andamento” e quando ocorre “recuperação” sob governança.

 

Números e evidências: exemplos de metas e padrões usados em acordos públicos

 

Em acordos públicos, é comum aparecer disponibilidade mínima mensal (por exemplo, 99,35% e 98,90%) e metas de entrega de demandas com percentuais explícitos (como 80%), junto de elementos como período de vigência e horários de atendimento definidos em documento. Esses números vêm sempre acompanhados de regras de medição e critérios de aceitação verificáveis.

 

Tabela com elementos numéricos frequentemente usados em SLAs/ANS em documentação pública brasileira, para calibrar metas e metas de apuração.

 

Elemento numérico no SLA público

Exemplo do que costuma aparecer

O que isso calibra na prática

Como comparar entre acordos

Disponibilidade mínima mensal

99,35% / 98,90% / 96,70%

Meta de uptime com tolerância a falhas

Use o período (mensal) e o serviço alvo

Meta de entrega em 1 indicador

80% para entregas de demandas

Percentual mínimo dentro de uma categoria

Compare qual demanda entra no cálculo

Tempo de atendimento/retorno

Horários e SLA de resposta máximo

Expectativa de resposta por janela

Verifique se é 'corrida' ou 'dias úteis

Indicadores associados a resultado

Qualidade + desempenho do produto + prazo

Evita medir só atividade

Confirme as fórmulas de cada indicador

 

O que fazer quando houver falha: impactos, glosas e limites para sanções proporcionais

 

O descumprimento de SLA de TI costuma gerar três efeitos práticos: perda de previsibilidade para o usuário final, aumento de retrabalho operacional (reprocessos, revalidações e filas paralelas) e necessidade de acionar plano de contingência, já com custos indiretos. Para evitar “glosas que travam”, as sanções devem ser calculadas sobre o impacto no serviço (não sobre o volume absoluto de chamados) e limitadas por teto e por eventos confirmados.

 

Em acordos públicos no Brasil, a lógica de glosa proporcional aparece associada a indicadores de qualidade, desempenho e prazo de entrega, acompanhados de mecanismo formal de validação e registro.

 

Como prever consequência operacional (plano alternativo e medidas emergenciais) para evitar piora de serviço

 

Quando houver risco de descumprimento, a consequência operacional costuma ser mais custosa do que o “valor da glosa” em si, porque afeta continuidade e prioridade de atendimento. Por isso, o acordo deve atrelar cada indicador a uma resposta planejada: gatilhos objetivos (por exemplo, degradação sustentada por 2 janelas de medição) e um plano alternativo que preserve o serviço crítico mesmo com redução temporária de escopo.

 

Para evitar que o mecanismo de sanção trave a operação, o modelo de governança precisa separar “falha de desempenho” de “incidente sob exceção aprovada”. O TCU, ao tratar de requisitos esperados em normas e instrumentos, aponta que um SLA robusto inclui garantias, responsabilidades e medidas emergenciais; na prática, isso viabiliza que a medição identifique a causa (problema interno, dependência externa, evento do cliente) e aplique consequência apenas quando o descumprimento não foi causado por fator fora do controle contratual.

 

A calibragem deve ser proporcional ao impacto do indicador, com critérios de validação e registro de evidência antes de qualquer glosa. Um contrato pode prever recuperação de serviço e continuidade mínima com metas de disponibilidade e regras de exceção, mas a Anatel explicita parâmetros de qualidade e recuperação de serviço em documentos públicos; o efeito prático é permitir recuperação com tempo e nível definidos, reduzindo atrasos em cascata e limitando sanções quando a entrega foi compensada dentro do prazo estabelecido.

 

Como calibrar glosas e sanções conforme a relevância do indicador (sem punir o que não causou o problema)

 

  1. compare impactos por indicador usando uma matriz de criticidade (cliente/negócio, segurança, continuidade); marque como “causado” apenas o que houver evidência no mesmo período de apuração.

  2. calcule glosa pelo peso do indicador: aplique fator maior para indisponibilidade/entrega de demanda final e fator menor para métricas de qualidade não bloqueantes.

  3. registre exceções com trilha de auditoria (incidente, causa-raiz, evidências, comunicação e hora); associe cada exclusão a um gatilho definido no SLA, mantendo rastreabilidade.

  4. calibre sanções com piso e teto: use redução limitada do pagamento/penalidade escalonada só após validação da métrica, evitando travar operação por falhas pontuais.

 

Como reduzir litígio com registro de medição, critérios de validação e governança de incidentes

 

  • A glosa deve estar amarrada a um indicador e a uma base de cálculo auditável (ex.: log do monitoramento e registro de atendimento), com critérios de validação nominal do que conta como “horário coberto” e “aceite do chamado”.

  • Sanções proporcionais sem travar a operação exigem teto por período e uso de “compensação por melhoria”: em descumprimento parcial, aplicar glosa reduzida e exigir plano de correção com prazos, em vez de interromper automaticamente o serviço.

  • Defina governança de incidentes com papéis fixos (proprietário do serviço, aprovador de medição e responsável por exceções) e um trilho de evidências: ata da análise, classificação do incidente, decisão e anexo de provas.

  • Para reduzir litígio, padronize critérios de exclusão e tratamento de exceções (ex.: indisponibilidade por evento externo comprovado e fora do escopo contratado), registrando a justificativa antes da apuração e com assinatura das partes.

 

Qual modelo de SLA escolher e como decidir níveis, escopo e governança

 

A melhor decisão para reduzir risco de descumprimento é usar um modelo híbrido: SLAs por cliente para demandas variáveis e SLA baseado em serviço para rotinas operacionais com volume e causa previsíveis. Esse desenho permite alinhar prioridades de negócio e exceções com regras de atendimento, além de separar comunicação comercial de critérios técnicos. Na prática, a governança tende a falhar menos quando o escopo inclui matriz de criticidade, janela de escalonamento e critérios de mudança de versão do serviço.

 

Como decidir entre SLA de nível do cliente e SLA baseado em serviço conforme o tipo de demanda

 

  • Classifique a demanda por criticidade e cadência: incidentes “24x7” tendem a exigir SLA por serviço; solicitações previsíveis por fila podem ser SLA por cliente com metas de entrega.

  • Defina ownership por trilha: ao mapear backlog e incidentes em um mesmo fluxo operacional, use SLA baseado em serviço para não transferir responsabilidade entre áreas (ex.: suporte, engenharia, operações).

  • Use critério de contrato híbrido: combine SLA por cliente para “capacidade e contato” (horário, canal, tempo de resposta inicial) com SLA baseado em serviço para “execução” e resolução.

  • Padronize validação e exclusões: inclua critérios de medição, causas fora do escopo e janelas de apuração acordadas para evitar glosa indevida e retrabalho em auditorias internas.

 

Como definir protocolos de segurança e critérios de atendimento sem misturar escopo técnico e comercial

 

  • Defina escopo por demanda: SLA por serviço para rotinas recorrentes (ex.: suporte a aplicações) e SLA por cliente para obrigações específicas (ex.: horários e regras de aceite); use híbrido só quando ambos forem auditáveis.

  • Formalize “protocolo de segurança” como requisitos operacionais do atendimento: controle de acesso (quem pode aprovar/alterar), trilha de auditoria (logs retidos) e política de confidencialidade, com evidência exigida no chamado.

  • Crie critérios de atendimento por estado do fluxo: abertura, triagem, diagnóstico, execução e validação; cada etapa deve ter evidência mínima e prazo interno, mas sem misturar preço/condições comerciais com execução técnica.

  • Inclua gatilhos de replanejamento: se métricas de demanda/recursos mudarem, o SLA exige revisão do plano e reclassificação de prioridade; isso reduz risco de descumprimento por incapacidade operacional.

 

Como garantir um acordo auditável: papéis, cadência de revisão e gatilhos de replanejamento

 

A decisão de reduzir risco de descumprimento costuma ser escolher um modelo híbrido: um SLA por cliente para requisitos comuns (como horários e canal de atendimento) e um SLA por serviço para partes que variam por tipo de demanda e complexidade. Esse desenho limita “surpresas” porque cada meta fica sob a governança certa e não mistura escopo comercial com critérios técnicos.

 

Para garantir auditabilidade, o acordo precisa registrar papéis e trilhas de evidência antes da execução. A contratação deve definir quem valida medições (por exemplo, TI/Service Desk), quem aprova exceções e quais artefatos sustentam cada indicador, como logs de atendimento, relatórios de disponibilidade e registros de incidentes.

 

Uma revisão com base em evidência também fica mais objetiva quando o SLA explicita o período de medição e o método de cálculo, em vez de deixar a interpretação livre; práticas de acordos públicos comparam metas com fórmula e apuração em janela definida.

 

A cadência de revisão deve ser proporcional ao risco do serviço: indicadores críticos podem exigir replanejamento em ciclos curtos (por exemplo, mensal), enquanto indicadores menos voláteis podem operar em trimestre, desde que exista gatilho de acionamento.

 

Um critério prático de replanejamento é gatilho por tendência: quando o resultado fica abaixo da meta por duas janelas seguidas, o time revisa capacidade, priorização e mão de obra antes de acumular falhas; a calibragem de consequência também tende a ser amarrada ao indicador, como orienta a Portaria SGD/MGI nº 5. 950/2023 ao exigir métricas por resultado e prever glosa.

 

Uma boa próxima ação é consolidar, em um quadro único, o modelo (cliente/serviço/híbrido), os responsáveis por evidência e os gatilhos de revisão para entrar no ciclo de governança já na vigência.

 

Perguntas Frequentes

 

Quando um SLA de TI pode ser “inviável” para o tipo de serviço que a empresa está contratando?

 

Um SLA tende a ser inviável quando o serviço não tem como ser medido com evidência objetiva (por exemplo, atividades muito criativas sem critério verificável) ou quando o volume e a natureza das demandas variam sem controle. Nesses casos, é mais adequado definir indicadores mais próximos do processo e do atendimento (como tempo de resposta e capacidade de operação) ou revisar o escopo para que a entrega tenha rastreabilidade. Se não houver como comprovar tanto o problema quanto o cumprimento, a chance de disputa e descumprimento interpretativo aumenta.

 

Como tratar no SLA as manutenções, interrupções programadas e exceções operacionais sem “anular” a cobrança?

 

O SLA deve separar claramente janelas de manutenção programada, eventos excepcionais e causas atribuíveis à contratada versus à contratante. A exceção precisa ter critérios de início/fim e registro (por exemplo, ordem de serviço, horário e motivo) para que seja auditável; caso contrário, vira margem para descumprimento sem evidência. Também é importante prever o que acontece com o cômputo do indicador durante a exceção para evitar distorções.

 

Qual é a abordagem mais segura para definir glosas quando a falha impacta apenas parte dos usuários ou parte do serviço?

 

A calibração de glosas deve usar o princípio de proporcionalidade ao indicador e ao escopo afetado, aplicando a penalidade ao que realmente ficou fora do padrão. Na prática, isso significa definir critérios de medição por serviço, por componente ou por faixa de criticidade, evitando punir um indicador geral quando o desvio foi localizado. É melhor estabelecer regras de validação e registro de incidentes antes do contrato para reduzir discussões sobre causa e abrangência.

 

Em que situações o SLA deve prever diferentes níveis de atendimento (por prioridade ou criticidade) em vez de um único padrão?

 

Quando existem demandas com criticidade e impacto distintos, um único SLA costuma gerar trade-offs ruins: ou fica permissivo demais para o que é crítico, ou vira restritivo para o restante. O mais adequado é estruturar níveis por prioridade (por exemplo, incidentes urgentes versus solicitações de menor impacto) e associar cada nível a metas compatíveis com a operação e com o tempo de resposta exigido. Isso também ajuda a manter a governança de monitoramento e a prever melhor capacidade de atendimento.

Posts sugeridos