O framework que usamos antes de colocar qualquer modelo de IA em produção

Depois de integrar IA em mais de 30 operações de clientes ao longo de dois anos, aprendemos uma coisa sobre colocar modelos em produção: o que quebra no mundo real nunca é o que quebra no benchmark.

Modelos falham em distribuição de dados que não existia no treinamento. Falham quando o usuário escreve diferente do esperado. Falham em edge cases que parecem improváveis até que acontecem 200 vezes por semana. E quando falham em operação de cliente real, o custo vai muito além do técnico.

Por isso desenvolvemos internamente um framework de pré-produção que todo projeto de IA passa antes de virar padrão. Ele tem quatro dimensões. Primeira: qual é o pior erro possível? Não o mais frequente — o mais grave. Um modelo de triagem que classifica mal um caso urgente como rotina é muito diferente de um modelo de classificação de documentos com 5% de erro. O tolerável muda completamente.

Segunda dimensão: existe saída humana clara quando o modelo não sabe? Modelos bons são confiantes quando sabem e incertos quando não sabem. O sistema precisa saber o que fazer com incerteza — e na maioria das operações, a resposta certa é acionar um humano, não continuar em modo automático.

Terceira: como vamos monitorar degradação silenciosa? Modelos não ficam piores do dia pra noite. Degradam lentamente à medida que a distribuição de dados do mundo real diverge do treinamento. Sem monitoramento ativo de métricas operacionais (não só técnicas), você descobre a degradação na reclamação do cliente.

Quarta dimensão: o time operacional sabe o que o modelo pode e não pode fazer? A maioria dos incidentes que vimos não foi falha do modelo. Foi expectativa errada de quem operava. Quando o analista entende o que está supervisionando, a taxa de incidente cai dramaticamente.

IA em produção é um produto contínuo, não uma entrega pontual. Empresas que tratam como entrega vivem em ciclo de implementação-incidente-reimplementação. As que tratam como produto têm governança, têm monitoramento, têm evolução — e capturam o valor real que o modelo pode entregar.

O framework que usamos antes de colocar qualquer modelo de IA em produção

Continue lendo

Confirmação de agendamento não é tarefa de software — é momento de relacionamento

Como entregamos account management global sem escritório local