Em junho de 2026, a Anthropic desativou o Claude Fable 5 e o Mythos 5 para todos os clientes, cumprindo uma diretriz do governo dos EUA. Outros modelos da Claude, como o Opus 4.8, seguiram no ar — mas quem dependia exatamente daqueles dois acordou com o produto quebrado. Este artigo é o playbook que você queria ter lido antes dessa manhã.
(1) Abstraia suas chamadas atrás de uma interface OpenAI-compatível. (2) Mantenha um fallback open-source self-hosted (vLLM/TGI) aquecido em GPU. (3) Use um roteador (LiteLLM) para failover automático. (4) Teste o fallback periodicamente. (5) Versione os pesos do modelo.
Passo 1 — Abstraia atrás de uma interface OpenAI-compatível
O erro mais comum é acoplar o código a um SDK específico de um único fornecedor. A solução é falar com todos os modelos pela mesma interface — o padrão de fato é a API /v1/chat/completions da OpenAI, suportada por praticamente todo provedor e pelo vLLM. Assim, trocar de modelo é trocar uma base_url, não reescrever a aplicação.
# Toda chamada passa por um cliente OpenAI-compatível
from openai import OpenAI
primary = OpenAI(
base_url="https://api.fornecedor-principal.com/v1",
api_key="sk-principal",
)
def chat(messages, model="modelo-principal"):
return primary.chat.completions.create(model=model, messages=messages)
Passo 2 — Mantenha um fallback self-hosted aquecido
O plano B real é um modelo open-source rodando em uma GPU sua. Com o template vLLM no Console do GPUBrasil, você sobe um endpoint compatível com a OpenAI em minutos, servindo DeepSeek, Qwen 3, Llama 4 ou Mistral. Como a cobrança é por hora em reais via Pix, você decide quando deixá-lo ligado.
# Cliente OpenAI apontando para o seu vLLM no GPUBrasil
fallback = OpenAI(
base_url="https://sua-instancia.gpubrasil.com.br/v1",
api_key="sua-chave-local",
)
resp = fallback.chat.completions.create(
model="Qwen/Qwen3-235B-A22B",
messages=[{"role": "user", "content": "Resuma este contrato."}],
)
print(resp.choices[0].message.content)
Passo 3 — Padrão de failover automático
Com as duas pontas falando o mesmo protocolo, o failover vira um try/except: se o principal falhar, redirecione para o self-hosted. Seu usuário nem percebe.
def chat_com_failover(messages, model="modelo-principal"):
try:
return primary.chat.completions.create(
model=model, messages=messages
)
except Exception as e:
# Principal indisponível (suspenso, instável, bloqueado):
# cai para o modelo open-source self-hosted no Brasil
return fallback.chat.completions.create(
model="Qwen/Qwen3-235B-A22B", messages=messages
)
Passo 4 — Roteamento com LiteLLM (failover gerenciado)
Para algo mais robusto que um try/except, use um proxy/roteador como o LiteLLM. Ele coloca vários modelos atrás de uma única interface, com failover automático, balanceamento e limites de custo. Seu app fala com o LiteLLM; o LiteLLM decide para qual backend ir.
Passo 5 — Teste o fallback e versione os pesos
Um plano B que ninguém testa é um plano B que não existe. Duas práticas fecham o playbook:
- Teste periodicamente: agende um game day em que você simula a queda do principal e verifica se o fallback sobe e responde com qualidade aceitável.
- Versione os pesos: guarde os pesos do modelo open-source escolhido (e o hash da versão). Se o repositório de origem sumir ou mudar, você ainda tem exatamente o modelo validado.
Além da continuidade, rodar o fallback no Brasil mantém os dados no país (relevante para a LGPD) e entrega latência local. Você paga por hora em reais, sem capex nem risco cambial.
Monte seu plano B hoje, não na próxima crise
Ganhe R$ 25 grátis e suba um fallback open-source com vLLM em GPU brasileira em minutos.
Ganhe R$ 25 grátis →Perguntas frequentes
O que fazer quando o modelo de IA que minha empresa usa é desligado?
Tenha um plano B pronto antes da crise: abstraia suas chamadas atrás de uma interface compatível com a API da OpenAI, mantenha um modelo open-source self-hosted (vLLM ou TGI) aquecido em uma GPU, e use um roteador como o LiteLLM para failover automático. Quando o modelo principal cai, o tráfego vai para o fallback sem mudar código.
O que aconteceu com o Claude Fable 5 e o Mythos 5?
Em junho de 2026, por uma diretriz do governo dos EUA, a Anthropic desativou o Claude Fable 5 e o Mythos 5 para todos os clientes. Outros modelos da Claude, como o Opus 4.8, não foram afetados. O episódio mostrou que um modelo em produção pode sumir por decisões fora do seu controle.
Como manter um fallback self-hosted barato sem deixá-lo ligado o tempo todo?
Mantenha os pesos do modelo versionados e um template pronto no GPUBrasil para subir o vLLM rapidamente. Teste o fallback periodicamente para garantir que sobe e responde. Como a cobrança é por hora em reais, você só paga a GPU quando o fallback estiver ativo, evitando custo de hardware ocioso.
Conclusão
A suspensão do Fable 5 e do Mythos 5 não foi um evento isolado — foi um ensaio do que pode acontecer com qualquer dependência de terceiros. Continuidade de negócio em IA não é sorte: é arquitetura. Abstraia, mantenha um fallback self-hosted vivo em GPU brasileira, roteie com failover e teste. Assim, da próxima vez que um modelo sumir, seu produto continua respondendo.
Leia também: A suspensão do Claude Fable 5 · vLLM self-hosted em 1 clique · LiteLLM Proxy multi-LLM · Soberania de dados e LGPD