Plano B Quando um Modelo de IA Some: Playbook de Continuidade

Em junho de 2026, a Anthropic desativou o Claude Fable 5 e o Mythos 5 para todos os clientes, cumprindo uma diretriz do governo dos EUA. Outros modelos da Claude, como o Opus 4.8, seguiram no ar — mas quem dependia exatamente daqueles dois acordou com o produto quebrado. Este artigo é o playbook que você queria ter lido antes dessa manhã.

⚡ Resumo do playbook

(1) Abstraia suas chamadas atrás de uma interface OpenAI-compatível. (2) Mantenha um fallback open-source self-hosted (vLLM/TGI) aquecido em GPU. (3) Use um roteador (LiteLLM) para failover automático. (4) Teste o fallback periodicamente. (5) Versione os pesos do modelo.

Passo 1 — Abstraia atrás de uma interface OpenAI-compatível

O erro mais comum é acoplar o código a um SDK específico de um único fornecedor. A solução é falar com todos os modelos pela mesma interface — o padrão de fato é a API /v1/chat/completions da OpenAI, suportada por praticamente todo provedor e pelo vLLM. Assim, trocar de modelo é trocar uma base_url, não reescrever a aplicação.

# Toda chamada passa por um cliente OpenAI-compatível
from openai import OpenAI

primary = OpenAI(
    base_url="https://api.fornecedor-principal.com/v1",
    api_key="sk-principal",
)

def chat(messages, model="modelo-principal"):
    return primary.chat.completions.create(model=model, messages=messages)

Passo 2 — Mantenha um fallback self-hosted aquecido

O plano B real é um modelo open-source rodando em uma GPU sua. Com o template vLLM no Console do GPUBrasil, você sobe um endpoint compatível com a OpenAI em minutos, servindo DeepSeek, Qwen 3, Llama 4 ou Mistral. Como a cobrança é por hora em reais via Pix, você decide quando deixá-lo ligado.

# Cliente OpenAI apontando para o seu vLLM no GPUBrasil
fallback = OpenAI(
    base_url="https://sua-instancia.gpubrasil.com.br/v1",
    api_key="sua-chave-local",
)

resp = fallback.chat.completions.create(
    model="Qwen/Qwen3-235B-A22B",
    messages=[{"role": "user", "content": "Resuma este contrato."}],
)
print(resp.choices[0].message.content)

Passo 3 — Padrão de failover automático

Com as duas pontas falando o mesmo protocolo, o failover vira um try/except: se o principal falhar, redirecione para o self-hosted. Seu usuário nem percebe.

def chat_com_failover(messages, model="modelo-principal"):
    try:
        return primary.chat.completions.create(
            model=model, messages=messages
        )
    except Exception as e:
        # Principal indisponível (suspenso, instável, bloqueado):
        # cai para o modelo open-source self-hosted na sua instância dedicada
        return fallback.chat.completions.create(
            model="Qwen/Qwen3-235B-A22B", messages=messages
        )

Passo 4 — Roteamento com LiteLLM (failover gerenciado)

Para algo mais robusto que um try/except, use um proxy/roteador como o LiteLLM. Ele coloca vários modelos atrás de uma única interface, com failover automático, balanceamento e limites de custo. Seu app fala com o LiteLLM; o LiteLLM decide para qual backend ir.

Passo 5 — Teste o fallback e versione os pesos

Um plano B que ninguém testa é um plano B que não existe. Duas práticas fecham o playbook:

Teste periodicamente: agende um game day em que você simula a queda do principal e verifica se o fallback sobe e responde com qualidade aceitável.
Versione os pesos: guarde os pesos do modelo open-source escolhido (e o hash da versão). Se o repositório de origem sumir ou mudar, você ainda tem exatamente o modelo validado.

💡 Por que GPU dedicada sob demanda

Além da continuidade, rodar o fallback na sua própria instância dedicada mantém os dados sob o seu controle (relevante para a sua governança de dados e a LGPD). Você paga por hora em reais, sem capex nem risco cambial.

Monte seu plano B hoje, não na próxima crise

Ganhe R$ 25 grátis e suba um fallback open-source com vLLM em GPU dedicada sob demanda em minutos.

Ganhe R$ 25 grátis →

Perguntas frequentes

O que fazer quando o modelo de IA que minha empresa usa é desligado?

Tenha um plano B pronto antes da crise: abstraia suas chamadas atrás de uma interface compatível com a API da OpenAI, mantenha um modelo open-source self-hosted (vLLM ou TGI) aquecido em uma GPU, e use um roteador como o LiteLLM para failover automático. Quando o modelo principal cai, o tráfego vai para o fallback sem mudar código.

O que aconteceu com o Claude Fable 5 e o Mythos 5?

Em junho de 2026, por uma diretriz do governo dos EUA, a Anthropic desativou o Claude Fable 5 e o Mythos 5 para todos os clientes. Outros modelos da Claude, como o Opus 4.8, não foram afetados. O episódio mostrou que um modelo em produção pode sumir por decisões fora do seu controle.

Como manter um fallback self-hosted barato sem deixá-lo ligado o tempo todo?

Mantenha os pesos do modelo versionados e um template pronto no GPUBrasil para subir o vLLM rapidamente. Teste o fallback periodicamente para garantir que sobe e responde. Como a cobrança é por hora em reais, você só paga a GPU quando o fallback estiver ativo, evitando custo de hardware ocioso.

Conclusão

A suspensão do Fable 5 e do Mythos 5 não foi um evento isolado — foi um ensaio do que pode acontecer com qualquer dependência de terceiros. Continuidade de negócio em IA não é sorte: é arquitetura. Abstraia, mantenha um fallback self-hosted vivo em GPU dedicada sob demanda, roteie com failover e teste. Assim, da próxima vez que um modelo sumir, seu produto continua respondendo.