Claude Fable 5 no se habría vuelto menos capaz. Aunque dos pruebas de rendimiento arrojaron conclusiones muy diferentes, la explicación estaría en una capa de enrutamiento especialmente cautelosa y no en una pérdida de capacidad del modelo.
La distinción importa porque los resultados observados por los usuarios no siempre reflejan únicamente la calidad del modelo subyacente. Las decisiones tomadas antes de generar una respuesta pueden condicionar su comportamiento y crear la impresión de que el sistema rinde peor.
En este caso, los dos benchmarks ofrecieron diagnósticos opuestos sobre Claude Fable 5. Esa divergencia muestra que una evaluación aislada puede resultar insuficiente si no se considera cómo se procesan y encaminan las solicitudes.
El episodio también subraya la necesidad de interpretar con cautela las comparaciones entre modelos. Antes de concluir que una actualización redujo su rendimiento, conviene separar las capacidades del modelo de las restricciones introducidas por la infraestructura que gestiona sus respuestas.