FraudGPT demuestra su calidad de entrenamiento ante un modelo de la clase Mythos

Por:Julián Ríos/10 junio, 2026/en:Documentacion

Ha pasado solo 1 día desde que Claude lanzó Fable 5, un modelo de la clase Mythos, el más poderoso del mundo hasta ahora y ya en NOFRAUD nos estamos aventurando nuevamente a poner a prueba nuestro modelo FraudGPT.

FraudGPT vs Fable no es una lucha entre arquitecturas LLM, es una lucha entre quién tiene los mejores datos y quién ha entrenado mejor el modelo en tareas de fraude interno

Ratificamos una vez más que en la carrera de la inteligencia artificial la ingeniería del dataset tiene el mayor peso para determinar quién gana. No es quien tenga mas datos, es quien tenga los mejores datos y haya sabido entrenar un modelo basado en ellos para resolver un problema real.

El resultado de la contienda fue claro: a pesar de que Claude Fable (mythos class) es catalogado como el modelo más avanzado del planeta, no le alcanzó para superar a FraudGPT.

Cómo se pusieron a prueba

Esta vez queremos incorporar a la contienda a GPT 5.5, el modelo más potente de OpenAI a la fecha. La prueba entonces mostrará cómo rindieron Claude Fable, GPT 5.5 y FraudGPT ante tareas de detección del fraude interno.

La evaluación se realizó sobre 700 casos de prueba. Aproximadamente la mitad correspondía a situaciones confirmadas como positivas reales y la otra mitad a negativos reales, todos validados previamente por personas en contextos auténticos, no en escenarios artificiales. En otras palabras, no se trató de datos sintéticos, fabricados ni preparados para favorecer a alguno de los modelos. Los tres fueron expuestos por primera vez al mismo conjunto, bajo idénticas condiciones, con el mismo prompt y los mismos parámetros de ejecución.

Cuando hablamos de verdaderos negativos, nos referimos a interacciones que ya fueron verificadas como inocuas: casos que no despiertan sospechas, no representan riesgo y no contienen señales de una conducta posiblemente desleal. Por el contrario, los verdaderos positivos sí corresponden a hechos reales, consumados o en proceso de materializarse, donde ya existe un componente desleal claramente identificable.

En la práctica, las conductas desleales casi nunca se expresan de forma directa ni evidente. Una persona que busca sobornar a otra difícilmente va a decir “quiero sobornarte”. Lo habitual es que utilice frases ambiguas o estratégicas, como “pórtate bien conmigo”, “cómo voy yo ahí”, o incluso que empiece preparando el terreno con regalos, favores o atenciones que más adelante generan una presión implícita de reciprocidad. Ahí es donde aparecen los llamados casos frontera: ejemplos especialmente difíciles, no solo para un ser humano, sino también para una inteligencia artificial. Y dentro de esos 700 casos evaluados, hay muchos de ese tipo.

Un caso frontera (también conocido como ejemplo límite o punto frontera) es una observación situada justo en el borde que separa dos clases dentro del espacio de decisión de un clasificador. Son situaciones en las que un LLM no tiene una respuesta obvia, porque tanto “SI” como “NO” pueden parecer razonables dependiendo del sesgo con el que se interprete el contexto. Por eso, la capacidad de comportarse bien frente a los casos frontera es una señal muy valiosa: cuanto mejor lo haga un modelo allí, más cerca estará de capturar la complejidad real de la detección de conductas desleales.

El conjunto de evaluación incluye casos reales de fraude en industrias como seguros, salud, energía, infraestructura, aviación, retail, servicios financieros, oil & gas, telecomunicaciones y alimentos, ocurridos en México, Guatemala, Estados Unidos, Colombia, Perú, Chile, Ecuador, Panamá, Argentina y Uruguay.

Esta gráfica resume algo muy poderoso: FraudGPT no gana por accidente ni por una sola cifra aislada. Lidera con claridad en accuracy (0.8657), F1(SI) (0.8536), F1(macro) (0.8648) y sobre todo en precisión sobre la clase positiva (0.9073). Eso significa que, cuando FraudGPT levanta una alerta, lo hace con un nivel de limpieza y confianza que los modelos generalistas no lograron alcanzar en esta evaluación.

Lo más interesante es que estamos hablando de rivales de frontera como GPT 5.5 y Claude Fable 5, modelos muy potentes y ampliamente reconocidos. Aun así, FraudGPT se mantiene por encima en las métricas que más importan para una operación seria: no solo detectar, sino detectar bien. El mensaje que deja esta gráfica es contundente: la especialización bien construida sigue teniendo ventajas reales frente al generalismo más avanzado.

Entorno de entrenamiento

Para entrenar FraudGPT usamos un DGX Spark de NVIDIA con una GPU Blackwell de 128 GB de memoria. El framework de entrenamiento fue Unsloth y se usó llama.cpp para la cuantización en formato MXFP4. El script de entrenamiento lo desarrollamos en Python y el modelo resultante se corre en instancias Ollama alojadas en un cluster de Apple con arquitectura M-Ultra.

Impacto operativo

Si hubiera una sola gráfica capaz de explicar por qué FraudGPT es especial, probablemente sería esta. Aquí los números dejan de ser abstractos y se convierten en realidad operativa. Claude Fable 5 logró detectar 283 positivos reales, apenas 9 más que FraudGPT, que detectó 274. Pero para conseguir esa pequeña ventaja, Claude disparó 113 falsos positivos, frente a solo 28 de FraudGPT. Es decir: 85 falsas alarmas adicionales para recuperar apenas 9 casos más.

Eso cambia completamente la lectura. Porque en el mundo real no gana el modelo que simplemente “marca más cosas”, sino el que encuentra señales útiles sin ahogar la operación en ruido. En ese equilibrio, FraudGPT brilla con una claridad impresionante. No necesita exagerar para rendir mejor: consigue un volumen muy alto de hallazgos útiles, controlando de manera extraordinaria la cantidad de revisiones innecesarias. Y ahí es donde deja de parecer un experimento técnico para empezar a verse como lo que realmente es: una herramienta de negocio madura.

La personalidad de los modelos

Esta gráfica muestra la personalidad de cada modelo. Claude Fable 5 y GPT 5.5 se empujan más hacia la derecha, es decir, priorizan recuperar más casos positivos. Pero lo hacen sacrificando precisión. FraudGPT, en cambio, ocupa el punto más noble del gráfico: combina un recall alto (0.8059) con una precisión extraordinaria (0.9073). Esa posición no es casualidad; representa el lugar donde un sistema deja de ser “reactivo” y empieza a comportarse como un clasificador verdaderamente bien calibrado.

Y esa es probablemente una de las mayores fortalezas de FraudGPT. No necesita inflar artificialmente el recall para parecer fuerte. No necesita disparar alertas de más para demostrar sensibilidad. Su grandeza está en algo mucho más difícil de conseguir: hacer convivir detección y disciplina. En otras palabras, esta gráfica no solo muestra que FraudGPT funciona; muestra que piensa mejor en el punto donde más cuesta decidir.

La verdad sin maquillaje

Las matrices de confusión permiten ver la verdad sin maquillaje. En el caso de FraudGPT, la diagonal principal es claramente la más sólida de las tres: 332 verdaderos negativos y 274 verdaderos positivos, con solo 28 falsos positivos. Es una señal inequívoca de un modelo que no solo encuentra bien los casos relevantes, sino que además protege la operación de un exceso de ruido.

Cuando se compara con GPT 5.5 y Claude Fable 5, esta ventaja se vuelve todavía más visible. Ambos modelos generalistas logran una recuperación ligeramente superior de positivos, pero lo pagan con una caída muy fuerte en la capacidad de filtrar correctamente los negativos. FraudGPT, en cambio, conserva una tasa de acierto extraordinaria sobre los casos NO (92.2% de recall(NO)), algo que en fraude y compliance vale muchísimo, porque significa menos desgaste humano, menos investigaciones innecesarias y más confianza en el sistema. Esta gráfica deja una impresión muy clara: FraudGPT no es solamente preciso sino que está afinado para ser útil en el terreno donde las decisiones tienen costo real.

Un modelo generalista puede competir subiendo recall, pero un modelo especializado sigue ganando cuando lo que importa es el balance operativo real.

Referencias

(NOFRAUD, 2026) The Fraud Explorer y FraudGPT

Acerca de NOFRAUD

NOFRAUD es la compañía que desarrolla el software antifraude The Fraud Explorer y apoya a personas y empresas a enfrentar y solucionar sus retos en materia de fraude interno, corrupción y abuso corporativo. NOFRAUD ha creado la base de datos conductual de actos deshonestos más grande del mundo en Español e Inglés, que sirve para que la inteligencia artificial encuentre patrones sospechosos de corrupción al interior de las organizaciones.

Mejoramos la capacidad de las organizaciones incrementando sus beneficios, arrebatándole a los perpetradores la posibilidad de afectar negativamente los ingresos a través del fraude, la corrupción, el abuso corporativo y la generación de ambientes tóxicos.

Contacte conmigo en » jrios@nofraud.la y Visítenos en » www.nofraud.la.

FraudGPT demuestra su calidad de entrenamiento ante un modelo de la clase Mythos

Cómo se pusieron a prueba

Entorno de entrenamiento

Impacto operativo

La personalidad de los modelos

La verdad sin maquillaje

Referencias

Acerca de NOFRAUD

NOFRAUD.la

En nuestro sitio

Dónde estamos

Certificados

FraudGPT demuestra su calidad de entrenamiento ante un modelo de la clase Mythos

Cómo se pusieron a prueba

Entorno de entrenamiento

Impacto operativo

La personalidad de los modelos

La verdad sin maquillaje

Referencias

Acerca de NOFRAUD

Compartir

NOFRAUD.la

En nuestro sitio

Dónde estamos

Certificados