FraudGPT demuestra nuevamente su superioridad ante OpenAI GPT 5.5

Han pasado solo 4 días desde que OpenAI lanzó su modelo más poderoso GPT 5.5 y ya nos hemos aventurado a compararlo, o mejor dicho, a ponerlo a competir contra nuestro LLM FraudGPT.
NOFRAUD ha creado un LLM personalizado llamado FraudGPT a partir de un finetuning de GPT-OSS que supera las capacidades del modelo más poderoso de OpenAI a la fecha GPT 5.5, en tareas de detección de fraude interno.
Vamos a aprovechar este artículo para incorporar a la contienda no solo a GPT 5.5, sino también a su modelo predecesor, GPT 5.4 y ver cómo OpenAI ha mejorado la inteligencia del modelo en este salto de versión. La documentación oficial de OpenAI dice que no se trata solo de un salto de versión, tampoco de tamaño, sino de arquitectura y de datos, es un modelo entrenado completamente desde cero.
El resultado de la contienda fue claro: a pesar de la mejora notable de GPT 5.5, no le alcanzó para superar a FraudGPT.
Cómo se pusieron a prueba
La prueba se hizo sobre 700 casos de evaluación. La mitad eran casos verdaderos positivos y la otra mitad eran casos verdaderos negativos confirmados por humanos en un entorno real, no simulado. Esto quiere decir que los datos no fueron sintéticos, no fueron inventados ni acomodados para beneficiar a uno u otro modelo. Se les presentó por primera vez a todos en las mismas condiciones, con el mismo prompt y los mismos parámetros.
Cuando nos referimos a verdaderos negativos, son casos que ya fueron confirmados que no generan sospechas ni representan riesgos ni indicios de que exista alguna conducta sospechosa de ser desleal y al contrario, cuando nos referimos a verdaderos positivos, son efectivamente casos que fueron reales, materializados o a punto de materializarse donde se ve claramente un componente desleal.
En la vida real los actos desleales no son necesariamente visibles a cualquier ojo, por ejemplo, las personas cuando cometen un soborno no dicen “te quiero sobornar”, en cambio, usan expresiones como “pórtate bien conmigo”, “como voy yo ahí” o incluso “siembran” el terreno dando regalos y favores que mas adelante crean una necesidad de reciprocidad ineludible. Es aquí donde entramos a los “casos frontera”, aquellos que son retadores no solo para un humano pero también para una IA y de los cuales hay muchos entre los 700 casos de evaluación.
Un caso frontera (también llamado punto frontera o ejemplo límite) es una observación que se encuentra en el límite entre dos clases dentro del espacio de decisión de un modelo de clasificación. Son los casos donde un LLM no está muy seguro de qué decisión tomar porque ambas opciones (SI y NO) son válidas dependiendo de los sesgos. Básicamente entre mejor se comporte un LLM en los casos frontera, mas cerca estará de la realidad en materia de detección de conductas desleales.
Se incluyen casos reales de fraudes en el sector Asegurador, Salud, Energético, Infraestructura, Aéreo, Retail, Financiero, Oil & Gas, Telecomunicaciones y Alimenticio, sucedidos en México, Guatemala, Estados Unidos, Colombia, Perú, Chile, Ecuador, Panamá, Argentina y Uruguay.

Al finalizar la prueba, se crearon matrices de confusión para cada uno de los modelos y se generaron métricas F1, Accuracy, Precision y Recall. Se generaron gráficas que permitieran ver los resultados de una manera más amigable y es así como llegamos a la primera, que llamamos, métricas agregadas.
En esta gráfica de métricas agregadas, la barra azul (FraudGPT) sigue dominando el conjunto de métricas globales. La barra verde (GPT 5.5) mejora casi siempre frente a la naranja (GPT 5.4), especialmente en F1(SI) y Recall(SI), pero no alcanza a FraudGPT en balance general.
Entorno de entrenamiento
Para entrenar FraudGPT usamos un DGX Spark de NVIDIA con una GPU Blackwell de 128 GB de memoria. El framework de entrenamiento fue Unsloth y se usó llama.cpp para la cuantización en formato MXFP4. El script de entrenamiento lo desarrollamos en Python y el modelo resultante se corre en instancias Ollama alojadas en un cluster de Apple con arquitectura M-Ultra.
Impacto operativo
Esta gráfica es una de las más reveladoras. GPT 5.5 sube mucho los verdaderos positivos respecto a GPT 5.4, pero también sube bastante los falsos positivos. FraudGPT se mantiene como el que mejor combina: pocos falsos positivos, pocos falsos negativos y un volumen alto de verdaderos positivos.
GPT 5.5 sí es mejor que GPT 5.4 en el benchmark, pero esa mejora no viene de una calibración más fina: viene, sobre todo, de empujar más fuerte hacia el lado positivo.

Qué pasó entre GPT 5.5 y FraudGPT?, Aquí está la parte más interesante de todo el artículo. A primera vista GPT 5.5 parece muy competitivo porque incluso supera levemente a FraudGPT en Recall(SI). La diferencia es mínima: 0.0088, o sea, menos de 1 punto porcentual. Pero cuando miramos el resto del tablero, FraudGPT sigue claramente arriba en Accuracy: +0.1000, F1(SI): +0.0820, F1(macro): +0.0992, Prec(SI): +0.1745, Prec(NO): +0.0299 y Recall(NO): +0.2028
Operativamente la comparación es todavía más fuerte: FraudGPT detecta 274 positivos reales y GPT 5.5 detecta 277, osea, GPT 5.5 solo encuentra 3 casos positivos más, pero FraudGPT genera 28 falsos positivos y GPT 5.5 genera 101 falsos positivos.
Esto quiere decir que GPT 5.5 produce 73 falsas alarmas más y además FraudGPT clasifica bien 332 negativos reales mientras que GPT 5.5 clasifica bien 259, es decir, FraudGPT consigue 73 verdaderos negativos más.
GPT 5.5 gana 3 positivos reales, pero necesita pagar 73 falsas alarmas extra para conseguirlo. Ese intercambio, para un sistema antifraude real suele ser muy caro y para las personas más exigentes suele ser inviable.
Por qué FraudGPT sigue ganándole a GPT 5.5
FraudGPT no es superior porque hayamos encontrado los mejores hyperparámetros de entrenamiento o porque tengamos mejores GPUs. Es mejor por una simple razón: los datos de entrenamiento.
En NOFRAUD hemos documentado de forma privada más 15 mil casos de actos desleales al interior de las organizaciones durante los últimos 12 años. Ha sido un trabajo titánico que hemos desarrollado en más de 18 países y para más 14 sectores de la industria. Al tener esta cantidad y calidad de datos, es lógico deducir que cuando se entrene un LLM con ellos, aprenderá patrones que otros modelos como GPT 5.5 no poseen, no porque sean malos modelos, sino porque no han sido entrenados en ese tipo de datos.

Traduzcamos estas matrices de confusión a decisiones reales de producto y operación:
- GPT 5.4: era más débil detectando positivos, dejaba escapar demasiados casos.
- GPT 5.5: corrige bastante eso pero lo hace disparando mucho más “SI”, por lo tanto genera bastante más ruido operativo.
- FraudGPT: sigue siendo el más útil si lo que queremos es detectar muchos positivos reales sin ahogar a la operación con falsas alarmas.
Para un sistema antifraude esto importa muchísimo, porque el sistema ideal no es solo el que “ve más cosas”, sino el que ve más cosas útiles sin volverse inmanejable.
Conclusión de la contienda
GPT 5.5 sí mejora frente a GPT 5.4 en tareas de detección de fraude interno. No parece un cambio cosmético; hay un salto real en recuperación de positivos.
A pesar de esa mejora, FraudGPT sigue ganando claramente en calidad de decisión, no porque capture muchísimo más recall que GPT 5.5 (de hecho ahí están casi empatados) sino porque consigue un nivel de precisión radicalmente mejor.
FraudGPT sigue siendo el modelo más calibrado para esta tarea. GPT 5.5 parece más agresivo; FraudGPT parece más afinado y eso para una tarea antifraude suele valer más.
Referencias
(NOFRAUD, 2026) The Fraud Explorer y FraudGPT
Acerca de NOFRAUD
NOFRAUD es la compañía que desarrolla el software antifraude The Fraud Explorer y apoya a personas y empresas a enfrentar y solucionar sus retos en materia de fraude interno, corrupción y abuso corporativo. NOFRAUD ha creado la base de datos conductual de actos deshonestos más grande del mundo en Español e Inglés, que sirve para que la inteligencia artificial encuentre patrones sospechosos de corrupción al interior de las organizaciones.

Mejoramos la capacidad de las organizaciones incrementando sus beneficios, arrebatándole a los perpetradores la posibilidad de afectar negativamente los ingresos a través del fraude, la corrupción, el abuso corporativo y la generación de ambientes tóxicos.
Contacte conmigo en » jrios@nofraud.la y Visítenos en » www.nofraud.la.



