La competencia por la Inteligencia Artificial, aunque ustedes no lo crean, ya no es por tener la mejor arquitectura de red neuronal, sino por tener los mejores datos de pre y post entrenamiento. Existen equipos completos de ingenieros compitiendo por el que mejor seleccione y limpie los datos (data curation). Los que creen mejores ejemplos en su dataset serán los que obtengan mejores resultados con sus LLM.
NOFRAUD entra en la liga de los creadores de Dataset especializados en la prevención y detección de actos deshonestos en ambientes corporativos
De dónde salen los datos con los que se entrena una IA? son sólo teóricos? o se basan en la práctica?, son vivencias reales o meramente ficticias e imaginarias?. El que tenga los mejores datos tendrá el poder de crear un LLM imbatible, no por su tamaño ni arquitectura sino por la precisión del conocimiento.
En NOFRAUD hemos reunido 12 años de casuísticas de comportamientos deshonestos reales al interior de las empresas, en la mayoría de los sectores de la economía y logramos así construir un dataset que le permite a un LLM detectar con precisión un comportamiento anti ético, superando la capacidad genérica de los LLM comerciales.
Dataset único
En el mundo del aprendizaje automático, los datos son el verdadero oro, pero no cualquier dato: hablamos de información cuidadosamente seleccionada, balanceada y diseñada para resolver un problema crítico. Hoy queremos contarte cómo creamos un dataset que no solo es robusto, sino que marca la diferencia en la detección de comportamientos anti éticos al interior de las empresas.
En lugar de recolectar datos masivos sin control, optamos por la calidad sobre la cantidad. Nuestro dataset está compuesto por 10 mil ejemplos cuidadosamente curados, cada uno representando escenarios reales y relevantes. Esto nos permite entrenar modelos que no solo aprenden, sino que entienden el contexto.
Han sido 12 años de casuísticas. En nuestro dataset existen casos documentados tan antiguos como el año 2014 y tan recientes como el año 2025. Hemos documentado casos reales que personalmente hemos detectado y prevenido en el sector Energético, Asegurador, Salud, Servicios, Agroindustrial, Financiero, Retail, Seguridad Social, Alimentario, Constructor, Cementero, Aéreo, Ganadero, Oil&Gas, Manufacturero, Minero y de Holdings Empresariales.
Nuestro dataset no contiene ningún caso de fraude que no hayamos atendido nosotros personalmente, es decir, nadie más tiene un dataset como el nuestro porque somos las únicas personas que han tenido contacto con los datos de estudio.
Características de nuestro dataset
Lo que hace a nuestro dataset, un gran set de datos, es:
- Información privilegiada: los casos de fraude interno han sido atendidos y documentados por nosotros durante 12 años. Son datos naturales y no sintéticos, esto quiere decir que son datos generados por humanos y no por otra inteligencia artificial.
- Derechos de autor: si bien los casos de fraude han sido detectados en nuestros clientes, la casuística que usamos para entrenar los modelos pasa por un proceso de “curación” donde se convierte una alerta real en una casuística redactada por nuestro personal.
- Contexto: la mayoría de ejemplos de dataset gratuitos tienen pobremente definido el contexto de las alertas. Por ejemplo, una alerta a qué tipo de persona pertenece?, donde vive?, en qué sector trabaja?, cuál es su cargo?, su responsabilidad?, sus tareas diarias?, sus poderes de autorización?. Nuestro dataset tiene el contexto suficiente para que un LLM tome la mejor decisión a la hora de detectar un acto anti ético.
- Políticas y sesgos: el aborto es ilegal en todos los países?, como ya sabemos la respuesta, es muy fácil deducir que un sistema de inteligencia artificial no sabe por sí solo cuáles son las políticas específicas de una organización y por ello puede no identificar con precisión por ejemplo entre un acto de conflicto de interés o una relación amorosa permitida. Hemos aplicado a nuestro dataset “el apetito” de detección de conductas que normalmente nuestros clientes en América Latina buscan.
- Calidad vs Cantidad: en nuestros ejercicios de ingeniería de datos hemos encontrado que a partir de 8mil casos se llega a una meseta en donde un LLM ya no aprende nada nuevo en relación con nuestra tarea de clasificación binaria y no puede aportar mejoras significativas. Por eso, el número de 10mil casuísticas no sale por arte de magia, sale de un estudio de meseta donde vemos que la curva de beneficios se frena.
- Razonamiento y explicabilidad: cómo abordar el problema de la detección del fraude? qué técnicas usar?, qué base científica?, en caso de encontrar un acto moralmente cuestionable, por qué es cuestionable? estas y muchas preguntas se abordan en el dataset, lo que nos hace únicos.
- Fundamento teórico: el razonamiento y al explicabilidad se basan en la teoría del triángulo del fraude de Donald Cressey, lo que nos hace únicos en el mundo, ya que la mayoría de datasets públicos contienen información suelta sin base teórica.
- Basada en riesgos: cada ejemplo o casuística tiene asociado un riesgo. Mapeamos un evento deshonesto hacia una categoría de riesgo donde se pueda evaluar su probabilidad de ocurrencia versus su impacto.
Pero basta de tanta teoría y veamos cómo luce una de las miles de entradas del dataset.
Ejemplo de casuística
Así se ve un solo ejemplo, de los +10 mil que tenemos para nuestro dataset:
{
"remitente": "Coordinador de compras",
"destinatario": "Gerente de TI",
"contexto": "Comunicación de WhatsApp"
"comportamiento" : "Parce pues lo voy a hacer por ser un valor tan bajo, pero se debería abrir
la licitación para todos nuevamente porque le estamos dando más tiempo a un solo proveedor
después de haber conocido las cotizaciones de los otros y pues por auditoría no está bien visto,
pero voy pues a hacerlo y en caso de ser mas barato lo legalizamos por la plataforma",
"categoría": "Administración de proveedores",
"probabilidad": "97%",
"riesgo": "Colusión con proveedores",
"temáticas": "Proveedores, licitaciones, auditoría",
"razonamiento": "Analicemos este mensaje por partes. Primero, me aseguraré de entender de qué
se está hablando. Segundo, buscaré la presencia de un anti valor (una conducta dañina o
negativa hacia la empresa u otras personas). Tercero, buscaré si está presente algún elemento de
la teoría de Donald Cressey y finalmente determinaré si el mensaje sirve como alerta para detectar
un acto antiético. En primer lugar, veo que el tema gira en torno a un proceso licitatorio. Parece
que el mensaje es de carácter corporativo y noto la presencia de un tono negativo. En segundo
lugar, noto la presencia de un antivalor porque veo que se está proponiendo abrir una licitación
para un solo proveedor que presuntamente estaba ya cerrada y se justifica en que lo puede hacer
porque el valor de la licitación es muy bajo, pero al mismo tiempo se cuestiona moralmente la
actuación porque dice que el deber ser es abrirla para todos nuevamente y no para uno solo, no
porque este mal visto por auditoría sino que también porque ese proveedor podría tener
ventajas sobre otros. En tercer lugar, según la teoría de Donald Cressey, encuentro
comportamientos de oportunidad, al darle a un proveedor una ventaja sobre otros al permitirle
cotizar una vez que la licitación ha sido cerrada. De acuerdo a este análisis estructurado,
considero que este mensaje sí puede ser considerado como alerta para detectar y/o prevenir
actos anti éticos",
"antiguedad": "4 años",
"sexo": "Masculino",
"edad": "37",
"país": "Colombia",
"sector": "Financiero",
"nivel de poder": "Puede autorizar, puede elegir proveedor",
"explicabilidad": "Se habla de unas cotizaciones de proveedores que se presentan en un tiempo
determinado donde se menciona la oportunidad de incluir a un proveedor con un precio más bajo,
donde auditoria no tiene conocimiento. De acuerdo al árbol de fraude de ACFE (Association of
Certified Fraud Examiners), este tipo de actos están clasificados como adjudicación de compras
o contratos y manipulación de licitaciones, lo cual es un conflicto de interés y por ende
corrupción. Cuando alguien dice 'por auditoría no está bien visto' lo que está queriendo decir es
que está reconociendo que lo que está haciendo no es éticamente correcto. Hay una situación
moralmente cuestionable en este proceso donde la persona dice que 'por se un valor tan bajo'
lo va a realizar, como queriendo decir que nadie se va a dar cuenta por no ser un valor alto y
cuando menciona que hay un proveedor que conoce las cotizaciones de los otros, claramente
estamos ante una situación de corrupción en el proceso de licitación o compras de la
organización. De acuerdo a la teoría de Donald Cressey (presión, oportunidad y justificación),
tener acceso a los procesos de compras y manipular las fechas de cierre de las licitaciones y
negociaciones es la oportunidad que esperan las personas para cometer fraude y obtener
beneficios de los proveedores asignados. Conocer el sistema y las fallas de control interno
para beneficiar a terceros es otra oportunidad clara que asociada con la capacidad de ejercer
control y manipular los resultados, genera la oportunidad de cometer fraude en compras y
adjudicación de contratos",
"presion": "Por ser descubiertos por auditoría",
"oportunidad": "Contratar el proveedor preferido, mostrándole los precios de los otros
proveedores que participan en la licitación",
"justificación": "No está presente explícitamente",
"relevancia": "Importante para prevenir colusión",
"negatividad": "Se nota la presencia de un tono negativo al reconocer que están haciendo
algo que no deberían hacer",
"honestidad": "El mensaje parece ser sincero, no contiene sarcasmos ni tonos de chiste o burlas",
"decision_final": "SI"
}
No se trata solo de simples datos de entrenamiento, sino de información privilegiada que refleja situaciones críticas en entornos corporativos. Cada ejemplo fue seleccionado con un criterio riguroso, garantizando que el modelo pueda diferenciar entre comportamientos éticos y anti éticos con una precisión sorprendente.
Esta información privilegiada hizo posible mejorar en más de un 36% la capacidad de detectar y prevenir el fraude con FraudGPT de lo que cualquiera podría lograr con otras IA, como GPT-4.
Continúe leyendo …
Devuélvase a la primera parte: Métricas F1, Recall y Precision o siga leyendo la tercera parte: Finetuning con Python
Acerca de NOFRAUD
NOFRAUD es la compañía que desarrolla el software antifraude The Fraud Explorer y apoya a personas y empresas a enfrentar y solucionar sus retos en materia de fraude interno, corrupción y abuso corporativo. NOFRAUD ha creado la base de datos conductual de actos deshonestos más grande del mundo en Español e Inglés, que sirve para que la inteligencia artificial encuentre patrones sospechosos de corrupción al interior de las organizaciones.

Mejoramos la capacidad de las organizaciones incrementando sus beneficios, arrebatándole a los perpetradores la posibilidad de afectar negativamente los ingresos a través del fraude, la corrupción, el abuso corporativo y la generación de ambientes tóxicos.
Contacte conmigo en » jrios@nofraud.la y Visítenos en » www.nofraud.la.