Entrenar un LLM no es solo cuestión de datos: los hiperparámetros son las perillas que definen cómo aprende el modelo, cómo se adapta y cómo se comporta en producción. En este artículo contaremos qué significa cada uno y por qué hemos elegido sus valores para nuestro objetivo: detectar conductas anti éticas minimizando falsos positivos.
FraudGPT es un LLM especializado en detectar el fraude interno con una métrica F1 del 91%.
FraudGPT es un LLM creado a partir del fine tuning de un modelo fundacional, en este caso, FraudGPT 7 se basa en GPT-OSS de 20 Billones de parámetros. El fine tuning agrega adaptadores a los bloques transformadores, alterando el modo en que se realizan predicciones, mejorando la capacidad del modelo fundacional un 36% aproximadamente en tareas de detección del fraude interno.
Listado de hiperparámetros
FraudGPT logra una alta precisión en la detección del fraude no solo por la gran calidad de sus datos, que han sido recolectados durante 12 años, sino por la perfecta combinación de los parámetros de entrenamiento. A continuación definiremos cada uno y explicaremos por qué los elegimos.
- Rank es el tamaño de las matrices de adaptación. Más r = más capacidad para aprender patrones. Elegimos r=8: Queremos un modelo conservador, que no sobre adapte. Con r=8 logramos equilibrio: suficiente para aprender la tarea “SI es fraude o NO es fraude” sin perder generalización.
- Alpha es el factor que escala la influencia de LoRA sobre el modelo base. Elegimos 32: Un valor moderado. Si fuera muy alto, el modelo se volvería agresivo (más falsos positivos). Si fuera muy bajo, apenas aprendería. Con 32 conseguimos adaptación estable.
- Dropout es la probabilidad de apagar conexiones durante el entrenamiento para evitar el sobre entrenamiento. Elegimos 0.10: Es el punto intermedio. Con menos (0.05) vimos riesgo de memorizar ejemplos ambiguos; con más (0.15) el modelo perdía señal y bajaba precisión.
- Learning Rate es la velocidad a la que el modelo ajusta sus pesos. Elegimos 3e-5: Probamos 2e-5 (muy lento) y 5e-5 (inestable, más falsos positivos). Con 3e-5 logramos estabilidad y buen equilibrio entre precisión y recall,
- Weight Decay es la penalización para evitar pesos demasiado grandes. Elegimos 0.0: En nuestro caso, el riesgo de sobre ajuste era bajo gracias al dropout y al tamaño del dataset. Penalizar demasiado habría limitado la capacidad de adaptación.
- Max Gradient Norm es el límite para el clipping de gradientes (evita explosiones). Elegimos 0.5: fue un valor seguro que mantuvo estabilidad sin frenar el aprendizaje.
- Learning Rate Scheduler establece cómo evoluciona la tasa de aprendizaje durante el entrenamiento. Elegimos cosine: Reduce el Learning Rate suavemente al final, evitando sobre ajuste y manteniendo estabilidad en las últimas iteraciones.
- Warmup Ratio es el porcentaje inicial de pasos donde el Learning Rate sube gradualmente desde 0. Es algo así como un calentamiento. Elegimos 0.10: Evitamos explosiones de gradiente al inicio y le dio tiempo al modelo para estabilizarse.
- Train Epochs es el número de pasadas completas por el dataset. Elegimos 3: Con 2 epochs el modelo era conservador pero perdía recall. Con 3, y evaluando por pasos, encontramos el punto óptimo sin sobre ajuste.
- Estrategia de evaluación y guardado, con este hiperparámetro definimos cuándo evaluar y guardar checkpoints. Elegimos eval_strategy=”steps” y eval_steps=25: Más evaluaciones = más oportunidades de capturar el checkpoint con menor False Positive Rate. Esto fue clave para bajar falsos positivos a ~3%.
- Oversampling, es cuando aumentamos la presencia de ejemplos NO para que el modelo sea más conservador. Resultado: False Positive Rate bajó significativamente.
Resultados con esta configuración
Establecimos un porcentaje de falsos positivos de alrededor del 3.2%, una precisión del 96.8% y una métrica F1 macro del 91%. Nuestro principal objetivo es hacer que el modelo sea muy preciso al detectar fraude (SI) y al mismo tiempo que tenga un ratio de falsos positivos muy bajo.
Cómo se entrena un LLM?
Hemos dispuesto una serie de 4 artículos donde NOFRAUD explica en detalle cómo ha creado FraudGPT y cómo se ha puesto en producción para nuestros clientes:
- Primera parte: métricas de precisión de FraudGPT vs un Modelo comercial fundacional
- Segunda parte: cómo se crea un dataset de entrenamiento para especializar a la red neuronal
- Tercera parte: cómo se crea y entrena la red neuronal con Python
- Cuarta parte: cómo se pone en producción el modelo entrenado a través de una API
En estos artículos explicamos que lo más importante de entrenar una red neuronal está relacionado con la recopilación de los datos de entrenamiento o dataset y que nosotros nos demoramos 12 años en construirlo.
Referencias
(LoRA, 2025) Qué es la adaptación de bajo rango LoRA
Acerca de NOFRAUD
NOFRAUD es la compañía que desarrolla el software antifraude The Fraud Explorer y apoya a personas y empresas a enfrentar y solucionar sus retos en materia de fraude interno, corrupción y abuso corporativo. NOFRAUD ha creado la base de datos conductual de actos deshonestos más grande del mundo en Español e Inglés, que sirve para que la inteligencia artificial encuentre patrones sospechosos de corrupción al interior de las organizaciones.

Mejoramos la capacidad de las organizaciones incrementando sus beneficios, arrebatándole a los perpetradores la posibilidad de afectar negativamente los ingresos a través del fraude, la corrupción, el abuso corporativo y la generación de ambientes tóxicos.
Contacte conmigo en » jrios@nofraud.la y Visítenos en » www.nofraud.la.