Hasta hace poco las mejoras se centraban en volver a los modelos LLM mas grandes y en perfeccionar sus hyper-parámetros y técnicas de atención (Model-Centric) sin embargo algo ha cambiado, estamos entrando a la era de la revolución de los LLM con el enfoque Dataset-Centric.
La clave del éxito de un LLM ya no es más su tamaño ni arquitectura, sino su dataset
Pero por qué?, porque la ingeniería de las redes neuronales ya está al alcance de cualquiera y todos podemos documentarnos sobre cómo se construye un LLM y eventualmente crear uno, pero lo que todos no podemos tener a nuestro alcance son los datos con los cuales se ha post-entrado ese LLM.
El protagonismo del dato
La atención se está desplazando hacia otro protagonista silencioso: el dataset. Hoy, la ingeniería del dataset se está convirtiendo en el mecanismo más importante para crear los LLM más eficaces.
Por más bueno que sea un modelo, si los datos no están bien elegidos, el resultado será mediocre, aunque contemos con potencia de entrenamiento infinita.
Ya la competencia no es por tener el mejor modelo, sino por tener los mejores datos de entrenamiento. Existen ya equipos completos de ingenieros compitiendo por el que mejor seleccione y limpie los datos (data curation). Los que creen mejores ejemplos en su dataset serán los que obtengan mejores resultados con los LLM.
Ya no hablamos de entrenar un modelo, hablamos de crear un dataset con el cual el modelo aprenda mejor a realizar una determinada tarea.
Claves en la ingeniería del dataset
Como decíamos antes, no importa si tenemos potencia infinita para entrenar un LLM, si los datos son mediocres, el resultado será mediocre. El objetivo de crear un dataset de post-entrenamiento es poder volver el LLM más eficiente en una determinada tarea y para ello se deben tener en cuenta los siguientes aspectos:
- Selección de los datos: de dónde vas a sacar los datos? serán teóricos? o se basarán en la práctica?, son vivencias reales o meramente ficticias e imaginarias?. El que tenga los mejores datos tendrá el poder de crear un LLM imbatible, no por su tamaño ni arquitectura sino por la precisión del conocimiento con el cual será post-entrenado. Un ejemplo de conjunto de datos es el que usamos en NOFRAUD. Hemos reunido 12 años de casuísticas de comportamientos deshonestos reales al interior de las empresas y logramos así construir un dataset que le permite a un LLM detectar con precisión un comportamiento anti ético, superando la capacidad genérica de los LLM comerciales. Este dataset está compuesto de la expresión de un comportamiento real en ambiente laboral y una explicación por parte de un experto antifraude.
- Detección de sesgos: es imposible que un dataset no contenga sesgos porque este tipo de datos los estamos creando los humanos y no existe un solo humano en el planeta que no tenga sesgos. Usamos los sesgos en beneficio de la labor antifraude, por ejemplo, la principal hipótesis de Donald Cressey era que las personas de confianza en las organizaciones se vuelven los principales violadores de ésta confianza. Aún sabiendo esto, no significa que las personas de mas poder sean potenciales perpetradores per-se, pero podrían tener más probabilidad que otra persona que no goce de confianza.
- Creación natural o sintética: la mayoría de los dataset de post-entrenamiento los crean los mismos LLM y se reutilizan como datos para entrenar otros modelos. Un dataset sintético podría magnificar las alucinaciones o mentiras de los LLM, mientras que los dataset creados manualmente, con datos reales, podrían ofrecer mejores y más precisos resultados.
El futuro de la inteligencia artificial no depende de modelos más grandes, mas bien, depende de mejores datos.
Calidad vs Cantidad
Un Dataset perfectamente diseñado de 1000 ejemplos, es infinitamente superior a un datset de 50000 ejemplos pobremente diseñados.
LIMA (Less Is More for Alignment) es un modelo de META basado en Llama que demostró que menos es mejor y que importa más la calidad que la cantidad. El modelo está post-entrenado con un dataset de solamente 1000 ejemplos, perfectamente calibrados, curados y clasificados. Este modelo ha demostrado entregar mejores predicciones que otros modelos mucho más grandes, post-entrenados con mayores cantidades de datos.
La clave de un buen dataset radica en la calidad y la diversidad de sus ejemplos, no en la cantidad.
Razonamiento paso a paso
Los mejores dataset que se puedan diseñar consisten en plantear un problema inicial, desarrollar ese problema por partes explicando cada uno de los pasos que se siguen para solucionarlo y llegar a la respuesta final.
Entre mas detallado sea el proceso de razonamiento escrito por el humano, mejor lo hará el LLM cuando le toque hacerlo por si solo ante nuevos problemas que no haya visto antes. No es suficiente con darle la respuesta final al modelo, es necesario llevarlo por cada uno de los pasos de razonamiento humano aplicados para llegar a esa respuesta final.
Crear un dataset de 1000 ejemplos con problemas bien desarrollados podría tomar mucho tiempo y requiere no potencia computacional sino potencia cerebral de uno o varios humanos.
Un Dataset mediocre vs uno excelente
Hemos enumerado 6 claves para diferenciar entre un dataset de post-entrenamiento mediocre de uno que será excelente y brindará los mejores resultados de un LLM entrenado para una tarea específica:
- Relevancia: no tiene sentido alimentar el modelo con textos científicos si lo que queremos es que nos detecte comportamientos anti éticos de la vida real, del día a día, aquellos que se ven solo en la calles y en los pasillos.
- Alineación con la tarea: se quiere creatividad o precisión?, se requiere ser conciso o se requiere dar una explicación?, el dataset debe reflejar cuales son las expectativas que nosotros como humanos queremos del LLM y eso lo debemos plantear desde el inicio en el dataset.
- Consistencia: la clasificación y la respuesta final deben ser consistentes con las respuestas anteriores de otros ejemplos en el mismo dataset. Si para dos ejemplos se tiene una respuesta diferente, pero resulta que en la realidad la respuesta debería ser la misma, el modelo se confundirá.
- Formato: espacios, números, puntos, comas, mayusculas, comillas, paréntesis e incluso etiquetas HTML, deben estar todas bien curadas y aportar valor al texto porque cada una de ellas puede afectar la precisión del modelo en sus predicciones.
- Unicidad: se deben evitar los ejemplos duplicados porque de esa manera se evita que el modelo se obsesione y cree sesgos innecesarios sobre un tema en particular.
- Derechos de autor: los datos no deben ser robados o adquiridos sin permiso de su propietario. La recomendación es que se llegue a un acuerdo con el dueño del dato y permita su uso para el entrenamiento del modelo.
En la práctica, un dataset cuidadosamente diseñado con pocos ejemplos, superará ampliamente uno con millones de ejemplos ruidosos.
Cobertura de los datos
El mundo real está lleno de particularidades, de errores, de faltas de ortografía, de palabras mal dichas, de combinación de varios lenguajes en un solo texto (español e inglés) e incluso el mundo real está lleno de palabras y expresiones creadas por su propia cultura, lejos de aparecer en un diccionario.
Es por ello que entre mejor se refleje esta variedad y diversidad de situaciones reales en nuestro Dataset, más preciso será el razonamiento de nuestro LLM y más cercano estará a la realidad de nuestro día a día. Esta variedad y diversidad solo se consigue untándose las manos de barro, haciendo trabajo investigativo de campo y alejándose de la máquina.
La diversidad de los datos será la mejor garantía de que nuestro modelo será útil y robusto.
Enseñarle lo que no queremos
Una técnica muy buena para al creación de datasets de buena calidad, es crear ejemplos no solo de situaciones que queramos que resuelva sino de situaciones que no queremos que resuelva un LLM.
En el caso de NOFRAUD, el dataset no solo está compuesto de comportamientos deshonestos que expresan los empleados al interior de una organización, sino que también contiene comportamientos éticos y normales, donde le enseñamos al LLM cuál es la diferencia entre un acto ético de uno que no lo es.
Lo anterior ayuda tremendamente a la reducción de falsos positivos, donde por error el LLM cree que un acto ético es uno no ético.
Reflexiones y conclusiones
Hoy en día no es novedoso que una empresa mencione que usa IA, que tiene una IA o que ha creado una IA. Lo novedoso hoy en día es que una empresa mencione que ha creado un Dataset con las particularidades de su negocio y ha post-entrenado una IA para resolver de manera más eficiente y realista un problema.
Referencias
(Jesus Conde, 2025) Dataset Engineering
Acerca de NOFRAUD
NOFRAUD es la compañía que desarrolla el software antifraude The Fraud Explorer y apoya a personas y empresas a enfrentar y solucionar sus retos en materia de fraude interno, corrupción y abuso corporativo. NOFRAUD ha creado la base de datos conductual de actos deshonestos más grande del mundo en Español e Inglés, que sirve para que la inteligencia artificial encuentre patrones sospechosos de corrupción al interior de las organizaciones.
Mejoramos la capacidad de las organizaciones incrementando sus beneficios, arrebatándole a los perpetradores la posibilidad de afectar negativamente los ingresos a través del fraude, la corrupción, el abuso corporativo y la generación de ambientes tóxicos.
Contacte conmigo en » jrios@nofraud.la y Visítenos en » www.nofraud.la.