Definición breve
El aprendizaje auto-supervisado es un enfoque en el que el modelo aprende a partir de los propios datos generando automáticamente sus etiquetas o señales de entrenamiento.
Explicación del concepto
El aprendizaje auto-supervisado se sitúa entre el aprendizaje supervisado y no supervisado.
En este enfoque:
- no se necesitan etiquetas humanas explícitas
- el modelo crea sus propios objetivos de aprendizaje
- se aprovechan grandes cantidades de datos sin etiquetar
Por ejemplo, en modelos de lenguaje, el sistema puede aprender prediciendo palabras faltantes en una oración.
Cómo funciona
El proceso de aprendizaje auto-supervisado incluye:
- Datos sin etiquetar
Se utiliza un gran conjunto de datos sin anotaciones. - Generación de tareas
Se crean tareas artificiales (pretext tasks). - Entrenamiento del modelo
El modelo aprende a resolver estas tareas. - Aprendizaje de representaciones
Se obtienen representaciones útiles para otras tareas.
Este conocimiento puede reutilizarse posteriormente.
Ejemplos de tareas auto-supervisadas
- predicción de palabras faltantes
- predicción del siguiente elemento en una secuencia
- reconstrucción de datos
- contraste entre ejemplos positivos y negativos
Por qué es importante
El aprendizaje auto-supervisado es clave en la inteligencia artificial moderna.
Beneficios:
- reduce la necesidad de datos etiquetados
- permite aprovechar grandes datasets
- mejora la generalización
- es la base del preentrenamiento de modelos
Ejemplo conceptual
Un modelo de lenguaje aprende eliminando palabras de una frase y tratando de predecirlas.
Ejemplo en PyTorch
Un ejemplo simplificado de predicción de secuencia:
outputs = model(inputs)loss = loss_function(outputs, targets
Aquí, los targets pueden generarse automáticamente a partir de los datos.
Conceptos relacionados
- Preentrenamiento de modelos
- Aprendizaje no supervisado
- Aprendizaje supervisado
- Modelos de lenguaje
- Representaciones latentes
Resumen
El aprendizaje auto-supervisado permite a los modelos aprender a partir de datos sin etiquetar generando sus propias señales de entrenamiento. Es una técnica fundamental en la inteligencia artificial moderna y la base de muchos modelos avanzados como los transformers y los grandes modelos de lenguaje.