Definición breve
Los datos no etiquetados son datos que contienen únicamente información de entrada sin incluir etiquetas o resultados esperados.
Explicación del concepto
A diferencia de los datos etiquetados, los datos no etiquetados no tienen una respuesta correcta asociada. Esto significa que el modelo no recibe una guía directa sobre qué resultado debe producir.
Este tipo de datos es muy común en el mundo real, ya que obtener etiquetas puede ser costoso, lento o requerir intervención humana.
Los datos no etiquetados se utilizan principalmente en:
- aprendizaje no supervisado
- aprendizaje auto-supervisado
- preentrenamiento de modelos
En estos enfoques, el modelo debe descubrir patrones y estructuras dentro de los datos sin supervisión directa.
Cómo funciona
Cuando se utilizan datos no etiquetados, el modelo aprende a partir de la estructura interna de los datos:
- Analiza similitudes y diferencias entre las muestras.
- Identifica patrones, agrupaciones o representaciones latentes.
- Construye una comprensión general de los datos.
En el aprendizaje auto-supervisado, el modelo genera sus propias “etiquetas” a partir de los datos.
Por qué es importante
Los datos no etiquetados son esenciales debido a su abundancia y disponibilidad.
Sus beneficios incluyen:
- acceso a grandes volúmenes de datos
- reducción de costos de etiquetado
- aprendizaje de representaciones generales
- mejora del rendimiento mediante preentrenamiento
Muchos modelos modernos, como los modelos de lenguaje, se entrenan inicialmente con grandes cantidades de datos no etiquetados.
Ejemplo conceptual
Supongamos que se dispone de miles de textos sin etiquetas.
Un modelo puede analizar estos textos para:
- aprender relaciones entre palabras
- identificar temas
- construir representaciones del lenguaje
Esto permite mejorar el rendimiento en tareas posteriores.
Ejemplo en PyTorch
El uso de datos no etiquetados depende del tipo de aprendizaje, pero el proceso básico implica solo entradas.
for inputs in dataloader: outputs = model(inputs)
En este caso, no hay etiquetas asociadas a los datos.
Conceptos relacionados
- Datos etiquetados
- Aprendizaje no supervisado
- Aprendizaje auto-supervisado
- Representaciones latentes
- Preentrenamiento