Definición breve
La selección de características es el proceso de elegir un subconjunto de variables relevantes de un dataset para mejorar el rendimiento del modelo.
Explicación del concepto
En muchos conjuntos de datos, no todas las variables son útiles para el aprendizaje.
Algunas pueden ser:
- irrelevantes
- redundantes
- ruidosas
La selección de características consiste en identificar y conservar únicamente aquellas variables que aportan valor al modelo.
A diferencia de la reducción de dimensionalidad, no crea nuevas variables, sino que selecciona un subconjunto de las existentes.
Cómo funciona
El proceso de selección de características incluye:
- Evaluación de variables
Se mide la relevancia de cada característica. - Eliminación de variables irrelevantes
Se descartan características con poca información. - Construcción del subconjunto óptimo
Se seleccionan las variables más útiles.
Esto puede realizarse antes o durante el entrenamiento.
Métodos de selección
1. Métodos de filtro
Evalúan características de forma independiente.
Ejemplo: correlación, test estadísticos.
2. Métodos wrapper
Evalúan combinaciones de características utilizando un modelo.
Ejemplo: selección hacia adelante o hacia atrás.
3. Métodos embedded
Integran la selección dentro del entrenamiento del modelo.
Ejemplo: regularización L1.
Por qué es importante
La selección de características mejora la calidad del modelo.
Beneficios:
- reduce el sobreajuste
- mejora la interpretabilidad
- reduce el tiempo de entrenamiento
- elimina ruido innecesario
Ejemplo conceptual
En un modelo de predicción de precios de viviendas, variables como “número de habitaciones” pueden ser relevantes, mientras que otras pueden no aportar valor.
Ejemplo en PyTorch
La selección de características suele realizarse antes del entrenamiento.
selected_features = input_data[:, :10]
Aquí se selecciona un subconjunto de variables.
Conceptos relacionados
- Extracción de características
- Reducción de dimensionalidad
- Preprocesamiento de datos
- Regularización L1
- Ingeniería de características
Resumen
La selección de características consiste en elegir las variables más relevantes de un dataset para mejorar el rendimiento del modelo. Es una técnica fundamental para reducir el ruido, mejorar la eficiencia y aumentar la capacidad de generalización en sistemas de aprendizaje automático.