Selección de características

Definición breve

La selección de características es el proceso de elegir un subconjunto de variables relevantes de un dataset para mejorar el rendimiento del modelo.

Explicación del concepto

En muchos conjuntos de datos, no todas las variables son útiles para el aprendizaje.

Algunas pueden ser:

  • irrelevantes
  • redundantes
  • ruidosas

La selección de características consiste en identificar y conservar únicamente aquellas variables que aportan valor al modelo.

A diferencia de la reducción de dimensionalidad, no crea nuevas variables, sino que selecciona un subconjunto de las existentes.

Cómo funciona

El proceso de selección de características incluye:

  1. Evaluación de variables
    Se mide la relevancia de cada característica.
  2. Eliminación de variables irrelevantes
    Se descartan características con poca información.
  3. Construcción del subconjunto óptimo
    Se seleccionan las variables más útiles.

Esto puede realizarse antes o durante el entrenamiento.

Métodos de selección

1. Métodos de filtro

Evalúan características de forma independiente.

Ejemplo: correlación, test estadísticos.

2. Métodos wrapper

Evalúan combinaciones de características utilizando un modelo.

Ejemplo: selección hacia adelante o hacia atrás.

3. Métodos embedded

Integran la selección dentro del entrenamiento del modelo.

Ejemplo: regularización L1.

Por qué es importante

La selección de características mejora la calidad del modelo.

Beneficios:

  • reduce el sobreajuste
  • mejora la interpretabilidad
  • reduce el tiempo de entrenamiento
  • elimina ruido innecesario

Ejemplo conceptual

En un modelo de predicción de precios de viviendas, variables como “número de habitaciones” pueden ser relevantes, mientras que otras pueden no aportar valor.

Ejemplo en PyTorch

La selección de características suele realizarse antes del entrenamiento.

selected_features = input_data[:, :10]

Aquí se selecciona un subconjunto de variables.

Conceptos relacionados

Resumen

La selección de características consiste en elegir las variables más relevantes de un dataset para mejorar el rendimiento del modelo. Es una técnica fundamental para reducir el ruido, mejorar la eficiencia y aumentar la capacidad de generalización en sistemas de aprendizaje automático.