Reducción de dimensionalidad

Simplificando datos sin perder información esencial

La reducción de dimensionalidad es el proceso de transformar datos con muchas variables en una representación con menos dimensiones, preservando la mayor cantidad posible de información relevante.

👉 Es fundamental para mejorar el rendimiento, reducir ruido y facilitar la visualización en machine learning.

Definición corta

La reducción de dimensionalidad consiste en disminuir el número de variables manteniendo la información clave.

Definición detallada

Dado un conjunto de datos en un espacio de alta dimensión:XRnX \in \mathbb{R}^n

Se transforma en:ZRk(k<n)Z \in \mathbb{R}^k \quad (k < n)

👉 Conservando estructura o información relevante.

Intuición

La reducción de dimensionalidad responde:

👉 “¿Podemos describir estos datos con menos variables sin perder lo importante?”

Ejemplo

Edad, ingresos, gastos → 3 dimensiones  

Nivel socioeconómico → 1 dimensión

Interpretación

  • Elimina redundancia
  • Reduce ruido
  • Simplifica modelos

👉 Convierte datos complejos en representaciones compactas.

Relación con otros conceptos

  • Dimensionalidad
  • Rango
  • PCA
  • SVD

Tipos de reducción

🔹 1. Lineal

  • PCA
  • SVD

👉 Proyecciones lineales.

🔹 2. No lineal

  • t-SNE
  • UMAP
  • Autoencoders

👉 Capturan estructuras complejas.

Técnicas principales

🔹 PCA (Principal Component Analysis)

  • Proyecta datos en direcciones de mayor varianza
  • Componentes ortogonales

🔹 SVD

Descompone matrices:A=UΣVTA = U \Sigma V^TA=UΣVT

👉 Reduce rango efectivo.

🔹 Autoencoders

Red neuronal que:

  • comprime (encoder)
  • reconstruye (decoder)

🔹 t-SNE / UMAP

  • Visualización
  • Preservan vecindades

Ejemplo paso a paso

100 features → PCA → 10 componentes

👉 Se mantiene la mayor varianza.

Varianza explicada

En PCA:Varianza explicadainformacioˊn retenida\text{Varianza explicada} \approx \text{información retenida}Varianza explicada≈informacioˊn retenida

👉 Se eligen componentes que maximizan esto.

Reducción en redes neuronales

🔹 1. Preprocesamiento

Reduce:

  • ruido
  • redundancia

🔹 2. Embeddings

Compresión de datos:

👉 representaciones densas

🔹 3. Autoencoders

Aprenden:

👉 representaciones latentes

🔹 4. Visualización

Proyecta datos a 2D/3D.

Ejemplo conceptual

Imagen (784 dimensiones)

Vector latente (32 dimensiones)

Ejemplo en Python (PCA)

import numpy as np
from sklearn.decomposition import PCA
# Datos simulados
X = np.random.rand(100, 5)
pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X)
print("Shape original:", X.shape)
print("Shape reducido:", X_reduced.shape)

Ejemplo en PyTorch (Autoencoder simple)

import torch
import torch.nn as nn
class Autoencoder(nn.Module):
def __init__(self):
super().__init__()
self.encoder = nn.Linear(10, 3)
self.decoder = nn.Linear(3, 10)
def forward(self, x):
z = self.encoder(x)
x_hat = self.decoder(z)
return x_hat
model = Autoencoder()
x = torch.randn(1, 10)
output = model(x)
print("Salida:", output)

Ejemplo con varianza explicada

from sklearn.decomposition import PCA
import numpy as np
X = np.random.rand(100, 5)
pca = PCA()
pca.fit(X)
print("Varianza explicada:", pca.explained_variance_ratio_)

Qué muestra este ejemplo

  • Reducción de dimensiones
  • Compresión de datos
  • Preservación de información

Errores comunes

Perder demasiada información

Reducir demasiado puede degradar el modelo.

Usar técnicas incorrectas

Lineal vs no lineal importa.

Ignorar interpretabilidad

Nuevas dimensiones pueden ser abstractas.


📊 Ejemplo conceptual en ML

Muchos features irrelevantes → ruido  

Reducción → mejor modelo

Interpretación profunda

La reducción de dimensionalidad permite:

  • simplificar datos
  • mejorar eficiencia
  • eliminar redundancia
  • revelar estructuras ocultas

👉 Es clave para trabajar con datos reales.

Conclusión

La reducción de dimensionalidad es una técnica esencial para simplificar datos complejos, mejorar modelos y hacer posible la visualización y análisis en machine learning.

👉 Es una herramienta clave para transformar datos en conocimiento útil.

Related Concepts