Reducción de dimensionalidad

Simplificando datos sin perder información esencial

La reducción de dimensionalidad es el proceso de transformar datos con muchas variables en una representación con menos dimensiones, preservando la mayor cantidad posible de información relevante.

👉 Es fundamental para mejorar el rendimiento, reducir ruido y facilitar la visualización en machine learning.

Definición corta

La reducción de dimensionalidad consiste en disminuir el número de variables manteniendo la información clave.

Definición detallada

Dado un conjunto de datos en un espacio de alta dimensión: $X \in \mathbb{R}^n$

Se transforma en: $Z \in \mathbb{R}^k \quad (k < n)$

👉 Conservando estructura o información relevante.

Intuición

La reducción de dimensionalidad responde:

👉 “¿Podemos describir estos datos con menos variables sin perder lo importante?”

Ejemplo

Edad, ingresos, gastos → 3 dimensiones  
↓  
Nivel socioeconómico → 1 dimensión

Interpretación

Elimina redundancia
Reduce ruido
Simplifica modelos

👉 Convierte datos complejos en representaciones compactas.

Relación con otros conceptos

Dimensionalidad
Rango
PCA
SVD

Tipos de reducción

🔹 1. Lineal

👉 Proyecciones lineales.

🔹 2. No lineal

t-SNE
UMAP
Autoencoders

👉 Capturan estructuras complejas.

Técnicas principales

🔹 PCA (Principal Component Analysis)

Proyecta datos en direcciones de mayor varianza
Componentes ortogonales

🔹 SVD

Descompone matrices: $A = U \Sigma V^T$ A=UΣVT

👉 Reduce rango efectivo.

🔹 Autoencoders

Red neuronal que:

comprime (encoder)
reconstruye (decoder)

🔹 t-SNE / UMAP

Visualización
Preservan vecindades

Ejemplo paso a paso

100 features → PCA → 10 componentes

👉 Se mantiene la mayor varianza.

Varianza explicada

En PCA: $\text{Varianza explicada} \approx \text{información retenida}$ Varianza explicada≈informacioˊn retenida

👉 Se eligen componentes que maximizan esto.

Reducción en redes neuronales

🔹 1. Preprocesamiento

Reduce:

ruido
redundancia

🔹 2. Embeddings

Compresión de datos:

👉 representaciones densas

🔹 3. Autoencoders

Aprenden:

👉 representaciones latentes

🔹 4. Visualización

Proyecta datos a 2D/3D.

Ejemplo conceptual

Imagen (784 dimensiones)
↓
Vector latente (32 dimensiones)

Ejemplo en Python (PCA)

			
import numpy as np
from sklearn.decomposition import PCA
# Datos simulados
X = np.random.rand(100, 5)
pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X)
print("Shape original:", X.shape)
print("Shape reducido:", X_reduced.shape)

		

Ejemplo en PyTorch (Autoencoder simple)

			
import torch
import torch.nn as nn
class Autoencoder(nn.Module):
    def __init__(self):
        super().__init__()
        self.encoder = nn.Linear(10, 3)
        self.decoder = nn.Linear(3, 10)
    def forward(self, x):
        z = self.encoder(x)
        x_hat = self.decoder(z)
        return x_hat
model = Autoencoder()
x = torch.randn(1, 10)
output = model(x)
print("Salida:", output)

		

Ejemplo con varianza explicada

			
from sklearn.decomposition import PCA
import numpy as np
X = np.random.rand(100, 5)
pca = PCA()
pca.fit(X)
print("Varianza explicada:", pca.explained_variance_ratio_)

		

Qué muestra este ejemplo

Reducción de dimensiones
Compresión de datos
Preservación de información

Errores comunes

Perder demasiada información

Reducir demasiado puede degradar el modelo.

Usar técnicas incorrectas

Lineal vs no lineal importa.

Ignorar interpretabilidad

Nuevas dimensiones pueden ser abstractas.

📊 Ejemplo conceptual en ML

Muchos features irrelevantes → ruido  
↓  
Reducción → mejor modelo

Interpretación profunda

La reducción de dimensionalidad permite:

simplificar datos
mejorar eficiencia
eliminar redundancia
revelar estructuras ocultas

👉 Es clave para trabajar con datos reales.

Conclusión

La reducción de dimensionalidad es una técnica esencial para simplificar datos complejos, mejorar modelos y hacer posible la visualización y análisis en machine learning.

👉 Es una herramienta clave para transformar datos en conocimiento útil.

Related Concepts

Dimensionalidad
PCA
SVD
Embeddings
Autoencoders