Distribución normal (Gaussiana)

La distribución más importante en estadística y machine learning

La distribución normal, también conocida como distribución gaussiana, describe cómo se distribuyen los datos alrededor de una media, formando la clásica curva en forma de campana.

👉 Es fundamental porque muchos fenómenos naturales y datos reales siguen (o se aproximan a) esta distribución.

Definición corta

La distribución normal es una distribución continua caracterizada por una media y una varianza, con forma simétrica de campana.

Definición matemática

$f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\,e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

👉 donde:

$\mu$ : media
$\sigma^2$ : varianza

Intuición

La distribución normal responde:

👉 “La mayoría de los valores están cerca de la media, y los extremos son raros”

Centro → alta probabilidad  Extremos → baja probabilidad

📊 Propiedades clave

🔹 1. Simetría

alrededor de la media

🔹 2. Forma de campana

pico en $\mu$ μ

🔹 3. Parámetros

media ( $\mu$ μ)
desviación estándar ( $\sigma$ σ)

📊 Ejemplo conceptual

μ = 0 → centro  σ pequeño → curva estrecha  σ grande → curva ancha

🧠 Regla empírica (68–95–99.7)

68% dentro de $1\sigma$ 1σ
95% dentro de $2\sigma$ 2σ
99.7% dentro de $3\sigma$ 3σ

📊 Interpretación

Más lejos de la media  ↓  Menos probable

🧠 Distribución normal estándar

Cuando: $\mu = 0, \quad \sigma = 1$

👉 se llama normal estándar.

📐 Estandarización (Z-score)

$Z=\frac{X-\mu}{\sigma}$

$x$

$\mu$

$\sigma$

$z=\frac{x-\mu}{\sigma}\approx 1.2$

$\Phi(z)\approx 88.5\%$

👉 permite comparar valores en distintas escalas.

Ejemplo conceptual

Valor alto  ↓  Z-score alto  ↓  Evento raro

Relación con machine learning

La distribución normal aparece en:

ruido en datos
inicialización de pesos
errores de modelos
supuestos estadísticos

📊 Ejemplo conceptual

Datos  ↓  Distribución normal  ↓  Modelo aprende patrón

🧠 Teorema central del límite

👉 muchas variables independientes tienden a una distribución normal.

Suma de variables  ↓  Distribución normal

🧠 Uso en modelos

regresión
modelos bayesianos
redes neuronales (ruido, inicialización)

📊 Ejemplo en Python

			
import numpy as np
samples = np.random.normal(0, 1, 5)
print(samples)

Ejemplo con PDF

			
from scipy.stats import norm
import numpy as np
x = np.linspace(-3, 3, 5)
print(norm.pdf(x, 0, 1))

🧠 Qué muestra este ejemplo

generación de datos
forma de distribución
comportamiento probabilístico

⚠️ Errores comunes

Pensar que todos los datos son normales

No siempre es cierto.

Ignorar outliers

Afectan la distribución.

Confundir media con moda

En normal coinciden, pero no siempre.

📊 Ejemplo conceptual en ML

Distribución normal  ↓  Datos  ↓  Modelo  ↓  Predicción

🧠 Interpretación profunda

La distribución normal refleja un principio fundamental:

👉 El mundo real tiende a concentrarse alrededor de un valor promedio

Permite:

modelar incertidumbre
hacer inferencias
simplificar problemas complejos

Conclusión

La distribución normal es la distribución más importante en estadística, describiendo cómo se concentran los valores alrededor de una media.

👉 Es la base de muchos modelos y técnicas en machine learning.

Related Concepts

PDF
CDF
Variable aleatoria
Z-score
Inferencia