Verosimilitud (Likelihood)

Evaluando qué tan bien un modelo explica los datos

La verosimilitud (likelihood) es un concepto central en estadística y machine learning que mide qué tan probable es observar los datos dados ciertos parámetros del modelo.

👉 Es la base de muchos métodos de entrenamiento, incluyendo la máxima verosimilitud (MLE) y la log-likelihood usada en redes neuronales.

Definición corta

La verosimilitud mide qué tan bien un modelo con ciertos parámetros explica los datos observados.

Definición detallada

Dado un modelo con parámetros θ\thetaθ y datos XXX:L(θ)=P(Xθ)\mathcal{L}(\theta) = P(X | \theta)

👉 Es la probabilidad de los datos condicionada al modelo.

Intuición

La verosimilitud responde:

👉 “Si mi modelo fuera correcto, ¿qué tan probable sería observar estos datos?”

Diferencia clave

ConceptoSignificado
Probabilidad(P(\theta
Verosimilitud(P(X

👉 En ML:

  • Datos → fijos
  • Parámetros → variables

Ejemplo simple

Supongamos una moneda:θ=probabilidad de cara\theta = \text{probabilidad de cara}θ=probabilidad de cara

Observamos:

cara, cara, cruz

Verosimilitud:L(θ)=θ2(1θ)\mathcal{L}(\theta) = \theta^2 (1 – \theta)

👉 Queremos encontrar el θ\theta que maximiza esto.

Máxima verosimilitud (MLE)

θ^=argmaxθP(Xθ)\hat{\theta} = \arg\max_\theta P(X | \theta)

👉 Elegimos los parámetros que hacen los datos más probables.

Log-verosimilitud

En la práctica se usa:logL(θ)\log \mathcal{L}(\theta)

👉 Ventajas:

  • Evita underflow numérico
  • Convierte productos en sumas

Verosimilitud en redes neuronales

🔹 1. Entrenamiento de modelos

Maximizar verosimilitud ≈ minimizar pérdida.

🔹 2. Clasificación

Softmax produce probabilidades:

👉 se maximiza la probabilidad de la clase correcta.

🔹 3. Regresión

Modelo gaussiano:yN(μ,σ2)y \sim \mathcal{N}(\mu, \sigma^2)

👉 maximizar verosimilitud → minimizar error cuadrático.

🔹 4. Modelos generativos

Evalúan:

👉 qué tan probable es generar datos reales.

Ejemplo paso a paso

Datos:X=[x1,x2]X = [x_1, x_2]

Modelo:P(xθ)P(x|\theta)

Verosimilitud:L=P(x1θ)P(x2θ)\mathcal{L} = P(x_1|\theta) \cdot P(x_2|\theta)

Log-verosimilitud:logL=logP(x1θ)+logP(x2θ)\log \mathcal{L} = \log P(x_1|\theta) + \log P(x_2|\theta)

Relación con otros conceptos

Ejemplo en Python

import numpy as np
# Datos observados
data = [1, 1, 0]
# Probabilidad de cara
theta = 0.7
likelihood = (theta**2) * (1 - theta)
print("Likelihood:", likelihood)

Ejemplo con log-likelihood

import numpy as np
data = [1, 1, 0]
theta = 0.7
log_likelihood = 2*np.log(theta) + np.log(1 - theta)
print("Log-Likelihood:", log_likelihood)

Ejemplo en PyTorch (clasificación)

import torch
import torch.nn.functional as F
# Predicción
logits = torch.tensor([2.0, 1.0])
probs = F.softmax(logits, dim=0)
# Clase correcta
target = torch.tensor([1.0, 0.0])
# Log-likelihood
log_likelihood = torch.sum(target * torch.log(probs))
print("Log-Likelihood:", log_likelihood.item())

Ejemplo con pérdida (NLL)

import torch
import torch.nn.functional as F
logits = torch.tensor([[2.0, 1.0]])
target = torch.tensor([0])
loss = F.cross_entropy(logits, target)
print("Cross-Entropy Loss:", loss.item())

Qué muestra este ejemplo

  • Maximizar likelihood = minimizar pérdida
  • Base de entrenamiento en deep learning
  • Relación directa con cross-entropy

Errores comunes

Confundir probabilidad y verosimilitud

Son conceptos distintos.

Multiplicar muchas probabilidades

Puede causar underflow → usar log.

Interpretar likelihood como probabilidad absoluta

Es relativa a los parámetros.

Ejemplo conceptual en ML

Modelo A → likelihood alta  
Modelo B → likelihood baja

👉 Modelo A explica mejor los datos.

Interpretación profunda

La verosimilitud permite:

  • evaluar modelos
  • ajustar parámetros
  • entrenar redes neuronales
  • conectar probabilidad con optimización

👉 Es el puente entre datos y aprendizaje.

Conclusión

La verosimilitud (likelihood) es uno de los conceptos más importantes en machine learning, ya que define cómo evaluamos y entrenamos modelos. Maximizarla equivale a encontrar el modelo que mejor explica los datos.

👉 Entender likelihood es entender cómo aprenden los modelos.

Related Concepts