Umbral de decisión

Definición corta

El umbral de decisión es el valor utilizado para convertir probabilidades predichas por un modelo en decisiones finales de clasificación. Determina cuándo una predicción se considera positiva o negativa.


📖 Definición detallada

Muchos modelos de clasificación no producen directamente etiquetas como:

  • “spam”
  • “fraude”
  • “positivo”
  • “negativo”

En cambio, producen probabilidades.

Por ejemplo:

EntradaProbabilidad predicha
Correo A0.92
Correo B0.63
Correo C0.18

El umbral de decisión define el punto a partir del cual una probabilidad se transforma en una clase positiva.

umbral de decision
umbral de decision

📌 Ejemplo básico

Supongamos:

  • umbral = 0.5

Entonces:

ProbabilidadPredicción
0.92Positivo
0.63Positivo
0.18Negativo

🧠 Idea fundamental

El umbral controla el equilibrio entre:

  • precisión
  • exhaustividad
  • falsos positivos
  • falsos negativos

Modificar el umbral cambia completamente el comportamiento del modelo.


📉 Umbral bajo

Ejemplo:

  • umbral = 0.2

Consecuencias:

  • más positivos detectados
  • mayor exhaustividad
  • más falsos positivos

El modelo se vuelve más “sensible”.


📈 Umbral alto

Ejemplo:

  • umbral = 0.9

Consecuencias:

  • menos positivos detectados
  • mayor precisión
  • más falsos negativos

El modelo se vuelve más “estricto”.


⚖️ Tradeoff fundamental

Umbral bajo

  • ↑ exhaustividad
  • ↓ precisión

Umbral alto

  • ↑ precisión
  • ↓ exhaustividad

📊 Representación matemática

La decisión suele formularse como:

y^={1si P(y=1)t0si P(y=1)<t\hat{y}=\begin{cases}1 & \text{si } P(y=1) \ge t \\ 0 & \text{si } P(y=1) < t\end{cases}

Donde:

  • P(y=1)P(y=1) = probabilidad predicha
  • tt = umbral de decisión

🚨 Importancia práctica

El umbral ideal depende del problema.


🏥 Diagnóstico médico

Suele preferirse:

  • umbral bajo
  • alta exhaustividad

Porque perder un caso positivo puede ser muy grave.


📧 Filtros de spam

Suele preferirse:

  • umbral más alto
  • alta precisión

Porque marcar correos legítimos como spam puede ser problemático.


💳 Detección de fraude

A menudo:

  • umbral moderado
  • equilibrio entre precisión y exhaustividad

📈 Relación con curvas ROC y Precision-Recall

Cada punto en:

  • una curva ROC
  • una curva Precision-Recall

corresponde a un umbral distinto.

Mover el umbral desplaza el comportamiento del modelo sobre esas curvas.


💻 Ejemplo en Python

Python
import matplotlib.pyplot as plt
# Clases
clases = ["Negativo", "Positivo"]
# Probabilidades
probabilidades = [0.35, 0.65]
# Umbral
threshold = 0.5
# Crear gráfica
plt.bar(clases, probabilidades)
# Línea del umbral
plt.axhline(threshold, linestyle="--", label=f"Umbral = {threshold}")
# Etiquetas
plt.ylabel("Probabilidad")
plt.title("Umbral de decisión")
# Mostrar valores
for i, p in enumerate(probabilidades):
plt.text(i, p + 0.02, f"{p:.2f}", ha="center")
plt.ylim(0, 1)
plt.legend()
plt.show()

Conceptos relacionados

  • Clasificación binaria
  • Precisión
  • Exhaustividad
  • F1-score
  • ROC-AUC
  • Curva Precision-Recall
  • Regresión logística
  • Función sigmoide

🚀 Conclusión

El umbral de decisión es uno de los elementos más importantes en clasificación probabilística.

Aunque el modelo permanezca igual, cambiar el umbral puede transformar radicalmente:

  • precisión
  • exhaustividad
  • sensibilidad
  • comportamiento operativo

Elegir el umbral correcto depende siempre del contexto y de las consecuencias reales de los errores del modelo.