Matriz de confusión

Definición breve

La matriz de confusión es una tabla que permite evaluar el rendimiento de un modelo de clasificación mostrando las predicciones correctas e incorrectas en comparación con los valores reales.

Explicación del concepto

En problemas de clasificación, no basta con medir únicamente la precisión global del modelo. La matriz de confusión proporciona una visión más detallada al mostrar cómo se distribuyen las predicciones.

Esta matriz compara:

  • las clases reales
  • las clases predichas

y organiza los resultados en cuatro categorías principales:

  • Verdaderos positivos (TP)
  • Verdaderos negativos (TN)
  • Falsos positivos (FP)
  • Falsos negativos (FN)

Esto permite entender no solo cuánto acierta el modelo, sino también en qué tipo de errores incurre.

Cómo funciona

La matriz de confusión se organiza como una tabla:

  • las filas representan los valores reales
  • las columnas representan las predicciones del modelo

Cada celda indica cuántas veces ocurrió una combinación específica de predicción y valor real.

A partir de esta matriz se pueden calcular métricas importantes como:

  • precisión (accuracy)
  • precisión positiva (precision)
  • exhaustividad (recall)
  • F1-score

Por qué es importante

La matriz de confusión es una herramienta clave para evaluar modelos de clasificación.

Sus beneficios incluyen:

  • análisis detallado del rendimiento del modelo
  • identificación de errores específicos
  • mejor comprensión de falsos positivos y negativos
  • soporte para la mejora del modelo

Es especialmente útil en problemas donde ciertos errores son más críticos que otros.

Ejemplo conceptual

Supongamos un modelo que clasifica correos electrónicos como spam o no spam.

La matriz de confusión puede mostrar:

  • correos correctamente identificados como spam
  • correos normales clasificados erróneamente como spam
  • correos spam no detectados

Esto permite evaluar el comportamiento del modelo de manera más completa.

Ejemplo conceptual

Supongamos un modelo que clasifica correos electrónicos como spam o no spam.

La matriz de confusión puede mostrar:

  • correos correctamente identificados como spam
  • correos normales clasificados erróneamente como spam
  • correos spam no detectados

Esto permite evaluar el comportamiento del modelo de manera más completa.

Ejemplo en PyTorch

La matriz de confusión suele calcularse con herramientas externas como scikit-learn.

Python
from sklearn.metrics import confusion_matrix
y_true = [0, 1, 0, 1]
y_pred = [0, 1, 1, 0]
cm = confusion_matrix(y_true, y_pred)
print(cm)

Este código genera una matriz de confusión para evaluar el modelo.

Conceptos relacionados

  • Evaluación de modelos
  • Precisión (accuracy)
  • Recall
  • F1-score
  • Clasificación

Resumen

La matriz de confusión es una herramienta fundamental para evaluar modelos de clasificación, ya que permite analizar en detalle las predicciones correctas e incorrectas. Proporciona una visión completa del rendimiento del modelo y facilita la identificación de errores específicos para su mejora.