Definición breve
El puntaje F1 es una métrica de evaluación que combina la precisión (precision) y la exhaustividad (recall) en un solo valor, proporcionando una medida equilibrada del rendimiento de un modelo de clasificación.
Explicación del concepto
En problemas de clasificación, especialmente cuando las clases están desbalanceadas, la precisión global (accuracy) puede ser engañosa.
El puntaje F1 resuelve este problema al considerar tanto:
- la precisión (precision): qué proporción de predicciones positivas es correcta
- la exhaustividad (recall): qué proporción de los casos positivos reales se detecta
El F1 Score es la media armónica de estas dos métricas, lo que significa que penaliza valores extremos y favorece modelos equilibrados.
Cómo funciona
El puntaje F1 se calcula combinando precisión y recall.
F1 = 2 \cdot \frac{precision \cdot recall}{precision + recall}
Donde:
- precision = TP / (TP + FP)
- recall = TP / (TP + FN)
El resultado del F1 Score varía entre 0 y 1:
- 1 → rendimiento perfecto
- 0 → rendimiento deficiente
Por qué es importante
El puntaje F1 es especialmente útil cuando:
- las clases están desbalanceadas
- los falsos positivos y falsos negativos son importantes
- se necesita una métrica equilibrada
Permite evaluar modelos de forma más justa en comparación con la precisión simple.
Ejemplo conceptual
Supongamos un modelo que detecta enfermedades.
- Una alta precisión significa pocos falsos positivos.
- Un alto recall significa que se detectan la mayoría de los casos reales.
El puntaje F1 equilibra ambos aspectos, lo que es crucial en aplicaciones sensibles.
Ejemplo en PyTorch
El F1 Score suele calcularse con herramientas como scikit-learn.
from sklearn.metrics import f1_scorey_true = [1, 0, 1, 1]y_pred = [1, 0, 0, 1]score = f1_score(y_true, y_pred)print(score)
Este valor representa el equilibrio entre precisión y recall.
Conceptos relacionados
- Precisión (precision)
- Recall (exhaustividad)
- Matriz de confusión
- Evaluación de modelos
- Clasificación
Resumen
El puntaje F1 es una métrica que combina precisión y recall en un único valor equilibrado. Es especialmente útil en problemas con clases desbalanceadas y proporciona una medida más completa del rendimiento de un modelo de clasificación que la precisión por sí sola.