Clasificación probabilística para variables binarias
Bayes ingenuo Bernoulli es una variante de Bayes ingenuo diseñada para trabajar con características binarias, donde cada variable representa presencia o ausencia.
👉 Es especialmente útil en clasificación de texto y problemas con datos booleanos.
Definición corta
Bayes ingenuo Bernoulli modela características binarias utilizando distribuciones Bernoulli condicionadas a cada clase.
🧠 Intuición
El modelo responde:
👉 “¿Qué tan probable es que ciertas características estén presentes o ausentes dentro de una clase?”
Características binarias ↓ Probabilidades de presencia ↓ Clase más probable
📐 Fundamento matemático
Parte de Bayes ingenuo:
P(B)=0.25P(B|A)P(A)=0.17P(A|B)~0.68
Posterior = useful evidence / total evidence
y asume independencia condicional:
🔹 Distribución Bernoulli
Cada característica toma valores:
👉 presencia o ausencia.
📐 Probabilidad Bernoulli
👉 donde:
- : probabilidad de presencia dada la clase
🧠 Idea clave
El modelo aprende:
- qué características suelen aparecer
- qué características suelen faltar
en cada clase.
📊 Ejemplo conceptual
Palabra “gratis” presente ↓ Mayor probabilidad de spam
🔄 Proceso de clasificación
🔹 Paso 1
Evaluar presencia/ausencia de características.
🔹 Paso 2
Calcular probabilidades por clase.
🔹 Paso 3
Elegir clase más probable.
📊 Ejemplo conceptual
Características binarias ↓ Probabilidades Bernoulli ↓ Posterior ↓ Predicción
🧠 Diferencia con Bayes multinomial
| Variante | Qué modela |
|---|---|
| Bernoulli | presencia/ausencia |
| Multinomial | frecuencia/conteos |
📊 Ejemplo conceptual
Bernoulli → aparece o no Multinomial → cuántas veces aparece
🧠 Uso en machine learning
Bayes ingenuo Bernoulli se usa en:
- filtrado de spam
- clasificación de documentos
- detección de palabras clave
- datos booleanos
📊 Ejemplo conceptual
Texto ↓ Palabras presentes ↓ Clasificación
🧠 Ventajas
- muy rápido
- simple
- eficiente en texto corto
- funciona bien con datos binarios
🧠 Desventajas
- ignora frecuencia de palabras
- independencia rara vez real
- limitado para patrones complejos
🧠 Relación con NLP
Muy útil cuando interesa:
- si una palabra aparece
- no cuántas veces aparece
📊 Ejemplo conceptual
Palabra detectada ↓ Información suficiente
📊 Ejemplo en Python
from sklearn.naive_bayes import BernoulliNBfrom sklearn.feature_extraction.text import CountVectorizertexts = [ "oferta gratis", "hola amigo", "gratis ahora"]labels = [1, 0, 1]vectorizer = CountVectorizer(binary=True)X = vectorizer.fit_transform(texts)model = BernoulliNB()model.fit(X, labels)test = vectorizer.transform(["gratis"])print(model.predict(test))
Ejemplo conceptual simplificado
# presencia = 1# ausencia = 0
🧠 Qué muestran estos ejemplos
- clasificación probabilística
- uso de variables binarias
- independencia condicional
⚠️ Errores comunes
Usarlo con conteos grandes
Multinomial suele ser mejor.
Pensar que modela frecuencia
Solo presencia/ausencia.
Ignorar preprocesamiento binario
Es importante.
📊 Ejemplo conceptual en ML
Datos binarios ↓ Distribuciones Bernoulli ↓ Probabilidades ↓ Clase final
🧠 Interpretación profunda
Bayes ingenuo Bernoulli refleja un principio clave:
👉 A veces la mera presencia de una característica ya contiene suficiente información
Combina:
- probabilidad
- inferencia bayesiana
- variables binarias
para construir clasificadores rápidos y eficientes.
Conclusión
Bayes ingenuo Bernoulli es una variante de Bayes ingenuo especializada en características binarias de presencia o ausencia.
👉 Sigue siendo un modelo importante en clasificación de texto y sistemas simples de NLP.