Bayes ingenuo bernoulli

Clasificación probabilística para variables binarias

Bayes ingenuo Bernoulli es una variante de Bayes ingenuo diseñada para trabajar con características binarias, donde cada variable representa presencia o ausencia.

👉 Es especialmente útil en clasificación de texto y problemas con datos booleanos.


Definición corta

Bayes ingenuo Bernoulli modela características binarias utilizando distribuciones Bernoulli condicionadas a cada clase.


🧠 Intuición

El modelo responde:

👉 “¿Qué tan probable es que ciertas características estén presentes o ausentes dentro de una clase?”


Características binarias ↓ Probabilidades de presencia ↓ Clase más probable

📐 Fundamento matemático

Parte de Bayes ingenuo:

P(CX)=P(XC)P(C)P(X)P(C\mid X)=\frac{P(X\mid C)P(C)}{P(X)}

P(A)P(A)

P(BA)P(B\mid A)

P(B¬A)P(B\mid \neg A)

P(AB)=P(BA)P(A)P(B)0.68,  P(B)0.25P(A\mid B)=\frac{P(B\mid A)P(A)}{P(B)}\approx 0.68,\; P(B)\approx 0.25P(B)=0.25P(B|A)P(A)=0.17P(A|B)~0.68

Posterior = useful evidence / total evidence


y asume independencia condicional:P(XC)=iP(xiC)P(X|C)=\prod_i P(x_i|C)


🔹 Distribución Bernoulli

Cada característica toma valores:xi{0,1}x_i \in \{0,1\}


👉 presencia o ausencia.


📐 Probabilidad Bernoulli

P(xiC)=pCxi(1pC)1xiP(x_i\mid C)=p_C^{x_i}(1-p_C)^{1-x_i}


👉 donde:

  • pCp_C: probabilidad de presencia dada la clase

🧠 Idea clave

El modelo aprende:

  • qué características suelen aparecer
  • qué características suelen faltar

en cada clase.


📊 Ejemplo conceptual

Palabra “gratis” presente ↓ Mayor probabilidad de spam

🔄 Proceso de clasificación

🔹 Paso 1

Evaluar presencia/ausencia de características.


🔹 Paso 2

Calcular probabilidades por clase.


🔹 Paso 3

Elegir clase más probable.


📊 Ejemplo conceptual

Características binarias ↓ Probabilidades Bernoulli ↓ Posterior ↓ Predicción

🧠 Diferencia con Bayes multinomial

VarianteQué modela
Bernoullipresencia/ausencia
Multinomialfrecuencia/conteos

📊 Ejemplo conceptual

Bernoulli → aparece o no Multinomial → cuántas veces aparece

🧠 Uso en machine learning

Bayes ingenuo Bernoulli se usa en:

  • filtrado de spam
  • clasificación de documentos
  • detección de palabras clave
  • datos booleanos

📊 Ejemplo conceptual

Texto ↓ Palabras presentes ↓ Clasificación

🧠 Ventajas

  • muy rápido
  • simple
  • eficiente en texto corto
  • funciona bien con datos binarios

🧠 Desventajas

  • ignora frecuencia de palabras
  • independencia rara vez real
  • limitado para patrones complejos

🧠 Relación con NLP

Muy útil cuando interesa:

  • si una palabra aparece
  • no cuántas veces aparece

📊 Ejemplo conceptual

Palabra detectada ↓ Información suficiente

📊 Ejemplo en Python

from sklearn.naive_bayes import BernoulliNB
from sklearn.feature_extraction.text import CountVectorizer
texts = [
"oferta gratis",
"hola amigo",
"gratis ahora"
]
labels = [1, 0, 1]
vectorizer = CountVectorizer(binary=True)
X = vectorizer.fit_transform(texts)
model = BernoulliNB()
model.fit(X, labels)
test = vectorizer.transform(["gratis"])
print(model.predict(test))

Ejemplo conceptual simplificado

# presencia = 1
# ausencia = 0

🧠 Qué muestran estos ejemplos

  • clasificación probabilística
  • uso de variables binarias
  • independencia condicional

⚠️ Errores comunes

Usarlo con conteos grandes

Multinomial suele ser mejor.


Pensar que modela frecuencia

Solo presencia/ausencia.


Ignorar preprocesamiento binario

Es importante.


📊 Ejemplo conceptual en ML

Datos binarios ↓ Distribuciones Bernoulli ↓ Probabilidades ↓ Clase final

🧠 Interpretación profunda

Bayes ingenuo Bernoulli refleja un principio clave:

👉 A veces la mera presencia de una característica ya contiene suficiente información

Combina:

  • probabilidad
  • inferencia bayesiana
  • variables binarias

para construir clasificadores rápidos y eficientes.

Conclusión

Bayes ingenuo Bernoulli es una variante de Bayes ingenuo especializada en características binarias de presencia o ausencia.

👉 Sigue siendo un modelo importante en clasificación de texto y sistemas simples de NLP.


Related Concepts