Seguridad y Alineación de IA

Introducción

A medida que los sistemas de inteligencia artificial se vuelven más poderosos, surge la necesidad de garantizar que estos sistemas sean seguros, confiables y alineados con valores humanos.

La investigación en alineación de IA y seguridad de modelos busca reducir riesgos como sesgos, generación de contenido dañino o comportamientos inesperados.

En esta sección del lexicón exploramos conceptos clave relacionados con la seguridad, robustez y gobernanza de los sistemas de inteligencia artificial.

Conceptos en esta categoría

  • AI Alignment
  • RLHF
  • Reward Models
  • Safety Training
  • Red Teaming en IA
  • Robustness
  • Adversarial Attacks
  • Adversarial Training
  • Bias en Modelos de IA
  • Gobernanza de IA

Estos conceptos ayudan a comprender cómo desarrollar sistemas de IA responsables.