Introducción
A medida que los sistemas de inteligencia artificial se vuelven más poderosos, surge la necesidad de garantizar que estos sistemas sean seguros, confiables y alineados con valores humanos.
La investigación en alineación de IA y seguridad de modelos busca reducir riesgos como sesgos, generación de contenido dañino o comportamientos inesperados.
En esta sección del lexicón exploramos conceptos clave relacionados con la seguridad, robustez y gobernanza de los sistemas de inteligencia artificial.
Conceptos en esta categoría
- AI Alignment
- RLHF
- Reward Models
- Safety Training
- Red Teaming en IA
- Robustness
- Adversarial Attacks
- Adversarial Training
- Bias en Modelos de IA
- Gobernanza de IA
Estos conceptos ayudan a comprender cómo desarrollar sistemas de IA responsables.