El concepto de "superalignment" en inteligencia artificial (IA) es bastante simple a primera vista: la "superalineación" se refiere a la idea de alinear sistemas de inteligencia artificial general (IAG) con los valores y objetivos humanos en un grado excepcionalmente alto.
Esto implica asegurar que los sistemas de IAG no solo entiendan y sigan instrucciones explícitas que le son dadas, sino que también tengan una comprensión profunda y matizada de los valores humanos, y puedan actuar de maneras que sean beneficiosas para la humanidad, incluso cuando eso no sea un objetivo explícitamente especificado.
Superalineación ¿matizada?
A veces, quizás por el momento en el que vivimos, creemos que todo es blanco y negro: pero la realidad es que nuestra realidad no es binaria, mucho menos simple de explicar y en general está cargada de:
- Contexto Variable: lo que se considera "bueno" o "correcto" puede depender de la situación, la cultura, las creencias personales y otros factores. Para que un sistema de IA actúe de manera alineada con los valores humanos en una variedad de contextos, debe tener una comprensión matizada para discernir la mejor acción en cada situación y contexto.
- Decisiones Éticas: muchas veces, las decisiones que involucran valores humanos son de naturaleza ética. Los sistemas de IA deben ser capaces de sopesar diferentes opciones éticas y tomar decisiones que sean coherentes con principios éticos ampliamente aceptados. Esto requiere una comprensión sofisticada de las implicaciones éticas de las acciones.
- Ambigüedad y Complejidad: esto genera que existan conflictos en decisiones, como equilibrar estos valores y objetivos o alinearlos a un "bien mayor", es una constante al momento de tomar decisiones.
Esa ambigüedad es la que nos fuerza a dos cosas: por un lado, a entender los matices constantemente; y, finalmente, entender que todos los valores y decisiones están en una adaptación constante a nuestros cambios
Dos ejemplos simples de superalignment:
El concepto es importante porque está presente en cada uno de los momentos donde hay decisiones en juego; estos son dos ejemplos simples:
- Colaboración entre Humanos y IA en el Cuidado de la Salud: un sistema de IA ayuda a los médicos tomando en cuenta el bienestar del paciente, su historia médica y consideraciones éticas, tomando decisiones alineadas con valores.
- Vehículos Autónomos y Seguridad: una IA superalineada en un vehículo autónomo prioriza la seguridad y consideraciones éticas, no solo las normas de tránsito... por eso sus decisiones minimizan el daño a los humanos en situaciones complejas.
Si les parece que esto no es hoy relevante, el caso de algunos algoritmos de monetización en aerolíneas son un claro ejemplo de esto:
Este es uno de los casos más recientes y, honestamente, de los más “inocentes”, cuando al identificar una familia viajando junta se les asigna asientos distantes para que, al querer viajar juntos, puedan cobrarles un extra.
La ética tecnológica debe ser una obligación (esto es de 2018)
¿Qué conceptos usamos para lograr esta superalineación?
Por ahora en general vemos que el concepto de Copiloto tiene más sentido que nunca, porque te da la recomendación pero NO toma la decisión, pero mientras tanto los modelos se entrenan con algunos conceptos como base:
- Aprendizaje de Valores y Modelado de Recompensas: esto es lo primero; si no entrenás los sistemas para aprender valores humanos y comprenderlos, estás jodido... y ahí entra en juego el modelado de recompensas.
- IA Interpretable: ahora, es clave entender qué hay del otro lado de una "caja negra"... entonces con sistemas transparentes podés interpretar y auditar la toma de decisiones.
- Marcos Éticos de IA: creación de marcos éticos para el desarrollo de IA que priorizan resultados éticos y alineados con los valores que se enseñan.
- Robustez y Pruebas Adversarias: probar los sistemas de IA en diversos escenarios para garantizar que tomen decisiones consistentes con los valores.
Tal vez una de las cosas más interesantes que hay en este campo es la "Investigación continua en Alineación", incluyendo métodos formales, teoría de juegos y optimización robusta para abordar los desafíos de la superalineación; porque esto es algo que es imposible de frenar y de una manera u otra hay que evitar tener que explicarle a Bender que los humanos somos una piedra en su camino 😜.