Un equipo de expertos en tecnología emitió el lunes un llamado global en busca de las preguntas más difíciles de plantear a los sistemas de inteligencia artificial, que cada vez más han manejado pruebas de referencia populares como si fueran un juego de niños.
Apodado “El último examen de la humanidad, se abre en una nueva pestaña”, el proyecto busca determinar cuándo ha llegado la IA de nivel experto. Su objetivo es seguir siendo relevante incluso a medida que las capacidades avancen en los próximos años, según los organizadores, una organización sin fines de lucro llamada Centro para la Seguridad de la IA (CAIS) y la startup Scale AI.
El llamado se produce días después de que el fabricante de ChatGPT presentará un avance de un nuevo modelo, conocido como OpenAI o1, que “destruyó los puntos de referencia de razonamiento más populares”, dijo Dan Hendrycks, director ejecutivo de CAIS y asesor de la startup xAI de Elon Musk.
Hendrycks fue coautor de dos artículos de 2021 que propusieron pruebas de sistemas de IA que ahora se usan ampliamente, uno de los cuales los interrogaba sobre el conocimiento a nivel de pregrado de temas como la historia de EE. UU., y el otro sondeaba la capacidad de los modelos para razonar a través de las matemáticas a nivel de competencia. La prueba de estilo universitario tiene más descargas del centro de IA en línea Hugging Face que cualquier conjunto de datos de este tipo
En el momento de esos documentos, la IA daba respuestas casi aleatorias a las preguntas de los exámenes. “Ahora están aplastados”, dijo Hendrycks a Reuters.
Por ejemplo, los modelos de Claude del laboratorio de IA Anthropic han pasado de obtener una puntuación de alrededor del 77% en la prueba de nivel universitario en 2023, a casi el 89% un año después, según un destacado Tabla de clasificación de capacidades, se abre en una nueva pestaña.
Como resultado, estos puntos de referencia comunes tienen menos significado.
¿De qué tratará el examen?
La IA parece haber obtenido una mala puntuación en las pruebas menos utilizadas que implican la formulación de planes y acertijos de reconocimiento de patrones visuales, según el Informe del Índice de IA de la Universidad de Stanford de abril. OpenAI o1 obtuvo alrededor del 21% en una versión de la prueba ARC-AGI de reconocimiento de patrones, por ejemplo, dijeron el viernes los organizadores de ARC.
Algunos investigadores de IA argumentan que resultados como este muestran que la planificación y el razonamiento abstracto son mejores medidas de la inteligencia, aunque Hendrycks dijo que el aspecto visual de ARC lo hace menos adecuado para evaluar modelos de lenguaje. “El último examen de la humanidad” requerirá un razonamiento abstracto, dijo.
Las respuestas de puntos de referencia comunes también pueden haber terminado en datos utilizados para entrenar sistemas de IA, dijeron observadores de la industria. Hendrycks dijo que algunas preguntas de “El último examen de la humanidad” permanecerán en privado para asegurarse de que las respuestas de los sistemas de IA no sean de memorización.
El examen incluirá al menos 1.000 preguntas que vencen el 1 de noviembre y que son difíciles de responder para los no expertos. Estos se someterán a una revisión por pares, y las presentaciones ganadoras recibirán coautoría y premios de hasta $5,000 patrocinados por Scale AI.
“Necesitamos desesperadamente pruebas más duras para que los modelos de nivel experto midan el rápido progreso de la IA”, dijo Alexandr Wang, CEO de Scale.
Una restricción: los organizadores no quieren preguntas sobre las armas, que algunos dicen que serían demasiado peligrosas para que la IA las estudie.
(milenio.com)