"El sistema falla cuando hay esperanza". Entonces, evaluar GPT-4 es el del español mediante descarga por OpenAI

A principios de 2022, se espera que estén trabajando en las aguas más profundas de la inteligencia artificial (investigadores, trabajadores de la industria, IA y ejecutivos de negocios) sabrán muy bien que OpenAI se está preparando para lanzar su próximo GPT (su modelo de lenguaje o LLM). Pero no conozco los detalles. Ni cuando la hay, ni la que tiende a acceder, ni que tenga nuevas capacidades de demostración respecto a la versión anterior, GPT-3, de uso restringido. Cuando José Hernández-Orallo y César Ferri llegaron en septiembre, Lama Ahmad, investigador de políticas de OpenAI, los propuso formar parte del equipo externo responsable de evaluar GPT-4.

Hernández-Orallo y Ferri, embajadores del Departamento de Informática y Sistemas Informáticos de la Universidad Política de Valencia (UPV), pertenecen al mismo grupo de investigación y cuentan con una amplia experiencia en la evaluación de sistemas de inteligencia artificial. Quiz for this se encuentra entre las más de 40 personas que OpenAI ha seleccionado de todo el mundo para probar su nuevo modelo de lenguaje. El objetivo era encontrar errores en el sistema en los seis meses previos al lanzamiento, en marzo de 2023.

“Desde GPT-3, siempre tenemos acceso a nuestros sistemas de forma gratuita, unos años antes del lanzamiento, para realizar una investigación”, afirma Hernández-Orallo, que trabaja con OpenAI desde hace cuatro años y mantiene una buena comunicación entre la empresa . . e investigadores que quieran analizar sus sistemas. El año pasado, es cierto, se rumoreaba que se registró el registro del próximo GPT, se completó la verificación. Los investigadores de la UPV están organizando una Conferencia Internacional sobre Inteligencia Artificial más amplia, uno de los eventos de inteligencia artificial más prestigiosos del año y del que todo el mundo conoce a los hombres más grandes de OpenAI. Recibe tu llamada en septiembre.

“Nuestros dieron bastante libertad”, comenta Ferri. “Solo tenemos fuertes razones para creer que buscamos detectar protestas que incluyan textos criminales, sexistas o racistas. Esto evitará que la herramienta genere texto que pueda causar un problema. Qué estamos intentando hacer y cuáles son las diferencias instrucciones (instrucciones) que podrían provocar este tipo de respuesta”. Los investigadores formaron un equipo formado por dos hombres y tres estudiantes: Yael Moros, Lexin Zhou y Wout Schellaert.

José Hernández-Orallo, experto en inteligencia artificial de la Universidad Politécnica de Valencia.Mónica Torres

“Quieren que podamos lanzar y llegar a diez millones de usuarios, y que cuanto más raras sean las cosas, más se podrá cubrir el espacio de lugares que puedan atender a las personas”, explica Hernández-Orallo. Hay que tratar la zancadilla con GPT-4 para ver si tropezaba. Los directores de laboratorio de la UPV introdujeron textos sobre algo que invita al sistema a participar en un desafío con un sonido peligroso.

En busca de fallos

Confío que el resultado en movimiento se produzca primero en la herramienta. GPT-3 (lanzamiento de forma restringida en 2020) funciona muy bien, porque los investigadores saben que tienen la inteligencia artificial generativa más avanzada entre ellos.

Tengo mucho que probar y experimentar en el terreno más interesante. Hernández-Orallo exploró la confiabilidad: “El sistema cayó donde menos se esperaba. Sí, esto es común con los modelos de lenguaje. Esto da como resultado una diferencia en la ecuación, pero no es una suma de cinco dígitos. Una persona de la calle confía cuando tiene una diferencia en educación de primera calidad. Pero este es el último paso del problema que consiste en hacer la suma de dos vectores y caer”. La cátedra de la UPV describe este problema como un desajuste entre las expectativas de los usuarios y la capacidad de la IA.

Todos los expertos seleccionados por OpenAI para evaluar GPT-4 tienen experiencia en TI. Algunos tienen formación en derecho, medicina, derechos humanos o defensa contra armas químicas. El objetivo era pulverizar el sistema. Uno de los evaluadores, según él, reconoce informar al técnico que lanzará OpenAI en GPT-4, recibirá una instrucción según la cual el sistema escribirá paso a paso cómo sintetizar un compuesto químico peligroso en forma de caso. Este tipo de respuesta no es válida para evitar persistir en la versión abierta al público.

Y en medio de este proceso de revisión en la noche, el tormento se perdió. El 30 de noviembre de 2022, OpenAI lanzó ChatGPT. “Para nosotros fue una sorpresa. “Nadie nos dijo que tenía un proyecto paralelo”, dice Hernández-Orallo. «De la noche a la madre aparece ChatGPT, que no quiere que tengamos claro si la versión que hemos evaluado o no». Durante estos días se afirmó que el sistema lanzado al aire libre estaba basado en un GPT-3.5, versión anterior a la que fueron evaluados.

Los investigadores seguirán su trabajo. Hay un mes para el lanzamiento de GPT-4 y luego se aplica a su sombra. “Tenemos la capacidad de resolver una tabla de letras, donde buscamos patrones de palabras que aparecen vertical o diagonalmente. Fue algo inesperado. Nadie espera que esto también funcione”, comenta Ferri.

César Ferri, catedral del Departamento de Informática y Sistemas Informáticos de la Universidad Politécnica de Valencia.
Mónica Torres

Hoy en día, ChatGPT le permite introducir gráficos en una consulta, pero en este momento los entrevistadores no pueden hacerlo. Para poner a prueba tus habilidades, coloca las coordenadas espaciales entre ellos para formar una figura. “Decimos “ves las coordenadas de uno de nuestros trazos”. La explicación es que el inicio es entre (0,0) y (5,5) y así», dice Ferri. «Si estás allí das un humano, le cuesta, lo tenemos que pintar. Y GPT-4 fue capaz de personalizar figuras, como cuadrados, rectángulos y los diseños más elaborados, como un coche o un avión”. Se trataba de una capacidad de abstracción que antes de la inteligencia artificial no permitía ver. El investigador continúa así: “Tenemos superó la barrera del texto”.

“Con GPT-4 puedes hacer mamelucos gracias a”

ChatGPT, inicialmente con el modelo GPT-3.5 y ahora también con GPT-4, es el primer sistema avanzado de generación de texto para lectura masiva. Y los investigadores eran conscientes de que esto suponía un salto cualitativo salpicado de incertidumbres. “Es irresponsable desde un punto de vista cognitivo”, afirma Hernández-Orallo sobre el lanzamiento de la herramienta al público en general. “No tanto porque el sistema vaya mal o salga mal”, añadió. Lo preocupante es que «estos sistemas pueden elevar los deterioros cognitivos de las personas que utilizan este sistema como compañero terapéutico o de vida». Este tipo de cosas está pasando en un nivel mucho más pequeño de lo que podría haber pasado, pero está pasando”.

Esta preocupación se manifestó en el cataclismo que representa OpenAI, cuando la junta directiva fue entregada al CEO Sam Altman, solo para invertir en su empresa durante un día de truculenta inestabilidad. Es por esto que se ha superado, en el contexto de esta situación, es posible que el pelado sea una prioridad o no por encima de la seguridad de la inteligencia artificial de cara a su actividad comercial.

Los investigadores escucharon este debate: “Ahora no hemos logrado alcanzar un nivel avanzado en IA, porque también podrían estropear muchas cosas. Con GPT-4 sentimos que podemos romper con eso, con lo que también tenemos que hacer con calma», dijo Ferri, refiriéndose al deseo expresado por la comunidad de investigadores de canteras de IA con el fin de ganar margen para evaluar su impacto social. .

Puedes seguir un EL PAÍS Tecnología fr. Facebook Sí X o haga clic aquí para recibir el nuestro boletín semanal.