Google lanza Gemini, un modelo de inteligencia artificial capaz de superar a los humanos en la comprensión del lenguaje multiárea

La carrera de inteligencia artificial (IA) se convierte en una prueba de velocidad. Gracias a los avances de ChatGPT, que va por sus cuatro versiones, y a los sucesivos anuncios de las grandes multinacionales de sus propios sistemas, Google ha respondido a estos problemas con el lanzamiento de Gemini, una plataforma de inteligencia artificial multimodal capaz de procesar y generar texto. , código, imágenes, audio y vídeo de fuentes de datos independientes. La versión Ultra, «disponible a principios del próximo año», dijo Eli Collins, vicepresidente de producto de Google DeepMind, es excelente para los humanos en la comprensión masiva del lenguaje multitarea (MMLUpor sus siglas en inglés), un referente de evaluación creado a partir de 57 materias de ciencias, tecnología, ingeniería, matemáticas (STEM), humanidades y ciencias sociales.

“Géminis es nuestro mayor y mejor modelo de IA”, asegura Collins, quien explica que se “inspira en la forma en que las personas rodean e interactúan con el mundo”. «Lo vemos más como un colaborador útil y menos como una pieza inteligente de programación», afirma.

Durante la presentación, Géminis logró identificar una forma geométrica, analizar la redacción para definir su área y descubrir un error en el asunto para el proponente y explicar un resultado certificado del problema. De esta forma es posible obtener resultados a partir de datos de imágenes, texto alfanumérico y voz. También ha identificado diferentes formas y diseños, algunos procedentes de puntos dispersos, y propone el uso de las figuras u objetos presentados o la elaboración de un informe a partir de propuestas alternativas o gráficos actualizados con la información proporcionada por la plataforma limpia.

Según el vicepresidente de DeepMind, obtuvo una puntuación de más del 90% en MMLU, el sistema de evaluación de comprensión de idiomas multitarea. «Este es el primer modelo de IA que supera a los expertos humanos en este punto de referencia estándar de la industria», afirma. Gemini también aprobó (59,4%) el examen de “comprensión de tareas multimodales que incluyen requisitos que requieren razonamiento deliberado”.

Gemini no es una aplicación de la plataforma para utilizar este último modelo de inteligencia artificial para los servicios existentes, desde Bard, el competidor de chat de Google hasta ChatGPT, pasando por el buscador de gestores de servicios o móviles con Android o centros de datos. una gran subida.

Para ello, están disponibles tres “tamaños” de Gemini: el Nano, que pueden utilizar los desarrolladores de Android; el Pro, que estará disponible a partir del 13 de diciembre, y el Ultra, que podrá implementarse a partir de principios de año en una fecha concreta. Los desarrolladores y clientes comerciales pueden acceder a Pro a través de la API Gemini en Google AI Studio o Vertex AI. Gracias a AICore, los desarrolladores de Android también pueden crear aplicaciones con Nano.

Bardo

Sissie Hsiao, responsable de Asistentes y Bardo anunció que Gemini se incorporaría a este último chat en inglés para 180 países y poco a poco se iría ampliando al resto de idiomas, pero también admitió que tendería a confirmar que su proyecto es compatible con El nuevo estándar europeo. sobre inteligencia artificial, que incluye estas plataformas de diálogo entre sus proyectos ajustables. Y con su inclusión en Bard, se expandirá a todas las aplicaciones compatibles.

El proceso será en dos fases: primera utilización una versión Pro, que hará un balance de “las habilidades más avanzadas de razonamiento, planificación, comprensión y otras capacidades”, según Hsiao; y el segundo, los principios del próximo año, con lo mejor que culminará con la adopción de la versión Ultra.

Gemini nació como multimodal, es decir, no se ocupó de diferentes modalidades de datos y unificó las diferentes capacidades, porque su programación es parte de la diversidad de fuentes. Según Collins, «esto ayuda a Gemini a comprender todos los problemas de entrada mucho más grandes que los modelos existentes y sus capacidades de última generación».

También es posible programar programas complejos. Con esto en mente, Amin Vahdat, vicepresidente de Google Cloud, dijo: “En el futuro, veremos a los programadores utilizar modelos de IA de alta capacidad como herramientas colaborativas que ayudan a realizar todo el proceso de desarrollo de softwaredesde el motivo de los problemas hasta el soporte de implementación, la representación y las capacidades”.

Cuando se trata de seguridad, Google dice que Gemini es superior a «las revisiones más completas de cualquier modelo hasta la fecha». La empresa asegura que tiene algo en la plataforma para todos riesgos existentes y potenciales y que mantenga un examen continuo que incluya “pruebas de estrés”. También se aplica principios de la IA de la propia empresa, la cual establece los estándares éticos de sus desarrollos.

Sopesen sus avances, Géminis no es infalible, según reconocen sus líderes. Admitir que habrá errores y equivocaciones (responsables de fallos de seguridad no justificados por datos). «Han progresado mucho y Gemini es nuestro mejor modelo a seguir en ese sentido, pero hoy nos dijeron que tienen un problema de investigación sin resolver», admite Collins.

Puedes seguir un EL PAÍS Tecnología fr. Facebook Sí X o haga clic aquí para recibir el nuestro boletín semanal.