OpenAI con Sora, una revolucionaria herramienta de vídeo con inteligencia artificial

Si bien no ha ido más allá de la fascinación por ChatGPT y los modelos de lenguaje generativo de IA, OpenAI pudo mostrar una herramienta de creación de videos revolucionaria y reveladora llamada Sora. Con él, hay una descripción de lo que quieres ver en pantalla y está el clip, creado por inteligencia artificial. Algunos son más famosos que otros, y algunos son de ese estilo de videojuego que marca la diferencia con la realidad, pero todos son fascinantes.

El director general de OpenAI, Sam Altman, hizo el anuncio del lanzamiento. en el rojo social, que se inunda de nuevas creaciones desde hace un tiempo. Vídeos realistas, futuristas, personalizados, dibujos animados… Los vídeos incluyen todo tipo de creaciones automáticas creadas con inteligencia artificial generativa. Por tanto, es capaz de producir vídeos privados de una sola vez o ampliar los vídeos generados para hacerlos más anchos.

en las pruebas publicado por altman y su compañía incluso tiene escenas completas con múltiples personajes, tipos específicos de movimiento y detalles precisos del tema y el fondo. El modelo no sólo entiende que el usuario realizó la solicitud, sino que también hay cosas en el mundo físico, según OpenAI. El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar señales con precisión y generar personajes convincentes que expresan emociones vibrantes, explica la empresa.

“Aquí está Sora, nuestro modelo de generación de vídeos”, Altman escribió. “A menudo tenemos acceso a un número limitado de creadores”, añadió, antes de seguir sus sugerencias para la creación de nuevos vídeos, así como los eventos que ha ofrecido en su página web.

Las instrucciones pueden ser más o menos detalladas. Uno de los ejemplos propuestos por OpenAI responde a la siguiente descripción: “Una mujer elegante en una calle de Tokio, llena de gente brillante y con sentimiento urbano. Llevaba una chaqueta de cuero negra, un gran vestido rojo, botas negras y un bolso negro. Lleva gafas de sol y pintalabios rojos. Camino con seguridad y amortización. La calle está mojada y reflectante, lo que crea un efecto especial de luces de colores. Muchas peatones pasanan”. Y el resultado es fascinante. (arriba).

Otro mensaje: «Tráiler de una película sobre las aventuras de un hombre en un espacio de 30 años que trae un casco de moto de lana point rojo, cielo azul, desierto de sal, estilo cinematográfico, montado en una película de 35 mm, colores vivos». (abajo).

Además, puedes generar un video solo a partir de las instrucciones de texto, la plantilla es capaz de crear una imagen existente y generar un video a partir de ella, animando el contenido de la imagen con precisión y atención a los pequeños detalles. La plantilla también puede agregar un video existente y amplificar o mostrar fotos que fallan.

Podrás consultar contenido, estilo y todo tipo de indicaciones. Altman ha publicado nuevos vídeos solicitados por los tuiteros, probablemente los resultados sean inmediatos. También podemos crear múltiples personajes dentro del mismo video generado manteniendo la precisión de los personajes y el estilo visual.

«Enseñamos a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de aprender modelos que ayuden a las personas a resolver problemas que requieren interacción con el mundo real». explica OpenAI para presentar la nueva herramienta de conversión de texto a vídeo. “Es posible generar vídeos de hasta un minuto de duración para mantener la calidad visual y la fidelidad a las instrucciones del usuario”, añade.

En ese momento, la herramienta podrá estar disponible para llamadas equipadas con botones rojos. Los miembros de estos equipos trabajan en un producto o servicio, traspasando los límites, poniéndolos a prueba y enfrentando sus caídas como los enemigos de la empresa. Aquí tiene la misión específica de evaluar áreas críticas en busca de peligros o riesgos potenciales. Entre ellos se encuentran expertos en los campos de la desinformación, contenidos que incitan al mal olor y a la parcialidad.

Open AI también está en proceso de acceder a una variedad de artistas visuales, diseñadores y cineastas para que su opinión sobre cómo mejorar el modelo sea más útil para los profesionales creativos.

«Comparamos el progreso de nuestra investigación con la ayuda de trabajar con personas ajenas en OpenAI y recibir nuestros comentarios, así como dar al público una idea de las capacidades de la IA que son visibles en el horizonte», explica el compañía .

Defectos a pulverizar

La propia compañía de IA reconoce que Sora todavía tiene algunos fallos muy evidentes. Quizás el sujeto esté simulando con precisión la física de una escena completa y no exista un caso concreto de causa y efecto. Pone como ejemplo que una persona puede pasar de un mordisco a una galleta, pero después de la galleta no puede ostentar la marca del mordisco.

El modelo también puede confundir detalles del espacio de una indicación, por ejemplo, confundiendo identidad y ley, y puede tener problemas con descripciones precisas de hechos que se encuentran en el sentido amplio del tiempo, como sigue una trayectoria de cámara específica.

Antes de poner a disposición herramientas públicas, OpenAI promete tomar ciertas precauciones. Entre ellos encontrarás las indicaciones para el equipamiento rojo. Además, ha creado herramientas para ayudar a detectar contenido interesante, con detectores que pueden detectar videos generados por Sora. También ha desarrollado potentes clasificadores de imágenes que sirven para revisar las fotografías de todos los vídeos generados y garantizar que cumplen sus políticas de uso antes de mostrárselas al usuario.

Además, reutilice los métodos de seguridad creados para sus productos que utilizan DALL-E 3. Por ejemplo, el clasificador de texto examinará y solicitará solicitudes de entrada de texto que violen la política de uso, como aquellas que solicitan violencia extrema y contenida. imágenes sexuales, imágenes que inciten al odio, imágenes de personajes famosos o propiedad intelectual de terceros.

“Estamos intercambiando ideas con formuladores de políticas, educadores y artistas de todo el mundo para escuchar nuestras inquietudes e identificar casos de uso positivos para esta nueva tecnología. A pesar de las numerosas encuestas y ensayos realizados, no podemos preferir todas las formas que sean beneficiosas para las personas que utilizan nuestra tecnología, ni todas las formas que abusan de ella. Por tanto, estamos convencidos de que aprender a utilizarlo en el mundo real es un componente fundamental para crear y lanzar sistemas de IA cada vez más seguros”, concluye OpenAI.

Puedes seguir un EL PAÍS Tecnología fr. Facebook Sí X o haga clic aquí para recibir el nuestro boletín semanal.