Meta AI revoluciona la creación de vídeos con voz

La evolución de los sistemas de generación audiovisual con inteligencia artificial avanza a un ritmo tan rápido que, en ocasiones, cuesta seguirle el pulso. Durante meses, muchas personas han recurrido a herramientas como Grok para producir vídeos con voz integrada, gracias a la flexibilidad de su plan gratuito y a que los resultados eran razonablemente buenos para un entorno no profesional. Sin embargo, Meta llevaba tiempo quedándose atrás en este ámbito concreto, a pesar de disponer de uno de los modelos de generación de imágenes más potentes del mercado.

Con la incorporación de la sincronización labial y la integración de voces seleccionables directamente desde la aplicación móvil, Meta ha cambiado de estrategia y ha decidido posicionarse de nuevo en la competición.

El punto de partida: imágenes de alta calidad como base del vídeo

El proceso que propone Meta sigue una estructura relativamente lógica: antes de generar un vídeo con voz es necesario crear una imagen base de alta calidad. La calidad de partida es esencial porque el sistema precisa una referencia visual sólida para inferir el movimiento de labios y la adaptación de la voz.

En este primer paso, el usuario debe introducir un prompt con la descripción de la escena. Un ejemplo típico podría ser algo como “soldado romano en el interior de un metro moderno”, añadiendo detalles técnicos sobre iluminación, tipo de plano, cámara simulada o estilo fotográfico. Meta permite ajustar parámetros como proporción, estilización, variación y rareza. El nivel de estilización, por ejemplo, modifica el equilibrio entre realismo fotográfico y acabado artístico, mientras que la variación introduce cambios entre imágenes generadas para evitar repeticiones casi idénticas.

La calidad visual del modelo de Meta sigue llamando la atención. Se nota el uso de un motor basado en tecnologías derivadas de modelos avanzados de imagen y, aunque no siempre acierta con los objetos específicos solicitados (como eliminar un casco o mantenerlo), los resultados suelen tener una nitidez difícil de igualar.

Una limitación temporal: la función solo existe en la versión móvil

Un aspecto técnico llamativo es que Meta ha decidido limitar temporalmente la creación de vídeos con voz a la versión móvil de su aplicación. De momento no está disponible en la versión web, y aunque pueda parecer un detalle menor, tiene implicaciones directas en el flujo de trabajo de los creadores de contenido.

La aplicación móvil permite acceder a una sección de contenido multimedia donde se recuperan las imágenes generadas previamente en la web. Esto facilita mantener una coherencia entre el trabajo realizado en escritorio y el móvil, pero obliga a saltar entre dispositivos, algo que muchos profesionales podrían encontrar incómodo. En cualquier caso, es probable que esta función termine implementándose en la versión web en poco tiempo.

Sincronización labial: cómo funciona y qué limitaciones tiene

La pieza clave de esta actualización es la sincronización labial. Cuando el usuario selecciona una imagen y activa la opción de sincronización, la aplicación ofrece dos formas de generar el audio: música o texto. En el caso de música, se presentan pistas con derechos protegidos, lo que impide utilizarlas en plataformas como YouTube por cuestiones legales. Así que, por ahora, lo más práctico es trabajar únicamente con texto.

Una vez introducido el texto, el sistema genera una locución de voz. En el estado actual, solo existen dos voces disponibles en español: una femenina y una masculina. A diferencia de Grok —que genera voces diferentes en cada vídeo— aquí se puede mantener una voz consistente, lo que facilita la creación de series de vídeos o personajes persistentes.

El proceso completo consta de dos fases: primero se sintetiza el audio y luego se ejecuta la sincronización labial, que consiste en ajustar de forma automática la apertura y cierre de la boca y otros pequeños gestos.

Sorprende que este proceso sea tan rápido, apenas unos segundos, aunque la velocidad no siempre va acompañada de una precisión absoluta. En imágenes realistas, los resultados suelen ser bastante aceptables. En imágenes con varios personajes, la IA puede cometer errores como asignar movimiento de labios a personajes de fondo. Y en ilustraciones o estilos artísticos, la sincronización pierde precisión y las pronunciaciones pueden resultar menos naturales.

Duración limitada y uso realista de la herramienta

Una de las limitaciones más notorias es la duración máxima de cada clip: solo nueve segundos de voz. Esto condiciona el tipo de vídeo que se puede producir: muy breve, pensado casi más para redes sociales o demos rápidas que para proyectos largos. Este límite probablemente responde a restricciones de capacidad computacional o a que la herramienta todavía está en fase inicial.

Aun así, esos nueve segundos permiten crear clips muy útiles para presentaciones, contenido corto o vídeos promocionales. Y aunque parece poco tiempo, se pueden encadenar varios clips o utilizar técnicas para alargar la duración mediante edición externa. Para usuarios con conocimientos técnicos, esto no es un problema serio.

Coherencia vocal: una ventaja inesperada frente a Grok

Un punto donde Meta supera a Grok es la consistencia de voz. Al poder seleccionar la voz antes de generar cada vídeo, es posible mantener la identidad sonora de un personaje a lo largo de múltiples producciones. Esto es esencial si se quiere crear contenido narrativo, educativo o personajes recurrentes sin inconsistencias.

Grok, por su parte, genera voces más variadas pero menos controlables. Así que dependiendo del uso, la propuesta de Meta puede resultar más útil incluso si dispone de menos opciones por ahora.

El comportamiento con ilustraciones y estilos no realistas

Uno de los aspectos más interesantes de este sistema es observar cómo se comporta con imágenes no fotográficas. Cuando se solicita una transformación de la imagen original hacia un estilo ilustrado, la IA debe interpretar trazos, sombreados y proporciones menos realistas. En este tipo de escenas, la sincronización labial se vuelve menos precisa y algunas palabras pueden provocar errores en la pronunciación. Esto es normal, porque el modelo está claramente optimizado para rostros realistas.

Pese a ello, los resultados siguen siendo sorprendentemente funcionales para proyectos donde la perfección no sea crítica. En el futuro, si Meta amplía estos modelos, quizá llegue a sincronizar incluso estilos más cercanos a la animación tradicional.

La nueva función de Meta representa un avance importante en la automatización de contenidos audiovisuales. Aunque todavía existen limitaciones de duración, voces disponibles y precisión en algunos estilos gráficos, el potencial es enorme. Para creadores, técnicos o personas que necesitan producir vídeos breves con una voz coherente y un acabado visual cuidado, esta herramienta tiene mucho sentido.

El hecho de que sea gratuita y relativamente rápida la convierte en una opción que probablemente se integrará en el flujo de trabajo de muchos profesionales. Meta demuestra que puede competir con Grok, Sora o VEO3, y que no piensa quedarse atrás en la carrera de la generación audiovisual con IA.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.