FERNANDO
GALAZ —
BOOK
Cómo testear modelos de IA video con un TVC real antes de adoptarlos
← BLOG

Cómo testear modelos de IA video con un TVC real antes de adoptarlos

La brecha entre un demo y tu proyecto real es gigante. Acá te mostramos cómo validar Veo, Kling o Runway con un brief tuyo, medir usable-take rate y detectar dónde falla cada modelo.

Por qué el demo no es lo que funciona para tu proyecto

Te encuentras con un video generado por IA en la página de algún servicio de generación de imagen IA: se ve limpio, transiciones fluidas, iluminación consistente. Luego lo intentas con tu brief real y el resultado es un desastre. La diferencia no es magia, es que los demos están hechos con prompts optimizados, casos de uso ideales y probablemente post-procesamiento que no muestran.

Tu proyecto tiene restricciones reales: marca específica, paleta de color corporativo, movimientos de cámara definidos, talent u objetos que necesitan consistencia frame a frame. Eso hace que sea difícil conseguir el resultado que tiene el demo.

Ante esto hay dos caminos: adoptar la herramienta sin validarla (y descubrir el problema en medio del proyecto que estés realizando, con el costo y stress que conlleva), o testearla antes como corresponde. La segunda opción te ahorra presupuesto, evita sorpresas y te permite tomar una decisión informada sobre si esa IA te sirve en tu cadena de trabajo.

El método: tres prompts de tu briefing reciente

Toma el video de un proyecto que ya entregaste o para el que recibiste el brief en los últimos 30 días. No necesita ser complicado, elige algo que tenga:

  • Un elemento visual claro: producto con logo, rostro, landscape, movimiento de cámara específico.
  • Una restricción de marca: paleta de color, estilo visual, duración.
  • Un criterio de éxito: ¿qué tiene que pasar para que el resultado sea usable como primera versión o mockup?.

Ahora genera tres prompts a partir de ese brief:

Prompt 1: descriptivo limpio. Describe lo que que quieres ver sin pedir efectos. Ej: "Producto blanco sobre fondo gris, cámara dolly hacia la derecha, luz natural, 4 segundos."

Prompt 2: con restricción de estilo. Agrega limitaciones de tu marca. Ej: "Producto blanco sobre fondo gris, dolly derecha, luz natural, estilo minimalista corporativo, sin efectos visuales, 4 segundos."

Prompt 3: con movimiento específico. Detalla el movimiento como tal como lo necesits...o sueñas. Ej: "Producto blanco sobre fondo gris, cámara hace dolly hacia la derecha a velocidad constante mietras el zoom se va cerrando lentamente, luz natural desde arriba, sin movimiento del objeto, 4 segundos."

La idea es no traer prompts genéricos: son tuyos, basados en lo que realmente quieres entregar.

Testea en los tres modelos principales

Hoy el triángulo es Runway, Veo y Kling. En 6 meses habrá dos o tres más, pero el método sigue igual.

Genera los tres prompts en cada modelo. No hagas solo una generación, haz tres intentos en cada uno (la API te deja). Esto te da variabilidad real: no todos los renders de un mismo modelo son idénticos.

Guarda los resultados indicando la fecha y hora en que fueron realizados. Acá viene lo importante: no evalúes con el criterio "¿qué se ve mejor?" sino "¿cuánto trabajo me demanda?".

Mide "usable-take rate"

"Usable-take rate" es un concepto que viene del mundo de los intentos en set de filmación: de cada toma que haces, ¿cuántas son "buenas tomas" sin necesitar ajustarlas o corregirlas?. En IA es similar.

Para cada generación que obtengas, pregúntate:

  • ¿Entra directo a post, o necesita limpieza en VFX? (ruido, artefactos, detalles que no cierran).
  • ¿El movimiento es consistente, o hay frames donde el objeto "salta"?
  • ¿La paleta de color respeta la restricción, o hay cambios inesperados?
  • ¿El prompt se sostiene a lo largo de los 4 segundos, o se "desvía" en el medio?

Dale a cada uno una puntuación simple: Usable tal cual / Usable con retoque menor en post / No usable.

Contar cuántos outputs de cada modelo caen en "Usable" (ambas categorías) vs "No usable" es tu take rate. Si Veo te da 5 usables de 9 intentos (55%), Kling te da 6 de 9 (67%) y Runway te da 3 de 9 (33%), ya tienes datos.

Detecta dónde falla cada modelo

No todos fallan en el mismo lugar. Eso es lo valioso que descubrirás:

  • Veo mantiene coherencia en paleta pero a veces pierde movimiento de cámara fluido.
  • Kling sigue el prompt de movimiento bien pero genera luces inconsistentes.
  • Runway maneja logo/marca mejor pero necesita prompts muy precisos para no desviar.

Esta información, "Veo para este tipo de shot", "Kling para movimientos complejos", "Runway si la marca es es lo prioritario", es más valiosa que cualquier comparativa genérica. Es TU caso de uso, tu experiencia directa.

Aplica esto a tu cadena de trabajo

Una vez que tienes los datos, mapea dónde encaja cada modelo en tu flujo:

  • ¿Primera pasada / mockup? Usa el modelo que te da mayor take rate sin importar calidad final.
  • ¿Previsualización o animatic? Usa el que mejor mantiene el brief incluso si necesita limpieza.
  • ¿Entrega final o cercana a final? Posiblemente ninguno sin post-pro, pero al menos sabes cuál necesita menos VFX.

No es "elige uno y usa siempre". Es "este modelo para este trabajo, ese modelo para ese otro".

Si ninguno te da "take rate" aceptable, posiblemente esa tarea aún no está madura en IA. Quizá en dos meses sí. Por ahora, planifica tu proeyecto sin depender de IA para esa parte.

Qué probar después

Una vez que mapeaste dónde falla cada modelo con tu brief real, testea variantes del prompt. Pequeñas ediciones pueden mejorar el "take rate" dramáticamente:

  • Agregar "4K resolution" explícitamente.
  • Quitar adjetivos genéricos ("cinematic", "dynamic") que confunden más que ayudan.
  • Describir iluminación en lugar de dejar que el modelo adivine.
  • Usar duración en frames exacta en lugar de segundos vago.

La iteración rápida en test es barata. La iteración lenta en producción es cara.

¿TE INTERESA TRABAJAR JUNTOS?

Agenda una llamada de 20 minutos.