Una Cámara Artificial para documentar otras realidades
Las cámaras artificiales son una tecnología fascinante que permiten capturar otras realidades manteniendo un estilo visual. Son una herramienta muy compleja, mi intención en este artículo es describirlas y compartir su funcionamiento.
Una cámara artificial o cámara de inteligencia artificial no es más que un texto, es una parte del prompt que se utiliza para crear la imagen.
El prompt es el texto descriptivo que ordena a la inteligencia que es lo que debe hacer.
En concreto es la parte del prompt que marca el estilo fotográfico. Este texto, si esta bien definido, nos permite mantener una unidad artística en todas las imágenes que creemos, sin importar personajes, lugares o situaciones.
Esto es algo muy importante porque muchas veces para mantener un estilo visual se utilizan una serie de referencias muy limitadas como puede ser nombrar a un artista o una obra, por lo que las nuevas imágenes que creemos estarían limitas por la obra ya creada con la que se ha alimentado la inteligencia. Una cámara artificial nunca contiene el nombre de un autor o una obra. Más adelante desarrollaré esta parte.
Antes de continuar quiero dejar claro que todas las imágenes que aparecen en este artículo las he creado con una inteligencia artificial (text2image) de acceso público (no ha sido entrenada por mi) y ninguna de ellas ha pasado un proceso de edición o postproducción. No es mi intención comunicarlas como imágenes reales en ningún momento.
Hay muchos sistemas para crear imágenes con inteligencia artificial y existen diversidad de aplicaciones para ello. A día de hoy las más avanzadas en cuanto a la imagen fija se refiere son Midjourney, Dalle-2 y StableDiffusion.
Todas ellas tienen como objetivo crear imágenes a partir de un prompt (el texto descriptivo que ordena que es lo que se quiere generar). Por ejemplo, le podemos pedir que nos cree ‘un cerdo volando’. La IA buscará entre su base de datos imágenes de cerdos e imágenes objetos volando para después, en cuestión de 1–2 minutos, combinarlas y proyectar el resultado.
Además de crear imágenes desde texto, también se pueden crear utilizando un prompt acompañado de una imagen inicial que tomará de referencia. Este es un proceso muy interesante sobretodo a nivel comercial, ya que puedes incorporar productos reales en imágenes sintéticas. Aquí tenéis un ejemplo de una camisa real integrada en una imagen generada:
Como digo es algo super interesante pero en este artículo me quiero centrar en lo maravilloso que es crear imágenes solo desde texto y las muchas preguntas y posibilidades que abre esta nueva tecnología.
No pretendo responder a estas preguntas, sino explorar como una cámara artificial puede dar acceso lugares y personajes increíbles.
Aquí algunos ejemplos:
Todas estas imágenes las he creado a partir de texto. Sin ningún input visual, ni edición, postproducción o retoque de color posterior.
Seguramente haya muchas personas que piensen que eso no tiene valor, que cualquiera puede escribir un texto y por tanto cualquiera puede crear estas imágenes. Y es cierto, pero es igual de cierto que afirmar que cualquier persona por comprarse una cámara de fotos, o simplemente abrir su aplicación de cámara en el móvil, se convierte en fotógrafa.
Pienso que las buenas imágenes y fotografías surgen del trabajo, estudio, creatividad y la mirada.
Y es precisamente de esa obsesión por sacar una buena imagen que me aventuré al mundo de la inteligencia artificial. Buscando una herramienta que me permitiera producir cualquier imagen que imaginará de la forma más realista posible. ¡Imaginad las oportunidades que eso puede dar en un proceso de trabajo creativo!
Soy cineasta y me gano la vida como director de arte, podría decir que me dedico a crear realidades, escribir sus historias, diseñar sus lugares, sus ambientes, construir los personajes, establecer situaciones, definir que historia cuenta el color, las texturas, la iluminación, etc. Tener la capacidad de crear cualquier imagen sería como tener un superpoder.
Entre una infinidad de usos que se me ocurren, sería una herramienta ideal para comunicar proyectos que no existen, visualizar ideas que se están gestando, aportar visiones frescas durante lluvias de ideas o visualizar conceptos asentados.
Y es por todo esto que comencé la búsqueda del prompt perfecto, ese pequeño texto que me permitiera adquirir el superpoder.
Sin saberlo, había comenzado a diseñar una cámara, una cámara artificial. Y digo sin saberlo porque no fue algo buscado, yo buscaba crear una sola imagen y me encontré con un universo entero. Al principio describía texturas de imagen, encuadres e iluminaciones que me parecían interesantes, fue una vez empecé a detallar lo que buscaba utilizando el lenguaje de la imagen cuando conseguí dar con el estilo buscaba. Ese hiperrealismo que fuera capaz de engañar a mi ojo al tiempo que dirigía un mensaje y una mirada.
Lo genial vino cuando me di cuenta de que no había conseguido generar uno sola imagen, sino que podía manejar el prompt como si de una cámara real se tratara. Podia definir parámetros clave para la creación de una imagen como:
Encuadre
Lente
Profundidad de campo
Exposición
entre otros de muchos ajustes. Y además de ajustes de cámara puedo definir personajes, lugares, colores, vestuarios y todo lo que pueda imaginar.
He conseguido mi super poder.
Pero lo verdaderamente interesante es que, una vez tienes el prompt bien definido, todo lo que genera tiene un mismo estilo, como si de una cámara real se tratara. Yo a mi cámara la he bautizado como ‘fast_cam_12’ y es mi nueva herramienta favorita para crear imágenes sintéticas.
La ‘fast_cam_12’ es una herramienta que, sin necesidad de producción alguna, me permite crear imágenes hiperrealistas con solo describir el personaje, la acción y la localización. Siento como si pudiera moverme libremente por el mundo fotografiando todo aquello que quiera, solo tengo que imaginarlo y pedirle a la cámara que lo documente.
Esta no es más que la primera de muchas cámaras que diseñaré. Y lo genial es que cualquier persona puede crear su cámara, solo necesita tres ingredientes:
1 — Creatividad: crear imágenes sin entender qué es un proceso creativo solo llevará al fracaso.
2 — Trabajo: Es fundamental tener claro el camino. Hay que entender el lenguaje de la imagen y hablarlo para poder crear a partir de texto. Esto solo se consigue con análisis y estudio de la imagen sumado a muchas horas de ensayo, error y la eterna sensación de empezar de cero.
3 — Técnica: Soy director de cine, la narración a través de imágenes es mi pasión. Hay cientos de decisiones que definen una imagen: el casting, la acción, el gesto, los escenarios, las texturas, la óptica, la composición y encuadre, una profundidad de campo, etc. todas estas decisiones son las que se encargan de que la imagen comuniqué el mensaje (o la historia) que queremos contar. Personalmente aplico todo esté conocimiento técnico y narrativo en mi fast_cam_12, aproximadamente un 80–90% del texto que forma el prompt esta compuesto por información relacionada con el lenguaje de la imagen.
Como decía al principio del artículo es importante aclarar que jamás utilizo el nombre de un autor o su obra para definir una cámara, esto solo limitaría su potencial. Pondré un ejemplo:
Los últimos días se ha hecho viral un trailer que dice ser ‘Star Wars dirigida por Wes Anderson’. El trailer se ha producido con inteligencia artificial recreando una serie de imágenes que unen los dos universos. Lo podéis ver aquí.
Aun estando muy lejos a lo que Wes Anderson podría hacer con la saga, tiene muchos componentes que nos recuerdan a su cine. Desconozco cual es el prompt que ha creado estas imágenes pero os propongo hacer el ejercicio de pensar como podríamos crear una cámara ‘Wes Anderson’. Existen dos caminos para crearla:
- Camino A: Añadir al prompt la frase: ‘con estilo de Wes Anderson’. Esto buscaría en la base de datos de películas de Wes Anderson (Otro día habría que hablar de si está bien o no que se entrene a estas IA sin tener los derechos de explotación) y las utilizaría para crear nuevas imágenes en base a ellas, utilizando sus colores y sus elementos. Pero tendría problemas en crear algo nuevo, porque la IA no tiene una consciencia o entendimiento del contenido de las imágenes que crea (sirva como ejemplo METARAVE23, un proyecto que debería estar prohibido por las propias normas del algoritmo). Este camino tiene muy buenos resultados en cuanto a tiempo se refiere, en cuestión de minutos tendríamos imágenes impresionantes y que sin duda nos recordarían al cineasta. Pero todas ellas estarían basadas en lo ya creado, nos sería complicado romper la relación entre la imagen generada y las películas que ha utilizado de referencia, haciendo así imágenes muy estáticas sobre las que no tenemos control para cambiar algo que no nos cuadrase. Esto no sería una cámara artificial, simplemente sería un estilizador de imágenes.
- Camino B: Este es el camino que me parece más interesante y que considero que abre una nueva era en lo que a la imagen se refiere. Este camino consiste en pensar que pondría Wes Anderson en el prompt si él mismo estuviera creando su propia cámara, la fast_cam_Wes_Anderson. Para crear esta cámara Anderson proyectaría todo su conocimiento del cine y su mirada, desde la definición de sus encuadres de composiciones simétricas, pasando por su trabajo del arte y de las texturas, su uso de la profundidad de campo, del color hasta llegar a definir el lenguaje corporal de los personajes. Definiría absolutamente todo, de la misma forma que lo hace cuado dirige una película. Y lo más importante es que no pondría ‘Wes Anderson Style’ porqué al alimentar con toda esa información sobre cine, añadir ‘Wes Anderson Style’ no sería más que un limitante para crear nuevas imágenes, nuevos personajes, nuevas localizaciones o cualquier elemento que quisiera que no tuviera una referencia en su cine pasado. Así, Wes Anderson, podría crear una cámara con la navegar una realidad repleta de historias que esperan a ser fotografiadas por él. Y esta si sería la cámara artificial de Wes Anderson.
He hecho un ejercicio rápido introduciendo algunas características estereotípicas del cine de Wes Anderson para ejemplificar a lo que me refiero. Aquí os dejo algunos ejemplos de imágenes creadas con el estilo ‘Wes Anderson’ sin nombrarle ni a el a ninguna de sus películas en el prompt.
Estoy seguro que afinando durante más tiempo se podría ajustar para que las imágenes fueran todavía más cercanas al cine de Wes Anderson sin necesidad de estar limitadas por este. Pero de lo que no tengo ninguna duda, es de que el único que puede hacer la cámara artificial ‘fast_cam_Wes_Anderson’ es el propio cineasta.
El proceso con el que yo he creado mi cámara es exactamente ese. Para diseñarla lo primero que he hecho es entender que imágenes me definen, cual es el universo que quiero documentar y retratar. Cual es el estilo visual que me permite contar las historias desde donde las quiero contar.
Una vez lo tenía claro he hecho un estudio minucioso de las imágenes que me gustan, imágenes, películas, ilustraciones y fotografías con las que me identifico y he buscado en ellas que es lo que las caracteriza, que elementos fotográficos tienen en común. También he definido un diseño de producción del universo en el que introducir a los personajes. Puedo afirmar que he creado una realidad, una realidad que navego y documento con mi fast_cam_12 contando historias desde desde la mirada que las quiero contar.
Siento estas imágenes como propias.
Como imaginaréis las posibilidades son literalmente infinitas.
Puedo seguir a personajes, descubrir sus espacios, sus hábitos, sus costumbres, verles en buenos y malos momentos, puedo moverme por ese mundo y fotografiar todo aquello que le interesa; solo tengo que imaginar, escribir y esperar.
El algoritmo lo único que hace es juntar un pixel con el siguiente para terminar formando una imagen que no entiende mientras yo disfruto imaginando que quizás estoy presenciando otra realidad, un pasado, un presente o un futuro. Porque al combinar los pixeles la IA es capaz de crear cualquier imagen y si pensamos que una imagen FullHD tiene más de dos millones de pixeles, las posibles combinaciones son infinitas y solo por probabilidad puede que alguna sea real. ¿no?
Por eso gusta pensar en estas inteligencias como ‘portales a posibles realidades’, siendo mi fast_cam_12 la mirilla por la que puedo acceder a una de ellas.
Una vez encuentras tu cámara es difícil apartar la mirada de la mirilla, no dejas de descubrir espacios y personajes o de buscarlos.
Yo mismo me ha buscado en esa realidad, y aunque aun no me encontrado si que he encontrado a un amigo, un reflejo de alguien que quizás me este dibujando a mi.