
La imagen incompleta
Claudia Cisneros y Ricardo Sisnett
2024
Introducción
Hace un par de años abrimos esta conversación sobre una posible intersección entre arte y programación desde nuestras disciplinas e intereses personales. Mientras establecíamos las bases para tal diálogo, rastreamos su origen a 2011, en Pasadena California, recorriendo las salas del Museo Norton Simon, puntualmente frente a la pintura de Rembrandt «Retrato de un niño», 1633 (Imagen 1) de la cual nos llamó la atención su extraña composición cromática y el hecho de que se tratara de un trabajo no terminado. Esto nos permitió ver algunos trazos de la base, que normalmente no serían perceptibles, así como la precisión con la que el pintor construía la imagen en múltiples capas calibrando cada tono y pincelada. Acercamos una mano y marcamos con el dedo, como si fuera un pincel, la sombra inferior del labio. Una sombra hecha con pigmento que, de lejos, se veía negra y, de cerca, púrpura. Al entrar a una sala de un museo, por la distancia con la que vemos las imágenes, nuestro cerebro hace un escaneo general y sucede un ejercicio de pareidolia, es decir, tratamos de encontrar formas reconocibles a los patrones nuevos. Nuestros cerebros acordaron que, en este caso, ese conjunto de manchas de miles de tonos tenía la forma de un niño.
La pintura es una disciplina que tiene fama de subjetiva. Es cierto que, para muchos, es un misterio. Sin embargo, para quien la practica, el proceso de crear una imagen es una serie de pasos lógicos que se organiza también como un código. Retomando el ejemplo del cuadro de Rembrandt, por tratarse de una pieza incompleta, pudimos acceder visualmente a las distintas capas o pasos en un proceso de construcción que se quedó congelado y entreabierto en el tiempo, frente a nuestros ojos. Hay dos maneras de decodificar o dos lecturas de la imagen. Puedes leerla como «la forma de un niño»; o puedes hacerlo como la «serie de acciones que generaron la imagen de un niño».
Esa misma tarde, tras la visita al museo, hablamos de ese tono púrpura recalibrándose, una y otra vez, en nuestros cerebros; de teoría del color y de los talleres de pintura flamenca y barroca. Hemos regresado muchas veces a ese momento, cuando ambos miramos la misma cosa y descubrimos que, por nuestras disciplinas, uno veía algo que el otro no.
En 2022, volvimos al tema casualmente. Esta vez, frente a una imagen generada con inteligencia artificial. Jugamos con un generador de imágenes en un celular e hicimos varias pruebas. Únicamente guardamos la generada al teclear en un programa la combinación «mariachi burka» (Imagen 2):
<<mariachi burka>>
ENTER
En ese momento, los papeles se invirtieron. La imagen que apareció nos fue comprensible a ambos en su visualidad, pero desconocida en su manufactura. Se trataba de una imagen digital, que aunque aparecía como “terminada”, sus características visuales eran poco claras, con bordes borrosos y distintos fondos mezclados torpemente entre sí. La imagen resultaba un misterio para quien no programa o estudia programación. De igual manera que en la pintura de Rembrandt, los datos que conformaron la imagen de «Mariachi burka», por tratarse justamente de una figura humana, nos daban una sensación de familiaridad, de creer saber lo que estábamos viendo. Sin embargo, costaba percibir los elementos que la subyacen, que en el caso de esta imagen digital son su código numérico, así como en la pintura son los cientos de tonos de pigmento por separado. Pero, en todo caso, nuestros ojos captaron la información de ambas imágenes como «superficie visual», en los dos casos, de cuerpos.
Más adelante, pensamos en la similitud de la imagen generada artificialmente con algunas obras del pintor Francis Bacon, y en el funcionamiento de generadores de imágenes como Dall-E Mini (ahora, denominado Craiyon).
Imágenes 1 y 2: «Retrato de un niño» y «Mariachi burka». Fuentes: Norton Simon Museum, https://www.nortonsimon.org/art/detail/F.1965.2.P y Craiyon.
A partir de entonces, hemos notado que cada vez que nos encontramos en el mismo tiempo y espacio, aparece una imagen incompleta, que evidencia que el conocimiento y las limitaciones de nuestros respectivos bagajes (artístico, informático), forman la lente parcial con que filtramos la realidad. La imposibilidad de percibir completamente una imagen es el detonador para la escritura de este texto, que ha pasado por un proceso de mediación interdisciplinar, lo que plantea un reto no solamente al sentido común de cada uno de nosotros, sino también es un desafío metodológico, pues, incluso, las técnicas de escritura habituales de uno pueden no funcionar para la otra y viceversa. El conocimiento de la contraparte nos resulta parcial por falta de lenguaje en común. La imposibilidad de describir completamente una imagen en el lenguaje técnico de otra disciplina requiere de un trabajo de traducción. Uno está acostumbrado a la escritura de código, que tiene como lector a una computadora, que funciona a base de órdenes; la otra a la escritura lírica dirigida a lectores humanos, que se alimentan de un pensamiento abstracto.
Este texto es nuestro primer intento por «completar la imagen» y reúne algunas de las hipótesis y preguntas abiertas que se han generado en nuestras conversaciones desde 2011.
La revisión de una misma imagen, por ejemplo, desde dos áreas distintas de conocimiento nos ayuda a comunicar a los lectores como, al mirar en conjunto, uno ve lo que el otro ignora. Tras el reconocimiento de la propia ignorancia, nos precipitamos a preguntar, escuchar y aprender de lo que el otro es capaz de ver, traducir y compartir de vuelta. Es el otro quien nos revela ese hueco: Lo que hasta ese momento no sabíamos que no sabíamos.
Horror Vacui: Lo que no sabemos que no sabemos
El no saber se presenta como el mayor de los problemas. Y es por que en el fondo muchas veces asociamos el saber con el ser. Y el miedo a no saber con el de desaparecer. El saber como “materia” y el no saber como “vacío”.
Generalmente el conocimiento se mide por la capacidad de entender algo lo suficientemente bien como para poder identificar los elementos que lo conforman y así poder repetir ese conocimiento delineándolo del resto de la información. Sabemos que sabemos algo porque sabemos que ese “algo” es eso y no todo lo demás. De esta manera el saber y el no saber están ligados por que son contrapartes. El conocimiento se delinea por negación. El ser humano promedio siempre preferirá quedarse en la zona de lo que conoce y lo que sabe, auto afirmando así su propia existencia, pero lo que no sabemos que no sabemos es en proporción al conocimiento acumulado por un cerebro humano, infinito.
Los humanos contemporáneos no tenemos una respuesta o actitud clara frente al vacío de significado o al hueco en la materia. Tememos tanto al hueco epistemológico como al hueco físico. El Alzheimer no es otra cosa que el encogimiento o pérdida de tejido que abre agujeros tanto en el cerebro como en las fibras de la memoria. Lo mismo pasa con la relación entre el hueco físico y simbólico en las personas que han sufrido una amputación y sufren del síndrome del miembro fantasma, su cerebro se niega a aceptar la pérdida de la parte, provocando en ocasiones dolores de tal intensidad que los pacientes deben ser sedados. El hueco no es solo físico y el dolor no lo produce el cuerpo si no la mente. La tripofobia, por ejemplo, es una condición diagnosticada con mayor frecuencia en los últimos años que consiste en una fuerte aversión, ansiedad, asco y una incomodidad intensa a cúmulos de pequeños agujeros en una superficie, como colmenas, cortezas, semillas de flor de loto etc. La fobia representa un troceamiento repetitivo a gran escala, por lo general, sobre materia orgánica. Ha sido asociada a la dermatopatofobia, o miedo a las enfermedades de la piel, en específico a patrones de infecciones, erupciones o lesiones cutáneas organizadas en un patrón repetitivo agrupado en un cuerpo al que presuponemos firmeza y unicidad. Pensemos por ejemplo en cualquier herida –– un balazo o un corte con un cuchillo nos induce a un estado de shock inmediato –– y permanecemos en estado de alerta, por que sentimos que se ha perforado, desgarrado el límite del contenedor de vida y esa abertura nos muestra el otro lado de algo que no se supone que deberíamos ver, y gracias a la adrenalina que dispara el instinto milenario que nos dice que una herida está directamente relacionada con una posible muerte no nos detenemos hasta que esa herida sea cerrada y cicatrice por completo. Si un día encontramos en la mañana un “hueco” o una serie de huecos en nuestro cuerpo, entramos en pánico e iremos con un médico. Ya que la falta o pérdida de tejido, indica por lo general la presencia de algún virus, enfermedad degenerativa o lesión causada por accidentes. En cualquiera de los casos, entendemos el cuerpo incompleto como un mal síntoma.
El vacío que subyace a las laceraciones, desapariciones del tejido o de miembros completos, produce una animadversión general a un hueco único que, potencialmente, puede extenderse hasta terminar con nosotros o posibilitar la entrada de algo que termine con nuestra vida. Aunque percibamos muchos huecos pequeños, físicos o mentales esos huecos asustan porque son los síntomas de un hueco mayor. El otro lado de lo que percibimos como realidad material. Ese otro lado que se encuentra constantemente abriendo miles de agujeros microscópicos o monumentales que desintegran la pantalla celular del mundo, eso es lo que nos aterra, la posibilidad de que lo incorpóreo del vacío, sea también un cuerpo con innegable realidad, tan innegable como la muerte misma, un cuerpo que se testifica en la desintegración. Nos referiremos a este cuerpo vacío subyacente a toda la materia como «hueco canónico».
La fobia al hueco canónico, a la pérdida significativa, si no es que total de la materia, se conecta con los temores más primarios que experimentamos como humanidad desde el inicio de los tiempos, un miedo profundo a que lo que existe, desaparezca. Manifestaciones del hueco canónico son; la oscuridad, los agujeros negros en el espacio, el olvido, la muerte. La desaparición, la consumación de la nada sobre nuestra frágil existencia. Ese fenómeno calibra nuestros temores en todos los niveles.
Y así como los huecos tienen una contraparte en lo social, por ejemplo, los millones de cuerpos de personas desaparecidas, cuyos vacíos abren huecos físicos y de significado que laceran la metáfora del «tejido social», sin que podamos detener este proceso. También creemos que tienen una contraparte en lo simbólico, en el mundo de las imágenes. Creemos que esto no es solamente un aspecto psicológico. Sino que se ha permeado en la lógica y mecánica al momento de producir imágenes.
Haría falta otro ensayo para determinar qué es lo que se entiende por materia en los mundos virtuales, pero aquí solo diremos que la materia explícita de la que está hecha una imagen también está implícitamente ligada al vacío. Y se puede recorrer esta escala hasta sus extremos. Por un lado, en el cine gore y de cierta manera el periodismo de shock, es el exceso de detalle en dicha imagen, lo explícito de la representación, lo que invoca en nosotros reacciones viscerales y primales.
En el otro extremo, en el género de terror cósmico materialista siguiendo la tradición del escritor H.P. Lovecraft, la ausencia de detalles en la imagen suele ser lo más aterrador. Es en el rellenar esos espacios vacíos con nuestras peores suposiciones que se disparan nuestros miedos más primigenios, proyectándose en lo que es un lienzo en blanco aquello que, por así decirlo, es el terror de los terrores, lo que no podemos verbalizar o concebir concretamente, el horror al vacío.
En cualquiera de estos casos, uno podría preguntarse, ¿qué nos lleva a consumir estas imágenes que, de manera explícita o implícita, nos muestran aquello que tememos? Puede que el miedo a no saber sea mayor, y nos lleva a consumir representaciones explícitas de aquello que nos aterroriza. O, quizás, la posibilidad de delimitar el problema consuela, puede que, instintivamente, busquemos información e imágenes de los peores males del mundo con la esperanza de que el estar informados nos permita detener esos males, o estar protegidos de ellos en el futuro, sentimos que es siempre mejor saber que no saber, por qué nos da la sensación de estar preparados. Nos genera la ilusión de llenar el hueco, cerrar el hoyo o suturar la herida.
Una vez que miramos por entre las aberturas y contemplamos lo desconocido, no es común que alguien siga el camino hasta la desintegración del límite para confrontar al hueco canónico, lo que es común es la ansiedad y el vértigo, dar marcha atrás y hacer lo que se tenga que hacer para asirse a la materia, a la reafirmación acogedora de la delimitación por negación. ¡De lo que creemos saber que sabemos!
El territorio en disputa es la imaginación personal y el imaginario colectivo. Ahí se libran las batallas simbólicas, de la saturación, manipulación y sesgo de los contenidos de información visual a gran escala, en donde se promedia la experiencia de los espectadores visuales y se reduce a estadísticas para generar áreas de confort de las que nadie pueda ni quiera salir. Y nada calma como una imagen, nada reitera de forma tan inmediata el saber que el ver, por eso se puede engañar fácilmente con las imágenes, se puede hacer creer a alguien que sabe lo que cree estar viendo cuando en realidad no lo sabe.
El tiempo de producción de la imagen se reduce de la pintura a la fotografía, a la televisión, a los foros de internet, a las redes sociales y a los generadores de imágenes con inteligencia artificial (IA). Hace mucho que dejamos de ser capaces de procesar la manufactura y distribución de una imagen en tiempo real; somos físicamente incapaces de procesar la sobrecarga informática, y, ahora, hemos encontrado nuevos modos para que la máquina continúe esta labor por nosotros, incapaces de afrontar el horror vacui¹ de no tener ningún tipo de información a la que asirnos, para comprender este incomprensible mundo. Podríamos decir que, a mayor vacío existencial, mayor compulsión por llenarlo; es decir, mayor producción de imágenes.
Partir de la imagen incompleta, es decir del intento por comprender tanto los trozos de información que sí tenemos, como los que no, es al menos, el comienzo de un giro en la percepción, el de estar listos para afrontar juntos lo que no sabemos que no sabemos.
Midjourney (I): Breve historia de la representación de una manzana
Conceptualismo y fotografía como bases para los modelos de difusión
El término «representación» en el contexto del arte, está asociado a la construcción de imágenes. Marcas hechas con el cuerpo, dibujo, pintura, gráfica, fotografía, cine, hipertexto, animación digital y generadores de imagen con IA son herramientas para manufacturar imagen y nos hablan de la misteriosa necesidad humana de conocer los elementos de la realidad tridimensional repitiéndolos en un plano bidimensional.
Representar es volver a presentar algo, volver a hacerlo. ¿Por qué no sólo ver y saborear una manzana? ¿Por qué necesitamos repetir, además, esa forma en un dibujo? Como hemos dicho antes, quizás la imagen nos ayuda a comprender la realidad. Al fin y al cabo, si queremos replicar la forma de una manzana hay que observar y comprender su estructura y significado. Además, la imagen tiene la capacidad de cargar con el poder de aquello que representa y de esta manera se pueden enseñar y transportar ideas y conceptos. Una buena imagen funciona como un condensador de conocimientos y un buen artista visual puede lograr transmitir sentimientos e ideas complejas de forma primaria y clara. Al contrario, las imágenes mal ejecutadas, con estructuras confusas, o de tipo propagandístico son muy útiles para cargar, transportar y diseminar confusión o ignorancia de forma efectiva. No es casualidad que en la actualidad vivamos bajo el régimen de la imagen: Quienes controlan las maquinarias de la representación son muy conscientes de su historia y del poder que tiene para afectar la realidad al moldear la percepción del mundo.
Para comprender cómo se crean estas nuevas imágenes de la IA, nos ayudaría repasar brevemente el arte conceptual de los años sesenta del siglo XX. Desde los fundamentos teóricos y artísticos de este movimiento, lo más importante en una pieza de arte no era ni su materia ni su manufactura, si no el concepto o la idea que la origina y sostiene. ¿No es esta forma de generar arte un predecesor de los modelos de generación de imágenes a base de inputs o prompts² lingüísticos, como Midjourney?
El «concepto» plantea un vínculo entre el lenguaje y la imagen y el «arte conceptual» estudia estos dos elementos ligados a la materia al momento de hacer una obra de arte. En «Aire de París» (1919), un ready made³ dadaísta de Marcel Duchamp, el valor no está en el pequeño contenedor de cristal que se sella en la ciudad de París y se transporta a América para exhibirlo como regalo para su principal coleccionista, sino en la idea y el conocimiento del contexto en que se nos presenta. El aire encapsulado es, simplemente, aire. El posesivo «de París» puede dejar de serlo técnicamente cuando está en otro país, pero, materialmente, es el mismo aire que en el país donde se exhiba. Todavía no hay cómo poner límites geográficos al aire, ni una forma de saber si el aire analizado o encapsulado es de tal o cual país, mucho menos la había en 1919. Es la idea, el valor simbólico, lo que constituye al original.
En esta línea, los artistas conceptuales de los 60’s, pintores, escultores, coreógrafos, poetas y músicos, se valieron de otro material invisible para articular sus piezas: El lenguaje. La mayoría consideraban el lenguaje crucial para un nuevo tipo de «representación», plasmada en la manufactura y la distribución de sus piezas. El peso del lenguaje se vuelve concluyente en esta corriente, al ser la manera más efectiva para transmitir ideas y forjar conceptos.
Cuando al conceptualismo de corte minimalista que optaba por las ideas abstractas, la poesía de la acción, el uso de materiales mínimos o incorpóreos, o el retorcer, incluso, algo tan invisible como el lenguaje, se le suman factores tecnológicos como la reproducción industrial en serie, económicos como el auge del capitalismo o mercadotécnicos, como los lenguajes publicitarios a partir de mediados del siglo pasado, surge el arte pop. EUA, uno de los imperios hegemónicos, fue el principal promotor y explotador de esta poética serializada del ready made. Al producir miles de originales o nombrar cualquier objeto del supermercado como «original»; al erradicar, incluso, la idea de originalidad, se disminuye, nuevamente, el valor manual del objeto, a la par que se incrementa el valor simbólico. Dicho valor simbólico acaba subordinado al económico, aunque este hecho difumina la cuestión clave: lo difícil de cuantificar la capacidad de transformar el significado de un objeto encontrado dependiendo del contexto en el que se muestre.
Así como el conceptualismo nos hizo visible casi a modo didáctico el vínculo que existe entre el lenguaje y la imagen dentro de la obra de arte⁴, la fotografía por otro lado se encargó de acelerar exponencialmente la producción y distribución de imágenes. Y ambas herramientas sientan las bases analógicas para que, años después, se puedan construir digitalmente modelos de generación de imágenes con IA.
Desde el siglo XIX, la fotografía logró transferir la realidad a una imagen a través de una maquinaria de revelado a base de luz y químicos. La destreza estaba en el manejo y acceso a esta nueva tecnología, que, a finales de ese siglo se logró animar para generar imágenes en movimiento. Cine y fotografía requerían de presupuesto para conseguir el equipo, para registrar y revelar. Con el invento de las cámaras digitales en el último cuarto del siglo XX, comienza una gran traducción de medios, de luz/químicos/celuloide a luz/sensores/píxeles. Al revelado en cuarto oscuro lo reemplazó el nuevo mecanismo capaz de fijar luz en un formato digital, con base en una tabla de valores cromáticos.
La velocidad con la que la fotografía capta y representa la realidad, así como los avances en la tecnología que permiten que las cámaras disminuyan sus costos, hasta llegar a los teléfonos celulares de finales del siglo pasado, han incrementado la producción de imágenes a volúmenes casi inimaginables, por ejemplo, cada día más de 350 millones de fotos son subidas a Facebook. Así mismo, entrando al siglo XXI, la popularidad de la computadora personal y las primeras consolas dieron paso a nuevos medios, en donde las historias se podían consumir de manera no lineal (historias en hipertexto), o de manera interactiva (videojuegos). Entre los noventas del siglo pasado y la primera década de este, el internet penetró, básicamente, en todos los ámbitos de nuestras vidas, profesionales y personales. Sería inimaginable que esto no afectase a la manufactura de imagen y a nuestros hábitos de consumo. Con el internet vinieron, también, formatos digitales para representar imágenes (PNG, JPG, GIF), así como conceptos técnicos como «píxel», que hoy en día ya es parte de nuestro lenguaje. A su vez, las imágenes adquieren nuevas funciones. A veces, son hipervínculos; otras, completan o sustituyen al vocablo, como los emoticones. Y otras veces, como con el «arte ASCII»⁵ el texto se hace un medio para conformar una imagen. Con el arte ascii las letras y los dígitos juegan un papel como de pigmento y conforman una pintura final, completando la pareidolia.
En este marco, uno de los cambios de paradigma en el internet fue el movimiento hacia la web personalizada, la coloquialmente llamada Web 2.0, que generó que, potencialmente, cada individuo pudiera generar su propio contenido audiovisual. Particularmente de interés en estos datos, es que contienen una matriz de relaciones entre imagen y lenguaje. Es decir, en redes sociales como Facebook o Instagram, las imágenes de perros suelen ir acompañadas de comentarios o hashtags que refieren a perros, como #dogsOfInstagram. La existencia de esta inmensa matriz de relaciones y correlaciones entre textos e imágenes es uno de los principales ingredientes que catalizan el nacimiento de los sistemas generativos de imágenes.
La reciente explosión en popularidad y capacidades de los sistemas generativos de imágenes, video y texto han traído una nueva revolución de la inteligencia artificial. Esta nueva ola, que se perfila como un disruptor en todos los ámbitos de nuestras vidas, personales y profesionales, está empoderada principalmente por una idea relativamente vieja, la de red neuronal. Inicialmente concebida en los años ochenta del siglo XX, y bien recibida en sus orígenes — incluso llegando a aplicarse en algunos espacios —, no fue hasta la década del 2010 que, impulsada por los avances en hardware computacional y la disponibilidad de toneladas de datos curados y categorizados, se dio paso a los sistemas de generación de imágenes... Como Midjourney.
Corpus: Imagen y texto
Los sistemas generativos de imágenes con IA como Midjourney son herramientas de representación de imágenes que funcionan con una base lingüística. Existen múltiples herramientas similares con distintos costos, niveles de transparencia y apertura, pero, para la mayoría de ejemplos de este capítulo utilizaremos Midjourney. En cualquier caso, lo concluido debería aplicar para el resto de herramientas parecidas.
Midjourney basa su tecnología en una idea relativamente reciente, nacida en la Universidad de Stanford, el «modelo de difusión» (Diffusion Model). Un modelo de difusión — también denominados «modelos probabilísticos de difusión» — es una red neuronal entrenada para relacionar texto con imagen. Tal entrenamiento comienza por tomar millones de imágenes de una base de datos y agregar «ruido» paulatinamente, esto es, se escogen aleatoriamente un porcentaje de los píxeles de la imagen y se les asigna un color también escogido al azar. Cada vez que se agrega ruido, la red neuronal tiene la tarea de reconstruir la imagen original. Si la reconstrucción es incorrecta, la red neuronal hace ajustes automáticamente e intenta de nuevo. Este proceso se repite, una y otra vez, en paralelo, en cientos de computadoras, hasta que la reconstrucción es, en todas las instancias, perfecta. Para que nos hagamos una idea de escala y tiempo que toman estos entrenamientos, el modelo Dall-E 2 tomó dos cientas mil horas de cómputo, en cientos de tarjetas gráficas — con un costo estimado de 400,000-500,000 dólares — y su total de parámetros, es decir, los números individuales que conforman la red neuronal, es de 3,5 mil millones.
Se podría decir, de manera un poco burda, que un diffusion model es el equivalente al motor de combustión interna que trajo la revolución del automóvil. Es una idea novedosa que nace de los centros de investigación y universidades. Mientras que Midjourney es análogo a la línea de producción de Ford. Es decir, Midjourney es un modelo de difusión llevado a una producción masiva, hecho producto y empaquetado. Para generar una imagen, múltiples aplicaciones están involucradas. Por ejemplo, en el caso específico de Midjourney hay un bot (una aplicación automática que realiza, sobre todo, tareas repetitivas) en línea que se encarga de recibir las peticiones de los usuarios para generar la imagen y les informa del estatus de dicha petición. Tras bambalinas, el texto de la petición del usuario es pasada por otra aplicación, que toma dicho texto y lo convierte en algo que el generador de imágenes puede entender; algo así como un «traductor». Posteriormente, el generador de imágenes — que es donde el modelo de difusión habita —toma esa traducción y la transforma en la imagen final. Por lo menos otra docena de aplicaciones y microservicios están involucrados (bases de datos, cálculo de costos, verificadores de identidad), pero a efectos explicativos los estamos dejando de lado.
Es importante, cuando se discuten este tipo de sistemas y modelos, adentrarnos en una de las piezas más importantes de su entrenamiento: Los datos que se utilizan en el mismo. Para un sistema como Midjourney, tales datos son, principalmente, imágenes obtenidas del internet, así como descripciones de dichas imágenes. Formalmente, a este cúmulo de imágenes y sus respectivas etiquetas, se les conoce como corpus.
Si en el corpus de entrenamiento hay una imagen de una manzana roja sobre un fondo blanco, esa imagen tendrá una «etiqueta» que dice «manzana roja, sobre un fondo blanco». En términos mundanos, todo el proceso de entrenamiento de estos sistemas culmina en una serie de correlaciones entre imágenes y palabras. Después de analizar millones de imágenes con la etiqueta «manzana», Midjourney aprende las múltiples maneras en que una manzana puede ser representada, y a partir de ese aprendizaje podrá generar nuevas representaciones, variaciones y remixes de ese concepto que se etiquetó como «manzana».
En el proceso descrito es igual de importante el concepto de «manzana» como todo lo que no es una manzana. En el contraste de la información de lo que es con lo que no es, el proceso va generando los bordes borrosos de la forma, determinando entre esos tonos y colores cuales podrían pertenecer a una manzana y cuales no. De ahí, perfecciona usando las miles de imágenes de manzanas que existen en su base de datos, para ir refinando los detalles, hasta llegar al nivel alto de realismo de una manzana reconocible (Imagen 3).
Midjourney entiende que, para cada palabra, hay características; cada vez que alguien menciona «manzana», sabe que hay algo que es rojo o verde, o en cierta paleta de colores, que es relativamente redondo y tiene cierta escala. A su vez, el programa entiende de escalas relativas, por lo que si queremos una imagen de una persona y una manzana es poco probable que en la imagen que nos devuelva la manzana vaya a ser más grande que la persona, a consecuencia de las escalas de las imágenes que ha visto previamente. Y este proceso de ajuste de color, volumen y escala no sería posible sin la correlación que existe entre cada fotografía y su etiqueta o equivalente lingüístico.
Imagen 3: << manzana roja >> ENTER. Fuente: Midjourney.
Es importante adentrarnos en el proceso de generación y curación de dichas etiquetas. Hay personas que son empleadas, usualmente en países en desarrollo y por salarios paupérrimos, para revisar imágenes y etiquetar cuales son los dos o tres elementos más prominentes en cada imagen:
<<elefante, silla, árbol>>
ENTER
<<manzana, roja, mesa>>
ENTER
Cientos, miles, millones de veces.
De igual forma, todos nosotros hemos participado en este proceso al interactuar con los famosos CAPTCHAs⁶. Cuando seleccionamos todas las fotos que tienen un semáforo, estamos etiquetando esas imágenes. Y de igual manera, aseguramos al sistema que las que no tienen semáforo, no reciban esa etiqueta. Para tener certeza de que las etiquetas son correctas, el proceso se repite múltiples veces. Hay que mostrarlo a miles de personas para concluir que si, digamos, el 99% de las personas afirman que en esta foto hay un semáforo, probablemente hay un semáforo. Es entonces cuando se etiqueta como tal y se ingresa al sistema. Cloudfare, una de las empresas más importantes en infraestructura de internet, estima que cada día a nivel mundial aproximadamente «quinientos años humanos» son invertidos en resolver CAPTCHAs (Meunier, 2012). ¿Quién tiene derecho a esas horas de trabajo? Si estas etiquetas han sido utilizadas para entrenar modelos de difusión que ahora están generando ganancias financieras, ¿no hay un derecho a esas ganancias por parte de aquellos que proveyeron el labor de etiquetado?
Midjourney usa un modelo independiente y no ha publicado cuál es la totalidad de su corpus. Pero sabemos que en la trastienda de todos estos procesos existen discos duros con imágenes y etiquetas. ¿De dónde provienen las imágenes? ¿Quién las etiquetó? ¿Cómo se les pagó a quienes las etiquetaron? La respuesta es: Información privada de la compañía.
Midjourney (II): La caja semántica
<<Un cubo blanco enfrente de una pared negra>>
ENTER
Al introducir este input encontramos otro tipo de reflexiones. En primera instancia, «cubo blanco» es un concepto más abstracto que «manzana». El hecho de que Midjourney pueda generarlo implica que hay conceptos de geometría en el corpus.
Por otro lado, cuando usamos en lugar de ese input, un poema abstracto, no pudimos obtener una imagen clara. Lo que nos reveló que no existe alguien describiendo una escena de esa manera entre lírica y abstracción; no hay, por así decirlo, forma de atarlo a nada específico. El resultado fueron imágenes borrosas que tienen que ver con los límites del lenguaje del corpus. Todas las piezas que articulan Midjourney dependen de la labor humana, que describe las escenas o ilustraciones que existen en la base de datos. Si el «etiquetador promedio», es decir la gente que está viendo estas imágenes y asignándoles etiquetas, no puede articularlo, o no puede describirlo, no existe en el cerebro de Midjourney. Y este proceso por practicidad puede conducir a descripciones inmediatas y simplistas.
Quizás, a corto plazo, las consecuencias sean mínimas. No lo sabemos. Pero, ¿qué sucederá una o dos generaciones después? Si una de las principales maneras de interactuar con la imagen son estos sistemas de generación por IA, ¿qué ideas y conceptos visuales estamos perdiendo, al subordinar la imagen al lenguaje de esta manera tan general y automatizada?
Por ejemplo, retomando el concepto de «cubo blanco», que además de ser tal, recordamos, que también es un término que se usa para referirse a salas de galerías y museos de arte. En imagen 4, vemos en la primera imagen una parrilla o rack de iluminación. A la vez, los pisos de todas las imágenes de cubos que componen imagen 4 remiten también a este tipo de espacios museísticos. Si nos fijamos, vemos la duela, el cemento pulido, el material anti reflejante. En la última imagen, aunque el cubo es negro técnicamente, ¡está dentro de un cubo blanco, que es el espacio de exhibición! Este resultado tiene que ver con que, aunque nosotros solo escribimos el input «Un cubo blanco enfrente de una pared negra» a los espacios formales en donde se exhibe arte se les conoce como «cubos blancos». Y en la comunidad escénica, el término «caja negra» se refiere a un teatro. Del conjunto de imágenes sobre cubos, encontramos o un cubo blanco dentro de una caja negra o una caja negra dentro de un cubo blanco.
Dentro de este entrenamiento de la máquina llevado a cabo por miles de trabajadores conectando palabras e imágenes, el tipo de imagen que haría que alguien la etiquetara con la descripción «Un cubo blanco enfrente de una pared negra» provendría, seguramente, del medio del arte, de alguna descripción de escultura, de alguna exposición de arte abstracto o de un libro de arquitectura. Tal vez de algún texto de teatro o de teoría de artes escénicas, etcétera. En cualquier caso, nos hacemos una idea de cómo el campo semántico termina siendo una jaula semántica.
Imagen 4: <<cubo blanco >> ENTER. Fuente: Midjourney.
El proceso que genera la imagen final del «cubo blanco» comienza y es definido por la información que ha sido creada, curada y categorizada por humanos. En este sentido los famosos hashtags o etiquetas en redes sociales son una excelente manera con la que seguramente se construyen, porque la gente está etiquetando a cada segundo y de manera conectada, poniendo exactamente qué es una imagen para ellos. La combinación de velocidad, simultaneidad y acumulación con que esto sucede crea correlaciones de todo tipo en Midjourney, incluso absurdas. Puede que muchas fotos en galerías sean etiquetadas con el hashtag #whitecube. Y en este caso, no todas las personas saben de este término fuera del medio artístico… Pero, por el proceso descrito, ya existe una correlación dentro del sistema entre «cubo blanco» y los espacios artísticos.
En este ejemplo hay dos conceptos que no deberían de estar conectados, pero el sistema los unió serendipitamente (como un descubrimiento casual, usualmente cuando se está buscando otra cosa). Por un lado, el sistema no está analizando el input literalmente, sino con base en conceptos preexistentes, que no se están ligando por diseño, si no en algo así como el subconsciente de Midjourney⁷ . De tal manera que cuando pidas un input, la herramienta te dará otra cosa — por las asociaciones y traducciones explicadas —, y, probablemente, quien mire la imagen que resulte tomará esa imagen como cierta, como que eso es lo que es. Ya que estamos programados para cuestionar lo que sabemos, pero no para cuestionar lo que no sabemos qué no sabemos. Por extensión, esto también sirve para cuestionar al sistema en su totalidad, porque no sabemos lo que la máquina no sabe. Y si estiramos las preguntas filosóficamente, podemos cuestionarnos sobre qué efectos tendrá este tipo de correlaciones en nuestro conocimiento, qué conceptos irán cambiando y cómo, qué palabras se perderán completamente. En síntesis, ¿qué pasará con lo que no sea inscrito dentro de la máquina? O, de manera análoga, ¿qué pasará cuando estas correlaciones artificiales sobrepasen la realidad? Si bien esto podría sonar como ciencia ficción, ya existen múltiples casos donde búsquedas en Google terminan regresando imágenes generadas por IA en lugar de las piezas o fotografías originales. Por ejemplo, cuando a la famosa fotografía de «Hombre frente al tanque» de la masacre de la plaza china de Tiananmén la sustituye una selfie generada artificialmente. De igual manera, la búsqueda «Johannes Vermeer» da como resultado, en lugar de la pieza original de «La joven de la perla» (también conocida como «Muchacha con turbante»), una imagen generada por IA.
Planteado de otro modo, un cubo blanco sobre un fondo negro podría remitir a geometría básica, arte abstracto o ejercicios de fundamentos de arte. Sin embargo, nuestra capacidad de imaginar en distintas direcciones se pierde al obtener una imagen realista y situada gracias a este amarre de conceptos que hace el generador. El «cubo blanco» se convierte, en las tres primeras imágenes de páginas más arriba, en una escultura de un cubo blanco; mientras, en la cuarta imagen, nos aparece en una galería de arte. Por su parte, «enfrente de una pared negra» se convierte, en las tres primeras imágenes, en una galería de arte o un espacio escénico por el concepto «caja negra»; pero, en la cuarta imagen vemos una escultura de un cubo negro o «caja negra» dentro de un «cubo blanco» metafórico.
A lo largo de un año, hemos realizado experimentos con Midjourney. La herramienta tiene puntos ciegos, por ejemplo, sobre conceptos de arte; aún más trabajando con abstracciones, más allá de la geometría primaria. Por ejemplo, al introducir en la «versión 3» de Midjourney poesía o códigos de computadora, obtuvimos espacios liminales, vacíos, inquietantes, preambulares, personajes de espaldas, elementos borrosos, o los números y las palabras del input flotando en el espacio... Como si la máquina no pudiera atrapar los conceptos ni perfilar de modo realista las ideas. ¿Significa eso que existe un límite tecnológico en la capacidad para representar de estos sistemas o esto se resolvería con muchas personas catalogando bases de datos de historia del arte, poesía o matemáticas?
Al probar la «versión 4» de Midjourney, notamos que logró atar este tipo de conceptos más complejos a una imagen figurativa realista. La máquina lo hizo agregando mucho detalle a algo, de por sí, difícil de detallar; llevó casi cualquier texto hacia la estética de la ilustración y animación. Por ejemplo, en el caso de la poesía, aparecieron personajes con estética de cuento. En el caso de conceptos de arte, se crearon imágenes de espacios arquitectónicos o pinturas famosas. Mientras, en el caso del código, se generaron imágenes literales e hiperrealistas de los mismos números y símbolos del código.
Podemos concluir que en cada actualización del modelo vemos una serie de conceptos dispares atados caprichosamente, que se presentan como hechos, así como una tendencia fuerte hacia el realismo, los lenguajes de la ilustración, de videojuegos o el anime. Esto nos revela algo sobre el corpus y el tipo de imágenes que se están priorizando, por sobre otras, y cómo esto está ligado a la capacidad descriptiva de quien cataloga y la base de imágenes que recibe. No existen muchas imágenes en internet sobre poesía o código. Y las imágenes de obras de arte quedan dependientes de cómo se les describa por personas que probablemente no tienen conocimiento o interés en el tema. Como lo mencionamos previamente, la gente que está catalogando estas imágenes suele provenir de espacios económicos no-privilegiados, y eso, desafortunadamente, está ligado a un privilegio cultural / educativo bajo. Si esto alimenta a la herramienta más disruptiva en el arte en los últimos cincuenta años, los efectos en el mismo son enormes. No es una crítica a la gente haciendo el catálogo, si no al sistema explotando a estas personas y no haciendo una curación responsable debido al costo.
En nuestros primeros experimentos, trabajando con Midjourney (versión 3), metimos abstracción y obtuvimos abstracción; en las últimas versiones, metimos abstracción y obtuvimos imágenes literales con estéticas realistas, pero no acertadas. ¿Qué imágenes entran en los corpus, quien lo decide y con qué propósito?
Uno de los problemas de estos generadores y su forma de representar es que consumen todo en dos dimensiones, y cuando están formando la imagen aplanan las perspectivas. Aunque pueden ir aprendiendo de profundidad, todo tiene la impresión de ser plano por que su visión no está entrenada en el mundo 3D, si no que proviene completamente de imágenes bidimensionales. Por eso, aunque el corpus incluya, por ejemplo, animación y video, el sistema está diseñado para producir imágenes en 2D, lo que no te da profundidad ni volumen real, sino solamente la apariencia de profundidad y volumen. La perspectiva puede aparecer torcida, degenerada en los bordes, y el «uncanny valley»⁸, por el efecto psicológico de no poder obviar que se está ante una construcción artificial, aparece no por errores del generador, si no del aplanamiento de la información. En casos extremos, se pueden generar caras que en dos dimensiones parecen correctas, pero que si existieran en el mundo real, serían extrañas a nuestros ojos.
Este efecto era más notorio en las primeras versiones cuyos resultados nos hacían pensar en las perspectivas alteradas de los cuerpos y los espacios en las pinturas de Francis Bacon. En las nuevas versiones, el programa ha avanzado vertiginosamente en la mejora del realismo, pero su lenguaje o su estética siguen siendo, predominantemente, planos. En una videollamada por ejemplo, se da una relación entre la imagen de una persona y alguien de carne y hueso. La persona se encuentra tridimensionalmente en otro espacio y lo que al otro le llega, aunque dotado de realismo es una imagen incompleta. Aunque podamos ver amigos en la pantalla y escuchar sus voces, sabemos que no están aquí; y aunque cada vez sea más común normalizar nuestra convivencia a través de esa imagen bidimensional, no está de más recordar esa incompletitud. Ciertamente, nosotros entendemos que una imagen no es técnicamente el cuerpo, y por eso podemos dar esos saltos de la pantalla a la realidad y de la realidad a la pantalla, calibrando la información. Pero las máquinas, al momento de escribir estas líneas, no. Ellas se alimentan y generan imágenes parciales porque así es como procesan el mundo; porque así las hemos hecho que procesen el mundo.
Imagen futura: Lo que sabemos que sabemos
Si bien hemos explorado durante este texto los diversos huecos de conocimiento que existen en nuestra relación actual con esta nueva forma de representar imágenes por IA, definitivamente hemos encontrado algunas verdades que nos pueden ayudar al momento de aproximarnos a esta herramienta.
1. Los sistemas de IA para generación de imagen, serán herramientas difíciles de detener o remover de nuestra vida diaria. Son análogas a la aparición del internet o la electricidad, plantean un cambio de paradigma en sí mismas. Y como en toda revolución tecnológica, habrá múltiples frentes y no será sin la aparición de bajas en ambos lados. Si bien, hay múltiples facetas en estos sistemas que inherentemente van a generar tensión en diversos ámbitos, la mayoría de los problemas son exacerbados principalmente por el capitalismo rampante que subyace en nuestra sociedad, y que ha permitido que emerjan monopolios tecnológicos.
2. La manera de representar de los generadores está limitada a una base de datos fácilmente manipulable, con fines principalmente comerciales y únicamente en dos dimensiones.
3. El proceso de manufactura y entrenamiento de estos modelos, ahora, con sus imágenes, comienzan a dominar el imaginario colectivo. Estos sistemas homogenizan y monopolizan la imagen de tal manera que, básicamente, representan una nueva forma de «colonización cultural» a gran escala. ¿Qué voces, ideas o nichos van a ser dejados atrás por el algoritmo? Si «la herramienta hace al usuario», y vamos a optar por usar este tipo de herramientas sistemáticamente, ¿qué impacto tendrá sobre nosotros?
4. Después de nuestros experimentos, y en el proceso de reflexión para elaborar este texto, descubrimos que Midjourney trabaja, principalmente, con ilustración y no tiene mucho conocimiento sobre arte abstracto. La ilustración busca el realismo de lo que representa así que esto nos habla de una fuerte demanda comercial por este tipo de imágenes, reconocibles y aplicables para publicidad, animación y videojuegos, con la exclusión de aquellas que no sirven a este propósito. Quizá sea crudo, pero las imágenes que no se demandan en el presente, no serán tampoco imágenes futuras.
5. Hasta ahora los generadores no pueden producir fotografías sólo pueden combinar resultados de fotografías existentes en su corpus. Los diseñadores de moda, por ejemplo, utilizan inputs o prompts para generar colecciones o campañas para sus marcas. Presentan los créditos de sus imágenes con la siguiente terminología del marketing:
«Prompt por: “Marca en cuestión” Fotografía por: IA»
Esto crea una similitud entre diseño y prompt, quien tiene las ideas creativas y las traza, ahora es quien escribe las indicaciones para obtener cierto resultado del generador. Por cómo se presentan los términos, nos están dando a entender que el trabajo de fotografía lo realizó el generador. Pero lo que el generador puede hacer es editar o remezclar fotografías; específicamente, a través de los prompts lingüísticos se le dan instrucciones para que a una imagen le aplique tal o cual efecto encima. Así funcionan también los retoques fotográficos. Por ejemplo, podemos indicar a Midjourney que retoque una fotografía realista casera con acabados blanco y negro de los «años veinte». Este tipo de tratamiento de la imagen se equipara más a programas de postproducción fotográfica, como Photoshop.⁹
6. Para poder producir imágenes se necesita imaginación. Y para poder imaginar, la descripción es importante. La imaginación es tanto información como vacío, y necesitamos descripciones para detonar el acto de imaginar. Pero lo que nuestra imaginación produce — nuestros puntos de partida, las fantasías, los miedos, los proyectos — es gracias a que la información no siempre está completa, ni tiene una forma concreta. Al leer una novela, podemos imaginar al protagonista como nos plazca; en cambio cuando la novela se adapta al cine ya sólo puede haber un Aragorn¹⁰ y una tierra media. La misma, en todas las imaginaciones. Todas las posibles versiones que teníamos colapsaron en una sola. Las múltiples representaciones o voces, de los lectores describiendo al personaje ya no existen, ya no importan. Muchas voces creativas van a quedar ahogadas frente a las maneras «nuevas» o «adecuadas» de representar de forma concreta o hiperrealista o con ciertos ángulos, por ejemplo, hemos comprobado que Midjourney fuerza la cámara para generar una estética de splash (esto es, splash screen o pantalla de presentación), similar a la de un videojuego. Con esto podemos imaginar como ciertas estéticas se verán priorizadas por sobre otras limitando y modelado el imaginario visual colectivo.
7. Los generadores automáticos tocan directamente nuestra forma de imaginar, producir y consumir imágenes, y sabemos que esta herramienta incrementa la velocidad con la que se producen, entonces es posible deducir que debido a la gran demanda de producción de contenido creativo actual (influencers, diseñadores, publicistas etcétera) habrá movimientos que tiendan a optimizar el proceso para obtener la «mejor obra» en el menor tiempo posible. Y sabemos que la reducción del tiempo de producción, en la mayoría de los casos, disminuye la calidad del producto. Así como la fotografía digital y el internet generan adyacentemente un contenido inabarcable de «imágenes pobres» (Steyerl, 2014), muchas veces carentes de resolución y propósito claro. Las nuevas tecnologías además de modificar términos y conceptos, despiden relaciones palabra-imagen incuantificables. Esto permite la subordinación a un puñado de modelos, entrenados con imágenes y etiquetas cuyos orígenes y procesos no son completamente transparentes para ninguna de las partes, lo que puede conducir a situaciones, cuanto menos, imprevisibles.
8. Hay ya en el horizonte conversaciones sobre verificación y atribución del origen e historia del proceso por el cual estos corpuses son creados, una especie de pedigree por usar una comparación burda.
9. No podemos ofrecer ningún tipo de conclusión en este texto porque estas herramientas están en sus primeras etapas de desarrollo y el avance de sus capacidades y problemáticas está sucediendo en tiempo real, a gran velocidad. Solo podemos ofrecer un par de resultados de este primer experimento interdisciplinar, en el que comenzamos a trabajar con un modelo de difusión como Midjourney desde una perspectiva artística filosófica y técnica operativa para comprender más profunda y ampliamente la lógica detrás de esta nueva forma de generar imágenes.
10. En nuestro intento por completar la imagen, por mediar lo que sabemos que sabemos con lo que no sabemos que no sabemos, en gran parte facilitado por dos décadas de amistad, tuvimos que desarrollar una forma de comunicar conocimientos de una disciplina a otra, para poder compartirlo con otros programadores y artistas al momento de acercarse o no a los Generadores de imágenes con IA. Nos parece importante desmitificar los procesos de los modelos de difusión, así como verlos como una herramienta a la que no debemos aproximarnos desinformados, esperamos que la información reunida en este texto nos ayude a confrontarnos a lo «desconocido» sin caer en el vórtex de generar imágenes de manera inconsciente. Ya que, la claridad y el control que se tenga en la manufactura de nuestras imágenes puede ser clave al momento de diseminar información.
Referencias
Meunier, Thibault, «Humanity wastes about 500 years per day on CAPTCHAs. It’s time to end this madness», The Cloudflare Blog [entrada], 13 de mayo de 2021, https://blog.cloudflare.com/introducing-cryptographic-attestation-of-personhood/
Steyerl, Hito, «En defensa de la imagen pobre», en Los condenados de la pantalla, Caja Negra Editora, Buenos Aires, 2014, pp. 33-48.
¹ Horror vacui (Miedo al vacío) Es un término latino utilizado en la historia del arte para referirse al impulso de llenar absolutamente toda la superficie de una pieza con elementos decorativos.
² Anglicismos para referirse a las indicaciones de texto que se dan a las máquinas.
³ Lo ready made «ya hecho» es un término que se refiere al trabajo con objetos encontrados o previamente manufacturados como materia prima para hacer una pieza de arte.
⁴ One and Three Chairs «Una y tres sillas»,1965, Joseph Kosuth
⁵ Acrónimo inglés de American Standard Code for Information Interchange, es decir, Código Estándar estadounidense para el Intercambio de Información.
⁶ Acrónimo de Completely Automated Public Turing test to tell Computers and Humans Apart: Prueba de Turing pública y automática para distinguir a los ordenadores de los humanos.
⁷ Una red neural se conforma de una gran cantidad de números, llegando a miles de millones en las más complejas. Formalmente, a este tejido inescrutable de números se le conoce como «estado latente». Todas las operaciones que una red neuronal realiza, son afectadas por el estado latente. Coloquialmente «Subconsciente» es una manera que se utiliza para referirse a todas esas correlaciones de las que no podemos estar al tanto como usuarios o desarrolladores de estos sistemas, principalmente porque continúa la metáfora: Si una red neuronal es un cerebro, el espacio que no podemos acceder directa o conscientemente, pero que afecta todas las decisiones que toma dicho «cerebro», es el equivalente a un «subconsciente».
⁸ Uncanny valley «Valle de la extrañeza» fenómeno que causa una sensación de incomodidad o desasosiego a las personas cuando se encuentran frente a una imagen o robot que tienen una semejanza incompleta a otro ser humano.
⁹ Las imágenes que genera Midjourney, con tan poco tiempo, ya tienen ciertas características y una estética reconocible. En este sentido, el resultado de pasar cualquier fotografía por esta herramienta es más similar a lo que resulta al utilizar un filtro de Instagram. Estos generadores no son capaces de producir imágenes como una cámara; sólo pueden procesarlas. En este sentido, no importa si esas imágenes vienen de un fotogenerador o de un lente fotográfico, las procesa de igual manera, y ello sin distinguir si la información viene del mundo real, de una cámara, de un escáner, o de internet. Al mismo bloque de datos que representa una imagen se le aplicará el mismo procedimiento con el mismo resultado. Este proceso tiene consecuencias en muchos ámbitos. Por ejemplo, el laboral. El diseñador jefe de la marca podría prescindir de los servicios de un fotógrafo y de todo su personal y equipo de trabajo.
¹⁰ Personaje de la novela “El señor de los Anillos”, J.R.R. Tolkien, 1954.
Acerca de lxs autorxs
Claudia Cisneros es una artista multidisciplinaria que trabaja con procesos de cognición sensible. Con estudios en artes visuales, prácticas performáticas y diseño de moda, ha creado piezas visuales y corporales, así como curado y desarrollado contenido para exhibiciones, festivales y programas de arte, performance y pedagogía aplicada. Su práctica combina teoría de la imagen, metodologías escénicas y análisis de datos para una comprensión crítica de las imágenes basada en la experiencia física. Su trabajo ha sido presentado en instituciones culturales y espacios independientes entre los que destacan TBA21 Academy, VAR’S Programa de residencias VARDA, OCAC Oklahoma Contemporary Art Center, Centro Cultural Universitario UNAM, Fundación Alumnos 47, Museo Cabañas, MAZ Museo de Arte de Zapopan FID Festival Internacional de Danza de Jalisco. Su trabajo ha sido publicado en México, España y Estados Unidos.
Ricardo Sisnett es un desarrollador de software con el corazón de un investigador, y el alma de un hacker.
Con más de década y media de experiencia, y software que ha alcanzado a decenas de millones de usuarios, pasa sus noches como creative coder y tecnologo experimental. Sus principales intereses yacen en la intersección de arte, tecnología y lo lúdico, y en encontrar nuevas maneras de explorar las fronteras de estas áreas.