¿por qué es torpe al emplear textos?

El generador de imágenes de OpenAI es eficiente, versátil y poderoso. Un ingenio que parece salido de la ciencia ficción y que está abierto al público, incluso para los que no son expertos en prompts. Sin embargo, no todo es color de rosas en ese sistema ahora integrado en forma nativa en ChatGPT. Una serie de fallas de DALL-E quedan al descubierto cuando le pedimos que incluya texto en las fotos o dibujos.

¿Por qué decimos que parece de ciencia ficción? Eso hubiésemos creído cualquiera de nosotros pocos años atrás. Por entonces, para generar una imagen como las que entrega DALL-E se necesitaba acceso a programas especializados, conocimientos extensos y una buena cantidad de tiempo. Ahora, alcanza con un prompt, que en la jerga de la inteligencia artificial es la instrucción que el usuario le dicta al modelo. Por ejemplo, si se escribe “crea una imagen en la que un perro saca su lengua mientras pedalea en un monociclo”, estos generadores —DALL-E no es el único— entregan sus resultados en segundos.

Como decíamos, las fallas de DALL-E surgen al incluir solicitudes como “muestra un cartel en el que se lea la siguiente frase”. Por alguna razón, en la que ahondaremos en este repaso de Hipertextual, la poderosa tecnología de OpenAI tropieza. Los textos son extrañísimos, con errores de tipeo e incluso signos entremezclados que no existen en ningún alfabeto. Para desentrañar el misterio hablamos con una especialista en inteligencia artificial y “entrevistamos” al mismísimo ChatGPT.

Fallas de DALL-E: el generador más avanzado tropieza con los textos en las imágenes

fallas de DALL-Efallas de DALL-E
DALL-E es un generador de imágenes poderoso y eficiente… hasta que se le pide que incluya texto. (Crédito: OpenAI DALL-E)

La imagen sobre este párrafo fue generada como el prompt mencionado más arriba. La tecnología de la organización estadounidense demoró apenas segundos en crearla. Sin lugar a dudas, cumple que lo que se le pide. Es un perro, muestra la lengua, hace equilibrio en un monociclo. Si quisiéramos alternativas será suficiente pedirlas con una nueva instrucción.

Las fallas de DALL-E brotan apenas pedimos que trabaje con palabras. La ilustración que abre este repaso es uno entre los tantos ejemplos. Repite la palabra “generadores”, por cierto, con errores. En lugar de “con” aparece un extraño “cin”. Acertó felizmente al escribir “torpes”, pero sobre el final profundiza su ineficiencia al intentar, sin suerte, trazar la palabra “escribir”. También aquí son válidas las segundas oportunidades. Aunque, como vemos a continuación, la máquina tropieza con la misma piedra.

fallas de DALL-Efallas de DALL-E
Pedimos a DALL-E, a través de ChatGPT, que remedie sus errores: falló nuevamente. (Crédito: Captura)

Un detalle crucial antes de avanzar en este examen. En nuestras pruebas, hemos detectado las falencias mencionadas tanto en la versión gratuita de DALL-E, a través de ChatGPT, como en la variante con suscripción, ChatGPT Plus, en este caso con GPT-4o. En otras palabras, pagar no os salvará de esta falla. Al menos por ahora.

“Estas fallas de DALL-E son lógicas”, dice una experta en IA

Según Marcela Riccillo, doctora en Ciencias de la Computación y especialista en inteligencia artificial, “es lógico que DALL-E falle al incorporar texto a una imagen”.

¿Por qué ocurren estas fallas en DALL-E? ¿Tan complejos son los textos en un entorno visual?

Marcela Riccillo, experta en robótica e inteligencia artificial. (Crédito: Cortesía)

Supongamos que alguien le pide a una persona que agregue su nombre a una imagen, por caso de un paisaje. Si lo hace con un editor simple, sería un rectángulo blanco con el nombre en alguna parte de la imagen. Tal vez en medio de la montaña o el cielo. Pero el resultado no es lo que la persona imaginaba, sino que el nombre estuviera incluido en la imagen. Por ejemplo, un pequeño cartel que parezca real junto al río. Eso implicaría que el cartel debería ser de un tamaño acorde al espacio entre el río y la montaña, respetando las sombras y que no fuera un rectángulo, sino una forma que siguiera la dirección del río.
 
Teniendo en cuenta ese ejemplo, es importante entonces que la persona le indique a la máquina con detalle la forma y lugar del texto. “Incluir un cartel» o «incluir tal palabra» sin detalle, a priori podría generar frustración entre la expectativa y el resultado. También podría haber diferencias entre lo que la persona imagina, y el tamaño y tipo de letra del texto resultante.

Suponemos, además, que incrustar palabras en escenarios variables conduce a las fallas de DALL-E que estamos mencionando…

Ver fuente

Related Post