🕶 Inteligencias Artificiales Ciegas

2:06 pm

Los modelos de lenguaje de visión son ciegos.

Los modelos de lenguaje de gran tamaño con capacidades visuales (VLM), por ejemplo, GPT- 4o y Gemini- 1.5 Pro , están impulsando innumerables aplicaciones de procesamiento de texto e imágenes y están obteniendo altas puntuaciones en los parámetros de comprensión visual existentes. Sin embargo, descubrimos que los VLM fallan en siete tareas visuales absurdamente fáciles para los humanos, como identificar (a) si dos círculos se superponen; (b) si dos líneas se cruzan; (c) qué letra está rodeada en una palabra; y (d) contar la cantidad de círculos en un logotipo de estilo olímpico. El desempeño sorprendentemente pobre de cuatro VLM de última generación sugiere que su visión es, en el mejor de los casos, como la de una persona con miopía que ve los detalles finos borrosos y, en el peor, como la de una persona inteligente que es ciega y hace conjeturas fundamentadas.

Tarea 1


Tarea 1: Contar intersecciones de líneasDos líneas que se cruzan

Dada la impresionante precisión de los VLM al responder preguntas sobre diagramas y gráficos (por ejemplo, Sonnet- 3.5 obtuvo un 94,7 % en AI2D y un 90,8 % en ChartQA) [1] , una hipótesis razonable es que los VLM deben poder ver si dos gráficos se intersecan en un gráfico. Aquí, probamos esta hipótesis pidiendo a los VLM que cuenten la cantidad de intersecciones entre dos funciones lineales por partes de 2 segmentos.

Imágenes

Creamos 150 imágenes (ver Figura 1) de gráficos de líneas 2D dibujados en un lienzo blanco. Cada gráfico de líneas consta de dos segmentos de línea, definidos por tres puntos cuyas coordenadas x son fijas y están espaciadas de manera uniforme. Las coordenadas y se toman aleatoriamente para crear dos gráficos que se intersecan exactamente en 0, 1 o 2 puntos. Ver Apéndice A para más detalles.

Ejemplo 1 de gráfico de líneas 2D
0 intersecciones
Ejemplo 2 de gráfico de líneas 2D
1 intersección
Ejemplo 3 de gráfico de líneas 2D
2 intersecciones
Ejemplo 4 de gráfico de líneas 2D
2 intersecciones

Fig. 1: Ejemplos de gráficos de líneas 2D utilizados en la tarea, que muestran diferentes números de intersecciones.

Indicaciones

Planteamos cada pregunta utilizando dos formulaciones diferentes:

  1. “¿Cuántas veces se cruzan las líneas azul y roja?”
  2. “¿Cuántas veces se cruzan las líneas azul y roja?”

Verdad fundamental

Las respuestas son ∈ {0, 1, 2} (precisión de referencia aleatoria: 33%).

Resultados

La siguiente tabla muestra el desempeño de los cuatro modelos en la tarea de contar intersecciones de líneas.

Espesor
GPT- 4o
Géminis- 1.5 Pro
Soneto -3
Soneto- 3.5
2 45,00 70,00 64.00 80.00
3 47,00 68,00 66,00 79,00
4 54,00 71,00 62,00 73,00
Promedio 48,67 69,67 64.00 77.33

Muestras cualitativas

¿Cuantas veces se cruzan las lineas azul y roja?

Gráfico 1 Gráfico 2 Gráfico 3 Gráfico 4 Gráfico 5 Gráfico 6
1 1 2 2 2 1
1 1 1 1 1 1
1 1 2 1 1 1
1 0 2 1 1 2
GPT-4oGPT- 4o
Géminis-1.5Géminis- 1.5 Pro
Soneto-3Soneto -3
Soneto-3Soneto- 3.5

Fig. 2: Los VLM no pueden contar las intersecciones de manera confiable.


Tarea 2: Dos círculosDos líneas que se cruzan

A diferencia de la tarea 1, en la que probamos los VLM con líneas finas, aquí evaluamos su capacidad para percibir interacciones entre objetos más grandes, específicamente, dos círculos rellenos del mismo tamaño. Esta tarea evalúa la capacidad de los VLM para detectar (1) pequeños espacios entre círculos y (2) círculos superpuestos.

Imágenes

Generamos 672 imágenes de dos círculos sobre un lienzo blanco. Los círculos varían en tamaño, distancia y orientación:

  • Diámetros de los círculos: 1/4, 1/5, 1/6 o 1/7 del tamaño del lienzo.
  • Distancias entre perímetros de círculos: -0,15 a 0,5 veces el diámetro
  • Orientaciones: ángulos de 90°, 0°, -45° y 45° con el eje x
  • Tamaños de lienzo: 384, 769 y 1155 píxeles
Círculos superpuestos
Superposición y contacto
Círculos de contacto
Sin superposición pero en contacto
Círculos separados
Sin superposición y sin contacto
Orientación diagonal
Orientación diferente

Fig. 3: Ejemplos de imágenes de dos círculos utilizadas en la tarea, que muestran diferentes configuraciones.

Indicaciones

Planteamos cada pregunta utilizando dos formulaciones diferentes:

  1. “¿Los dos círculos se tocan entre sí? Responda Sí/No”.
  2. “¿Los dos círculos se superponen? Responda Sí/No”.

Verdad fundamental

Las respuestas se basan en la distancia d entre los perímetros de los círculos:

  • d < 0: Superposición y contacto
  • d = 0: No se superponen pero se tocan
  • d > 0: Sin superposición y sin contacto

Precisión de línea base aleatoria: 50%.

Resultados

La siguiente tabla muestra el desempeño de los cuatro modelos en la tarea de contar intersecciones de líneas.

GPT- 4o
Géminis- 1.5 Pro
Soneto -3
Soneto- 3.5
Superposición 71.27 93.30 88.09 88,83
Conmovedor 74.10 92.26 80,95 94,49
Promedio 72,69 92,78 84,52 91,66

Muestras cualitativas

¿Se superponen los dos círculos? Responda Sí/No.

Círculo 1 Círculo 2 Círculo 3 Círculo 4 Círculo 5 Círculo 6
No
No No No No
No
No No No No No No
GPT-4oGPT- 4o
Géminis-1.5Géminis- 1.5 Pro
Soneto-3Soneto -3
Soneto-3Soneto- 3.5

Fig. 4: Los VLM fallan sistemáticamente a distancias más pequeñas. Sin embargo, con una gran brecha, GPT- 4o sigue siendo poco confiable (extremo derecho). Sonnet- 3.5 tiende a responder “No” de manera conservadora, independientemente de la distancia real entre los dos círculos.


Tarea 3: La letra en un círculoDos líneas que se cruzan

En consonancia con informes anteriores [2] [3] [4] , descubrimos que los VLM pueden identificar con un 100 % de precisión una forma primitiva (por ejemplo, un círculo rojo ⭕) [2] y pueden leer perfectamente una palabra en inglés (por ejemplo, Subdermatoglyphic ) por sí solos. Aquí, superpusimos el círculo rojo en cada letra, una a la vez, en la palabra, y pedimos a los VLM que identificaran qué letra estaba siendo encerrada en un círculo. Si bien la tarea es fácil para los humanos, nuestra hipótesis es que si la visión de un VLM es “borrosa”, es posible que no pueda identificar la letra exacta que está siendo encerrada en un círculo, ya que hay un espacio diminuto entre las letras adyacentes.

Imágenes

Elegimos tres cadenas Acknowledgement , Subdermatoglyphic y tHyUiKaRbNqWeOpXcZvM porque contienen caracteres de anchos y alturas variables. Además, los cuatro VLM probados pueden leer todos los caracteres de estas cadenas cuando se ingresan a los modelos como una imagen. Si bien Acknowledgement es una palabra común en inglés, Subdermatoglyphic es la palabra más larga sin letras repetidas. También probamos los VLM en la cadena aleatoria tHyUiKaRbNqWeOpXcZvM para estimar cuánta precisión del modelo se debe a su familiaridad con la palabra.

Para cada par (cadena, letra en círculo), generamos una imagen de 512 × 512 eligiendo entre 3 niveles de grosor de línea de óvalo rojo, 2 tamaños de fuente y 4 posiciones aleatorias en el lienzo para un total de 24 imágenes. Es decir, generamos 360, 408 y 480 imágenes para Acknowledgement (15 letras), Subdermatoglyphic (17 letras) y tHyUiKaRbNqWeOpXcZvM (20 letras), respectivamente. Nos aseguramos de que cada letra que se encierre en un círculo se ajuste completamente al óvalo.

Ejemplo 1 de letra en círculo
Reconocimiento con ‘n’ en un círculo
Ejemplo 2 de letra en círculo
tHyUiKaRbNqWeOpXcZvM con ‘t’ en un círculo
Ejemplo 3 de letra en círculo
tHyUiKaRbNqWeOpXcZvM con una ‘X’ en un círculo
Ejemplo de letra en círculo n.° 4
Subdermatoglifo con ‘u’ en un círculo

Fig. 5: Ejemplos de imágenes de letras en círculos utilizadas en la tarea, que muestran diferentes palabras y letras en círculos.

Indicaciones

Planteamos cada pregunta utilizando dos formulaciones diferentes:

  1. “¿Qué letra está marcada con un círculo?”
  2. “¿Qué personaje está resaltado con un óvalo rojo?”

Verdad fundamental

Las letras deben coincidir exactamente con las letras previstas (sin distinguir entre mayúsculas y minúsculas).

Resultados

La siguiente tabla muestra el desempeño de los cuatro modelos en la tarea de identificar la letra encerrada en un círculo.

Palabra
GPT- 4o
Géminis- 1.5 Pro
Soneto -3
Soneto- 3.5
Reconocimiento 69.03 97,50 82,64 91.11
Subdermatoglifico 63,60 91.05 71,45 94,49
tuUiKaRbNqWeOpXcZvM 77,92 89,90 65,94 82.08
Promedio 70,18 92,81 73.34 89.22

Muestras cualitativas

¿Qué letra está encerrada en un círculo?

Letra 1 en un círculo Letra 2 en círculo Letra 3 en círculo Letra 4 en círculo Letra 5 en un círculo Letra 6 en un círculo
o mi a o o el
el metro norte pag o en
o mi mi y a a
yo mi a yo a metro
GPT-4oGPT- 4o
Géminis-1.5Géminis- 1.5 Pro
Soneto-3Soneto -3
Soneto-3Soneto- 3.5

Fig. 6: Identificar la letra encerrada en un círculo no es una tarea trivial para los VLM tanto en palabras en inglés ( Acknowledgement y Subdermatoglyphic ) como en una cadena aleatoria ( tHyUiKaRbNqWeOpXcZvM ). Cuando cometen errores, los VLM tienden a predecir las letras adyacentes a la encerrada en un círculo.


Tarea 4: Contar formas superpuestasDos líneas que se cruzan

En consonancia con investigaciones anteriores [4] , también descubrimos que los VLM pueden contar círculos disjuntos. Sin embargo, aquí, probamos los VLM para contar círculos que se intersecan como en el logotipo olímpico, un ejercicio de desarrollo cognitivo común para niños en edad preescolar [5] [6] . Nuestra hipótesis es que una visión “borrosa” puede no ver claramente la intersección entre dos círculos y, por lo tanto, no puede trazar círculos y contarlos. Para generalizar nuestros hallazgos, repetimos el experimento también con pentágonos.

Imágenes

En una imagen de tamaño C×C, donde C ∈ {384, 769, 1155} px, dibujamos N ∈ {5, 6, 7, 8, 9} círculos superpuestos del mismo tamaño dispuestos en dos filas como el logo olímpico. Un diámetro de círculo φ ∈ {C/5, C/10}. Repetimos las imágenes con dos grosores de línea diferentes para representar los círculos. Este procedimiento representa 3 resoluciones × 5 × 2 diámetros = 60 imágenes. Repetimos para los pentágonos además de los círculos, lo que da como resultado 60 × 2 formas = 120 imágenes en total. Para los pentágonos, la longitud de sus lados es d ∈ {C/5, C/10}.

Ejemplo 1 de logotipo de estilo olímpico
5 círculos, diámetro pequeño
Ejemplo 2 de logotipo de estilo olímpico
6 círculos, diámetro grande
Ejemplo 3 de logotipo de estilo olímpico
8 círculos de colores
Ejemplo de logotipo de estilo olímpico n.° 4
9 pentágonos de colores

Fig. 7: Ejemplos de imágenes de logotipos similares a los olímpicos utilizados en la tarea, que muestran diferentes cantidades de formas, tamaños y colores.

Indicaciones

Planteamos cada pregunta utilizando dos formulaciones diferentes:

  1. “¿Cuántas formas hay en la imagen? Responde solo con el número en formato numérico”.
  2. “Cuenta las {formas} de la imagen. Responde con un número entre llaves, p. ej. {3}”.

Donde {formas} son “círculos” o “pentágonos” dependiendo de la imagen.

Verdad fundamental

Las respuestas son ∈ {5, 6, 7, 8, 9} (precisión de referencia aleatoria: 20%).

Resultados

La siguiente tabla muestra el desempeño de los cuatro modelos en la tarea de identificar la letra encerrada en un círculo.

GPT- 4o
Géminis- 1.5 Pro
Soneto -3
Soneto- 3.5
Círculos 42,50 20.83 31,66 44,16
Pentágonos 19.16 9.16 11.66 75,83

Muestras cualitativas

¿Cuántos círculos hay en la imagen? Responde solo con el número en formato numérico.

Círculo 1 Círculo 2 Círculo 3 Círculo 4 Círculo 5 Círculo 6
5 6 5 10 10 5
5 5 5 5 5 5
5 5 5 10 10 5
5 6 6 10 9 7
GPT-4oGPT- 4o
Géminis-1.5Géminis- 1.5 Pro
Soneto-3Soneto -3
Soneto-3Soneto- 3.5

Fig. 8: Gemini- 1.5 Pro a menudo predice círculos “5”.


Tarea 5: Contar los cuadrados anidadosDos líneas que se cruzan

Motivados por los hallazgos de que los VLM tienen dificultades para contar los círculos intersectados (tarea 4), aquí, organizamos las formas de manera diferente para que sus bordes no se intersequen. Es decir, cada forma está anidada completamente dentro de otra. Para completar, probamos cuadrados en esta tarea.

Imágenes

En un lienzo de tamaño C×C, renderizamos N ∈ {2, 3, 4, 5} cuadrados anidados. El cuadrado más externo se renderiza primero utilizando una longitud de borde aleatoria d y un grosor de línea ∈ {2, 3, 4}px. Los N-1 cuadrados restantes se dibujan utilizando un factor de reducción de tamaño, 0,75 × d y se colocan en una coordenada aleatoria que garantiza que no toquen los cuadrados externos. Para cada grosor de línea, generamos 10 imágenes (donde los cuadrados tienen diferentes ubicaciones aleatorias) para crear 3 × 10 = 30 imágenes. Repetir el proceso para todos los valores N da como resultado 4 × 30 = 120 imágenes.

2 cuadrados anidados
2 cuadrados anidados
3 cuadrados anidados
3 cuadrados anidados
4 cuadrados anidados
4 cuadrados anidados
5 cuadrados anidados
5 cuadrados anidados

Fig. 9: Ejemplos de imágenes cuadradas anidadas utilizadas en la tarea, que muestran diferentes cantidades de cuadrados.

Indicaciones

Planteamos cada pregunta utilizando el siguiente texto:

  1. “Cuenta el número total de cuadrados en la imagen”.

Donde {formas} son “círculos” o “pentágonos” dependiendo de la imagen.

Verdad fundamental

Las respuestas son ∈ {2, 3, 4, 5} (precisión de referencia aleatoria: 25%).

Resultados

La siguiente tabla muestra el desempeño de los cuatro modelos en la tarea de contar cuadrados anidados.

GPT- 4o
Géminis- 1.5 Pro
Soneto -3
Soneto- 3.5
Cuadrícula 48.33 80.00 55,00 87,50

Muestras cualitativas

Cuente el número total de cuadrados en la imagen.

Cuadrados anidados 1 Cuadrados anidados 2 Cuadrados anidados 3 Cuadrados anidados 4 Cuadrados anidados 5 Cuadrados anidados 6
5 5 5 5 6 6
5 5 5 5 5 5
5 5 5 5 4 4
4 4 4 4 4 4
GPT-4oGPT- 4o
Géminis-1.5Géminis- 1.5 Pro
Soneto-3Soneto -3
Soneto-3Soneto- 3.5

Fig. 10: Sólo Sonnet- 3.5 puede contar los cuadrados en la mayoría de las imágenes.


Tarea 6: Contar las filas y columnas de una cuadrículaDos líneas que se cruzan

Los resultados de las tareas anteriores muestran que los VLM no siempre pueden contar formas superpuestas (Tarea 4) o anidadas (Tarea 5). ¿Qué sucede con las formas adyacentes? Aquí, colocamos las formas (específicamente, cuadrados) en una cuadrícula y desafiamos a los VLM a contar, una tarea que supuestamente es simple para los VLM dado su desempeño notable (≥ 90% de precisión) en DocVQA, que incluye muchas preguntas con tablas. Para simplificar la tarea, les pedimos a los modelos que cuenten la cantidad de filas y columnas en una tabla dada.

Imágenes

Una cuadrícula puede tener N×N, N×N’ o N’×N celdas, donde N∈{3, 4, 5, 6, 7, 8, 9} y N’ = N + 1. Cada cuadrícula se representa con dos grosores de línea diferentes en un lienzo de tamaño C×C donde C∈{500, 1250, 2000}px. Además de las cuadrículas vacías, también replicamos el procedimiento para hacer que las cuadrículas contengan texto (lo que es más común en las tablas del mundo real) donde cada celda contiene una sola palabra aleatoria. Las dos versiones combinadas tienen 2×222 = 444 imágenes.

Cuadrícula de texto 3x3
Cuadrícula de texto (3×3)
Cuadrícula de texto 3x4
Cuadrícula de texto (3×4)
Cuadrícula vacía 4x4
Cuadrícula vacía (4×4)
Cuadrícula vacía 4x5
Cuadrícula vacía (4×5)

Fig. 9: Ejemplos de imágenes de cuadrícula utilizadas en la tarea, que muestran cuadrículas llenas de texto y vacías con varias dimensiones.

Indicaciones

Planteamos cada pregunta utilizando dos formulaciones diferentes:

  1. “Cuente la cantidad de filas y columnas y responda con los números entre llaves. Por ejemplo, filas={5} columnas={6}”
  2. “¿Cuántas filas y columnas hay en la tabla? Responda sólo con los números de un par (fila, columna), por ejemplo, (5,6)”

Verdad fundamental

Las respuestas incluyen tanto el número de filas como de columnas. Una respuesta es correcta cuando se predicen correctamente tanto el número de filas como de columnas.

Resultados

La siguiente tabla muestra el rendimiento de los cuatro modelos en la tarea de contar filas y columnas en cuadrículas.

Tipo de cuadrícula
GPT- 4o
Géminis- 1.5 Pro
Soneto -3
Soneto- 3.5
Blanco 26.13 25,75 25,00 59,84
Texto 53.03 45,83 47.34 88,68
Promedio 39,58 35,79 36.17 74,26

Muestras cualitativas

Cuente la cantidad de filas y columnas y responda con los números entre llaves. Por ejemplo, filas={5} columnas={6}

Cuadrícula 1 Cuadrícula 2 Cuadrícula 3 Cuadrícula 4 Cuadrícula 5 Cuadrícula 6
4×4 6×6 7×7 6×6 6×6 6×6
5×5 6×6 7×7 10×10 5×6 10×10
5×5 7×8 6×6 9×9 6×6 9×12
4×5 6×7 7×7 8×7 5×6 8×8
GPT-4oGPT- 4o
Géminis-1.5Géminis- 1.5 Pro
Soneto-3Soneto -3
Soneto-3Soneto- 3.5

Fig. 12: Los ejemplos del estudio comparativo muestran que los modelos fallan sistemáticamente al contar filas y columnas de cuadrículas en blanco.

¿Cuántas filas y columnas hay en la tabla? Responda sólo con los números de un par (fila, columna), por ejemplo (5,6).

Cuadrícula 1 Cuadrícula 2 Cuadrícula 3 Cuadrícula 4 Cuadrícula 5 Cuadrícula 6
4×4 4×5 5×4 5×6 6×8 7×8
4×4 4×5 5×4 5×6 6×8 7×8
4×4 5×5 5×4 6×6 7×7 8×7
4×4 4×5 5×4 5×6 6×7 7×7
GPT-4oGPT- 4o
Géminis-1.5Géminis- 1.5 Pro
Soneto-3Soneto -3
Soneto-3Soneto- 3.5

Fig. 13: Cuando se incluye texto en las celdas de la cuadrícula, el rendimiento de todos los VLM mejora, especialmente Sonnet -3.5 .

Tarea 7: Seguir caminos de un solo colorDos líneas que se cruzan

Es importante que los VLM puedan seguir rutas para poder leer mapas o gráficos, interpretar gráficos y comprender las anotaciones del usuario (por ejemplo, flechas) en las imágenes de entrada. Para evaluar la capacidad de seguimiento de rutas, esta tarea pide a los modelos que cuenten las rutas de colores únicos entre dos estaciones dadas en un mapa de metro simplificado. Esta es otra tarea fácil para los humanos que desafía significativamente a los VLM.

Imágenes

Creamos cada mapa del metro en una imagen de tamaño C×C, donde C ∈ {512, 1024}px. Escribimos 4 nombres de estaciones (A, B, C, D) en 4 coordenadas fijas. Dividimos el lienzo en una cuadrícula invisible de 18×18 celdas e inicializamos 3 puntos de inicio de ruta a C/18px de cada estación. Dibujamos una ruta, utilizando el algoritmo de búsqueda en profundidad comenzando desde una estación aleatoria y un punto de inicio aleatorio, donde un movimiento válido es una celda en cualquier dirección: norte, sur, este u oeste. Repetimos el proceso para que cada estación tenga exactamente N ∈ {1, 2, 3} rutas de salida, para un total de 180 mapas.

Estación con 1 camino

1 ruta, 10 px de ancho

Estación con 2 caminos
2 rutas, 20 px de ancho
Estación con 2 caminos
2 rutas, 20 px de ancho
Estación con 3 caminos
3 rutas, 10 px de ancho

Fig. 14: Ejemplos de imágenes de mapas del metro utilizados en la tarea, que muestran diferentes cantidades de rutas y variaciones en el grosor de las mismas.

Indicaciones

Planteamos cada pregunta utilizando dos formulaciones diferentes:

  1. “¿Cuántos caminos de un solo color van de A a C? Responda con un número entre llaves, por ejemplo, {3}”
  2. “Cuenta las rutas de un solo color que van de A a C. Responde con un número entre llaves, por ejemplo, {3}”.

Verdad fundamental

Las respuestas son ∈ {0, 1, 2, 3} (precisión de referencia aleatoria: 25%).

Resultados

La siguiente tabla muestra el rendimiento de los cuatro modelos en la tarea de contar rutas de un solo color entre estaciones.

Caminos
GPT- 4o
Géminis- 1.5 Pro
Soneto -3
Soneto- 3.5
1 67,50 85,41 23,75 95,00
2 44.37 28,75 37,18 56,25
3 36,71 25,78 15.42 25.39
Promedio 45,89 40.01 23,78 50,18

Muestras cualitativas

¿Cuántas rutas de un solo color van de A a D? Responda con un número entre llaves, por ejemplo, {3}

Mapa del metro 1 Mapa del metro 2 Mapa del metro 3 Mapa del metro 4 Mapa del metro 5 Mapa del metro 6
1 1 2 3 2 1
2 2 4 1 1 4
2 1 3 2 4 4
1 1 3 3 2 3
GPT-4oGPT- 4o
Géminis-1.5Géminis- 1.5 Pro
Soneto-3Soneto -3
Soneto-3Soneto- 3.5

Fig. 15: Algunos VLM ( Gemini- 1.5 , Sonnet -3 ) sorprendentemente fallan incluso en casos extremadamente fáciles (extremo izquierdo). A medida que aumenta el número de caminos que salen de cada estación, los VLM tienden a tener un peor desempeño.

Este sitio web es una bifurcación

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Entradas Relacionadas

Abrir chat
1
Hola
¿En qué podemos ayudarte?