🕶 Inteligencias Artificiales Ciegas

Blog leviguti.skydive julio 18, 2024 · 73 Comments

Los modelos de lenguaje de visión son ciegos.

Los modelos de lenguaje de gran tamaño con capacidades visuales (VLM), por ejemplo, GPT- 4o y Gemini- 1.5 Pro , están impulsando innumerables aplicaciones de procesamiento de texto e imágenes y están obteniendo altas puntuaciones en los parámetros de comprensión visual existentes. Sin embargo, descubrimos que los VLM fallan en siete tareas visuales absurdamente fáciles para los humanos, como identificar (a) si dos círculos se superponen; (b) si dos líneas se cruzan; (c) qué letra está rodeada en una palabra; y (d) contar la cantidad de círculos en un logotipo de estilo olímpico. El desempeño sorprendentemente pobre de cuatro VLM de última generación sugiere que su visión es, en el mejor de los casos, como la de una persona con miopía que ve los detalles finos borrosos y, en el peor, como la de una persona inteligente que es ciega y hace conjeturas fundamentadas.

Tarea 1Intersecciones de líneas

Tarea 2Dos círculos

Tarea 3Letra en un círculo

Tarea 4Formas superpuestas

Tarea 5Cuadrados anidados

Tarea 6Cuadrícula de conteo

Tarea 7Mapa del metro

Tarea 1

Tarea 1: Contar intersecciones de líneas

Dada la impresionante precisión de los VLM al responder preguntas sobre diagramas y gráficos (por ejemplo, Sonnet- 3.5 obtuvo un 94,7 % en AI2D y un 90,8 % en ChartQA) [1] , una hipótesis razonable es que los VLM deben poder ver si dos gráficos se intersecan en un gráfico. Aquí, probamos esta hipótesis pidiendo a los VLM que cuenten la cantidad de intersecciones entre dos funciones lineales por partes de 2 segmentos.

Imágenes

Creamos 150 imágenes (ver Figura 1) de gráficos de líneas 2D dibujados en un lienzo blanco. Cada gráfico de líneas consta de dos segmentos de línea, definidos por tres puntos cuyas coordenadas x son fijas y están espaciadas de manera uniforme. Las coordenadas y se toman aleatoriamente para crear dos gráficos que se intersecan exactamente en 0, 1 o 2 puntos. Ver Apéndice A para más detalles.

Ejemplo 1 de gráfico de líneas 2D — 0 intersecciones

Ejemplo 2 de gráfico de líneas 2D — 1 intersección

Ejemplo 3 de gráfico de líneas 2D — 2 intersecciones

Ejemplo 4 de gráfico de líneas 2D — 2 intersecciones

Fig. 1: Ejemplos de gráficos de líneas 2D utilizados en la tarea, que muestran diferentes números de intersecciones.

Indicaciones

Planteamos cada pregunta utilizando dos formulaciones diferentes:

«¿Cuántas veces se cruzan las líneas azul y roja?»
«¿Cuántas veces se cruzan las líneas azul y roja?»

Verdad fundamental

Las respuestas son ∈ {0, 1, 2} (precisión de referencia aleatoria: 33%).

Resultados

La siguiente tabla muestra el desempeño de los cuatro modelos en la tarea de contar intersecciones de líneas.

Espesor	GPT- 4o	Géminis- 1.5 Pro	Soneto -3	Soneto- 3.5
2	45,00	70,00	64.00	80.00
3	47,00	68,00	66,00	79,00
4	54,00	71,00	62,00	73,00
Promedio	48,67	69,67	64.00	77.33

Muestras cualitativas


1✗	1✗	2✗	2✓	2✓	1✗
1✗	1✗	1✓	1✗	1✗	1✗
1✗	1✗	2✗	1✗	1✗	1✗
1✗	0✓	2✗	1✗	1✗	2✓

GPT- 4o

Géminis- 1.5 Pro

Soneto -3

Soneto- 3.5

Fig. 2: Los VLM no pueden contar las intersecciones de manera confiable.

Tarea 2: Dos círculos

A diferencia de la tarea 1, en la que probamos los VLM con líneas finas, aquí evaluamos su capacidad para percibir interacciones entre objetos más grandes, específicamente, dos círculos rellenos del mismo tamaño. Esta tarea evalúa la capacidad de los VLM para detectar (1) pequeños espacios entre círculos y (2) círculos superpuestos.