Si se colase en nuestra casa un gato cualquiera (ya sea blanco, negro, rayado o con manchas), no tendríamos muchos problemas a la hora de detectarlo y identificarlo cuando entrase en nuestro campo visual, incluso si estuviera en movimiento o acurrucado tras un cojín.
Sin embargo, si no estuviéramos en casa y confiáramos en que nos avisara nuestro sistema de seguridad equipado, por ejemplo, con una red neuronal profunda que ejecute algoritmos de visión artificial, su efectividad a la hora de identificar al intruso sería -excepto bajo ciertas condiciones muy concretas- mucho menor.
Lo que no estaba muy claro hasta ahora era el motivo de esta diferencia. Ahora, un equipo de investigadores alemanes ha descubierto una inesperada explicación para ello: mientras que la visión humana prestan atención a las formas de los objetos, la visión artificial mediante deep learning se centra en las texturas como criterio de identificación.
No, humanos y máquinas no 'vemos' lo mismo
Tendemos a pensar que la IA tiende a ser tan sólo un reflejo sintético de nuestros propios modos de procesar la realidad, pero lo cierto es que cuando una red neuronal ejecuta un algoritmo de deep learning el sistema se convierte en una caja negra: sólo sabemos que el sistema se dedica a buscar patrones en los datos, que después utiliza para decidir la mejor manera de etiquetar una imagen que nunca ha visto antes.
Y el hecho de que los sistemas de visión artificial hayan sido capaces de ver diferencias que nosotros no apreciamos (ni siquiera después de que la IA nos avise de que están ahí) y de que cambios inapreciables realizados en una imagen sean capaces de confundir a una IA cambiando incluso la identidad de lo que ve, ya nos da una pista de que humanos y máquinas no 'vemos' lo mismo cuando miramos los mismos objetos.
Sin embargo, hasta que el neurocientífico computacional Matthias Bethge y el psicofísico Felix Wichmann no se pusieron a investigar este hecho junto a su equipo de investigadores de la Universidad de Tubinga, no teníamos muy claro dónde radicaba la diferencia.
Los investigadores se dieron cuenta de que cuando se entrenaba una red neuronal con imágenes degradadas con un determinado tipo de 'ruido', demostraba ser superior a los humanos identificado objetos en imágenes sometidas al mismo tipo de distorsión. Sin embargo, cualquier pequeña alteración de la misma devolvía a los humanos el liderato.
Sesgos más razonables de lo que parece
Los investigadores se dieron cuenta de que las formas de los objetos seguían siendo igual de reconocibles antes y después de aplicar la distorsión, de modo que la explicación podía radicar en cómo procesa la red neuronal la textura de cada objeto.
La forma de comprobar si el problema radicaba ahí fue tan sencilla como ingeniosa: crear imágenes falsas que incluyesen señales contradictorias, como por ejemplo siluetas de gato con la textura de la piel de un elefante, y osos 'hechos' de latas de aluminio. Y una vez creadas, se preguntó a humanos y a redes neuronales qué veían. Los humanos, como preveían, vieron un gato y un oso. Las redes neuronales, invariablemente, respondieron reconociendo las texturas de cada imagen.

El sesgo humano en favor de la forma es fácil de explicar: vivimos en un mundo tridimensional, que nos permite ver los objetos desde múltiples ángulos y bajo muchas condiciones diferentes, y donde podemos complementar nuestra información visual con otros sentidos, como el tacto.
Pero, por extraña que pueda resultar esta preferencia de la IA por las texturas, en realidad tiene también sentido: éstas ofrecen una mayor cantidad de información disponible, frente a los pocos píxeles indicativos de la forma del objeto.
A partir de ese descubrimiento, el equipo apostó por crear un sistema de reconocimiento que divida cada imagen en varios pequeños 'parches' (para acabar con la ventaja de la textura como principal fuente de información) y analice qué evidencias ofrece cada uno de ellos usando varios algoritmos distintos, para después, simplemente, recopilar toda la información sin tener en cuenta las relaciones espaciales entre los fragmentos, integrándola para extraer características de alto nivel.
La precisión del sistema resultó ser notable, exhibiendo un sesgo más 'humano' e incluso más a prueba de la introducción de 'ruido', lo que lo hace más efectivo frente a ciertos ataques antagónicos.
Vía | Quanta Magazine
Imagen | Pixnio
Ver 6 comentarios
6 comentarios
whisper5
Cada vez se publican más estudios que demuestran que la visión artificial todavía no está preparada para usarla en vehículos de conducción autónoma.
sanamarcar
Yo cuando hice mi pobre tfg sobre visión artificial casi muero xD Y era solo para enseñanza.
Bacon.exe
Pues muy interesante
yavi
Tal vez añadiendo sensores térmicos y láser que pueda medir distancias se podría equiparar mas o menos a lo que nosotros percibimos, ya dependería de lo bien que esté implementado y del tiempo que lleve hacer la medición.
royendershade
Pues porque casi todas las camaras e imagenes se hacen con una sola perspectiva, y solo se puede trabajar desde esta. Nosotros podemos deducir las formas en una imagen plana por la experiencia previa que tenemos. Asi que logicamente si queremos que tambien se detecten formas mediante la IA habra que entrenar sistemas con doble camara o que se apoyen en infrarrojos u otro sensor de profundidad por laser o lo que sea.