MundoEl campo visual sigue siendo un reto para a Inteligencia Artificial

Compartir esta noticia
Share on Facebook
Facebook
Tweet about this on Twitter
Twitter

La Inteligencia Artificial ha llegado para quedarse y prueba de ello son las nuevas aplicaciones que día a día ven la luz para ser destinadas a los campos más variopintos, entre los que se cuenta el cada vez más extendido marketing digital y sus derivados.

Es un hecho palpable que mostrar una experiencia de contenidos personalizada dispara el ciclo de ventas de un producto, al igual que un operador de juego online atrae más clientes cuando incentiva a sus usuarios por medio de estudiadas promociones en forma de tiradas gratis en un determinado juego o de bonos irrechazables que resultan de un minucioso análisis inteligente de sus bases de datos.

De igual modo que en el campo visual, aplicaciones de IA como Cortex son capaces de simplificar la elección de videos o imágenes para que los posts generen una mayor interacción o puedan volverse virales en las redes sociales. Eso sí, es justamente en este campo en el que la Inteligencia Artificial ha mostrado una debilidad que aún le permite ser engañada.

La Inteligencia Artificial CLIP de OpenAI

El pasado mes de enero la desarrolladora de Inteligencia Artificial OpenAI, propiedad de Elon Musk, presentaba su último proyecto en este campo, CLIP (Contrastive Language-Image Pre-training). Una IA que ha sido desarrollada para reconocer visualmente determinados objetos reflejados en una imagen y, a partir de millones de parámetros GPT-3, clasificarlos por categorías de manera inmediata.

CLIP ha sido entrenada a través de 400 millones de fracciones de imágenes y texto alojados en Internet, y aprende por medio de la supervisión del lenguaje corporal, para así ser capaz de reconocer en qué categoría se engloba la imagen que en cada momento está visualizando. Aplicando el procedimiento para el que ha sido diseñada, la IA es capaz de reconocer entre otras muchas cosas, sujetos, objetos, caracteres, actividades y localizaciones.

El modelo de CLIP se basa en el aprendizaje contrastivo, es decir, que su método se centra en identificar detalles similares y diferentes localizados en cada modelo que se analiza. Siguiendo este enfoque, la IA entrena un modo de aprendizaje automático que le permite clasificar las imágenes en grupos de similares y diferentes.

En resumidas cuentas, a CLIP se le muestra una determinada imagen para que la analice y la IA procede a realizar una descripción del objeto que esta contiene, indicando a su vez en qué porcentaje está segura de la reseña que ha llevado a cabo.

No es oro todo lo que reluce

A partir de las técnicas utilizadas en CLIP por OpenAI, se podría pensar que ya se ha dado el gran paso en la identificación de objetos a cargo de la IA, pero aún queda mucho camino por recorrer.

Según parece, CLIP ha desarrollado por su cuenta un sistema neuronal que bien se podría asemejar al del ser humano, y que se ha podido convertir en su talón de Aquiles a la hora de engañar a la IA. Aunque sería ridículo pensar que pudiera tener consecuencias tan serias como las del pirateo a una seguridad nacional, esto podría dar pie a diferentes modos de hackeo que ya se están evaluando.

Todo esto viene dado porque, al igual que sucede con el cerebro humano, CLIP parece haber desarrollado las llamadas neuronas multimodales que, asociadas a la vista de un individuo, experimentan una reacción cuando entran en contacto visual con una determinada imagen o texto.

Un estudio de más de 15 años revelaba cómo una única neurona en el cerebro de determinados individuos reacciona ante la imagen de la actriz Halle Berry, mientras que no lo hace frente a otras celebridades. Lo curioso del caso es que esa neurona no solo reacciona a su imagen, sino que también experimenta la misma respuesta ante un texto con su nombre. Algo similar sucedía con otros sujetos ante famosos edificios como la Torre de Pisa o la Opera de Sídney. La conclusión es que estas neuronas responden al concepto abstracto de la actriz (neurona Berry) o de los monumentos en lugar de a cualquiera de sus características visuales.

Pues bien, pese a no ser programada para ello, CLIP ha desarrollado sus propias neuronas multimodales como en el caso de la “neurona Spiderman”. Tanto si ve una imagen del personaje en un cómic como si ve la palabra “spider” (araña), lo relaciona directamente con el superhéroe. Otro tanto sucede si sobre cualquier imagen aparecen impresos los símbolos “$$$. No importa cuál sea el objeto, lo relacionará con una “piggy bank” (hucha de cerdito).

Aunque lo más preocupante del asunto es que CLIP también parece haber desarrollado neuronas racistas que llegan a relacionar Latinoamérica con la inmigración o a individuos de raza negra con prácticas ilegales.

https://www.venado24.com.ar/archivos24/uploads/2019/07/ESTEVEZ-BANNER-WEB-OKEY.gif