October 21, 2017

Lo que Vendrá

por C. Alejandro Párraga

Generalmente es difícil explicar (¡y mas predecir!) las consecuencias que la tecnología tendrá en nuestras vidas. Recuerdo una cena en casa de amigos, allá por 1995. Acababa de volver de lo que parecía ser una estadía de estudios en el exterior (que luego terminó siendo permanente) y luchaba por explicarles esa maravilla que había descubierto afuera: la internet. Era difícil de creer el impacto que esa nueva tecnología iba a tener en sus vidas, en una época en que las noticias se propagaban enviando por correo recortes de notas de “La Gaceta”. Esa misma sensación me invade cada vez que quiero transmitir (no ya a mis amigos de Tucumán, sino a cualquier persona ajena al tema) sobre los enormes e impredecibles efectos que tendrán en nuestras vidas los últimos avances en “Aprendizaje Computacional”, sobre todo lo que hoy se conoce como “Redes Neuronales Profundas”. Todos tenemos alguna idea intuitiva de lo que es la inteligencia artificial (IA), ya sea a través de los juegos de PC, enfrentado personajes digitales que se mueven por la pantalla tratando de esquivar nuestros golpes y de predecir nuestro comportamiento. Para ello hay muchas técnicas muy buenas, lo mismo que para simular a un buen jugador en una partida de ajedrez o de damas. Consideremos el ajedrez. En 1997 la computadora Deep Blue de IBM derrotó al campeón mundial Garry Kasparov porque este juego contiene un numero finito de piezas y posiciones posibles (32 piezas y 64 posiciones) regidas por reglas bien definidas. Si bien las combinaciones posibles son enormes, cada movida va determinando el número de movidas posibles del turno siguiente y con estas ramificaciones se puede construir un árbol de opciones y una serie de reglas (llamadas “heurísticas”) que guían a un algoritmo a elegir la jugada mas beneficiosa a cada paso. Un ejemplo de heurística sería: “si puedo comer a la dama de mi oponente, considero esta jugada como prioritaria”. Las reglas del juego y las heurísticas son fácilmente codificables por un buen programador.

Sin embargo, casi todo el mundo está de acuerdo en que una cosa es jugar bien al ajedrez y otra muy distinta es jugar bien al truco. En una partida de truco, además de las reglas (que pueden ser bastante difusas), hay que saber leer señas, lenguaje corporal, emociones, nivel de experiencia del adversario (y las chances que este mienta), “enrevesar” al rival y hacerle pronunciar palabras prohibidas… y ¡ni que hablar de una partida de truco en parejas! Toda esta información, llamémosle “semántica” (señas, gestos, semblanteo, interpretación emocional) es opaca para una computadora, aún dotada de cámaras de alta definición. Pues bien… ya no lo es tanto.

Esquema de una red neuronal convolucional profunda (AlexNet). La red “aprende” una variedad de filtros a partir de millones de imágenes de diversos objetos. Al exponérsela a una nueva imagen (cachorro) la red aplica esos filtros y decide a qué raza pertenece el cachorro (“Golden retriever”).

Inicialmente se creyó que estos problemas “semánticos” iban a ser fáciles de resolver. Después de todo ¡un campeón de ajedrez es mucho mas celebrado que un campeón de tuco! Esto probó ser mucho mas difícil de lo esperado. Las primeras IAs consistían en una serie de reglas (por ejemplo: “si sucede A, entonces sucede B”) codificadas siguiendo protocolos prestados de la lógica y las matemáticas. Este camino pronto se volvió intransitable. Consideremos la traducción automática: cualquier profesor de lengua extranjera sabe que es imposible traducir un texto aplicando reglas de gramática a rajatabla, cuando ¡las excepciones son casi tantas como las reglas! Los seres humanos aprendemos una lengua extranjera incorporando la gramática, pero sobre todo practicando, leyendo, hablando y recibiendo las correcciones de un profesor cuando nos equivocamos… y en la mayoría de los casos, ¡ni siquiera nos hace falta memorizar las reglas gramaticales! La siguiente gran evolución en IA consistió en incorporar las reglas por “prueba y error” del mismo modo que un niño hace cuando aprende a hablar o a escribir. De este modo al ser expuesto a varios ejemplos de “A” y de “B” será el mismo algoritmo quien incorpore las reglas y todas las excepciones que pudiesen suceder. Este proceso de aprender “por prueba y error” se llama en informática “aprendizaje computacional”. En los últimos diez años, la revolución tecnológica causada por el abaratamiento de los transistores (microchips) y el acceso a gigantescas cantidades de datos a través de internet permitió que aprender por prueba y error se volviese posible. Esta revolución produjo innumerables avances. Quizás el mas conocido sea el algoritmo de búsqueda de Google, que desbancó a todos los otros debido a su capacidad de predecir lo que el usuario quería encontrar usando información de sus búsquedas pasadas (y las búsquedas de la mayoría de los usuarios de internet).

Aunque asombrosa, la mayoría de los expertos está de acuerdo en que esta tecnología tiene limitaciones muy fuertes. Por ejemplo, es difícil “generalizar”. Un niño no necesita que le enseñen 1000 ejemplos del color “amarillo” para aprender a diferenciarlo del resto de los colores. Tampoco necesita que le enseñen miles de vistas, tamaños, modelos y colores de bicicletas para poder reconocer una en la calle. Con uno o dos ejemplos basta. Un ordenador necesita millones de fotos y nunca parece hacerlo bien del todo. Sin embargo, un método reciente inspirado en el cerebro humano llamado “Redes Neuronales Profundas”, parece estar destinado a dar el paso siguiente.

El origen de las Redes Neuronales está en los años cincuenta, con la aplicación de conceptos estadísticos inspirados en el cerebro humano al proceso de aprendizaje computacional. El cerebro consiste en una gigantesca red de neuronas interconectadas donde se guarda precisamente toda la información. Cuando un niño “aprende”, su cerebro “poda” conexiones que no se usan y refuerza conexiones muy usadas. No existen reglas predeterminadas, sino que cada imagen, sensación y sonido al que el cerebro se expone, va esculpiendo y moldeando las reglas y la información contenida en las interconexiones. Los primeros algoritmos inspirados en estas ideas datan de 1957. Se llamaban “perceptrones” y consistían en unidades mínimas interconectadas a través de contactos eléctricos de intensidad variable, como las interconexiones neuronales. Aunque revolucionaria, esta idea pronto cayó en desuso dado que la potencia de cálculo necesaria y el número de ejemplos necesarios para entrenar a estas máquinas se revelaron mucho mas grandes que los disponibles por aquel entonces. La aparición de la internet y el abaratamiento de los microprocesadores en los últimos años permitió que esta oscura rama del aprendizaje computacional tuviese hoy su momento de gloria con las llamadas “Redes Neuronales Profundas” (también conocidas como “perceptrones multicapa”).

Las redes neuronales solucionan el problema de la generalización representando a los objetos (por ejemplo, la proverbial bicicleta) en términos de componentes primitivos que son comunes a todos ellos (formas, esquinas, curvas, etc.). Las redes neuronales profundas van mas allá, representando a cada bicicleta en término de “capas de representaciones” donde cada capa encarna una característica cada vez mas abstracta de la bicicleta. Las primeras capas representan formas, esquinas y curvas y las capas siguientes representan combinaciones cada vez más complejas de estas representaciones (manubrios, ruedas, pedales, etc.), hasta llegar a la capa final que determina si el objeto en cuestión es una bicicleta o una moto, por ejemplo. A partir de la segunda o tercera capa es imposible para un humano interpretar la información que la red neuronal va guardando. Cada una de estas representaciones está relacionada con todas las otras a través de enlaces, que son reminiscentes de cómo las neuronas están conectadas en el cerebro.

Esta nueva tecnología está hoy en día rompiendo barreras que se creían en el dominio de la ciencia ficción unos pocos años atrás, y aún no se avizoran sus límites. ¿Coches automáticos más seguros que los conducidos por humanos? ¿Médicos más infalibles y eficientes que los humanos? ¿Artistas más originales y creativos? ¿Estadistas más capaces que nuestros actuales políticos? ¿Ingenieros y científicos infalibles? ¿Un campeón de truco artificial? Y todo eso sin considerar el tema de la “conciencia” que merecería su propio capítulo.

Indudablemente esta ruptura tecnológica va a crear desafíos importantes para la humanidad en el mediano plazo. ¿Qué sucederá con miles de taxistas y conductores profesionales? ¿Compartirán el destino de los afiladores de cuchillos, los zapateros, sombreros y sastres, o bien habremos de crear una sociedad donde el trabajo sea optativo, y sólo trabajemos por placer (ya que un robot será capaz de hacerlo varias veces mejor y gratis)? ¿Una sociedad de desocupados o una sociedad de poetas, científicos, deportistas e intelectuales o lo que sea que nos dé la gana hacer?

C. Alejandro Párraga

Nacido en Tucumán. Bachiller Univ. en Física por la UNT. Doctor en Percepción Visual por la Univ. de Bristol (Reino Unido). Actualmente profesor de Ciencias de la Computación en la Universitat Autònoma de Barcelona (UAB). Investiga en el Centro de Visió per Computador en Cataluña. Investigo sobre varios temas, principalmente ligados a la percepción visual, la visión artificial y la inteligencia artificial (los invito a ver mi página http://www.cvc.uab.es/~aparraga/). Imposible saber la importancia científica y social de lo que hago, estas consideraciones se las dejo a las generaciones futuras.

imagen de tapa | http://directivosygerentes.es/digital/digital-talent/actualidad/la-inteligencia-artificial-la-computacion-cognitiva-claves-posicionamiento-del-negocio

Author: SinMiga

Filed Under: EUREKA

La Bóveda del Fin del Mundo

Neurociencia visual en Tucumán

Lo que Vendrá

Lo que Vendrá

Compartir en: