Descubre cómo funciona el algoritmo inspirado en Iván Pávlov

La profesora de psicología no terminaba de precisar por qué no le gustaba dar la clase sobre Iván Pávlov.

Tal vez se debía al poco interés que despertaba en los estudiantes los hallazgos de un estudiante ruso de teología que perdió su fe al conocer la teoría evolutiva de Darwin.

O tal vez era su aversión personal a los perros, que la irritaban incluso como tema de conversación.

Y para hablar de Iván Pávlov tenía que hablar de los canes. No había escapatoria.

Pero esta clase de Introducción a la Psicología era particularmente pesada por la sección que le habían asignado.

No eran muy numerosos, unas veinte almas perdidas en el laberinto de sus teléfonos sin ningún brillo en los ojos que delatara el ánimo de la juventud.

El Iván Pávlov de los perros

Ni modo, a pesar de la fuerte presencia de la matrix en el aula, había que hacer el trabajo.

Sabía por experiencia que no hay peor pecado para un profesor que aburrirse de sus propias palabras.

Pero aburrida y toda, la profesora acudió al viejo truco de poner a hablar a los demás.

“¿Qué saben ustedes de Iván Pávlov?”, preguntó tratando de parecer interesada.

La pregunta flotó algunos instantes como una nube sobre las cabezas de los estudiantes para luego disolverse en una menuda lluvia de nada.

Perros y campanita

Después de unos segundos que no son segundos sino segmentos compactos de eternidad, una muchacha de los primeros puestos se atrevió a decir como quien expresa un comentario trivial: “¿Profe, ese no es el señor del perro y la campanita?”

Claro, no faltaba más. Así solía ser en estos casos. A partir de la clásica imagen del – para ella – repugnante perro salivante, le tocaba desarrollar su clase con un guión que se lo sabía de memoria:

La salivación de los perros asociada al sonido de la campana y la presencia de alimento se producía aunque no estuviera presente el alimento.
Este resultado llevó a Iván Pávlov a sentar la base teórica del condicionamiento clásico.
Esto es, que un organismo responde a un estímulo ambiental, originariamente neutro, con una respuesta automática o refleja.

Ahora solo quedaba mencionar como esto derivó en una teoría del aprendizaje y dejar el conductismo para la próxima clase.

Listo. No más Iván Pávlov de los perros. Apenas faltaba la pregunta de rigor para cerrar la clase y ser de nuevo una mujer libre.

Un brazo en alto

“¿Alguna pregunta?”, dijo esta vez con más ánimo porque casi siempre todos callan y luego se marchan.

Entonces, allá en los últimos puestos, alguien levantó un brazo.

Se trataba de uno de esos estudiantes de rostro tan común que si dejaba de verlo por un instante, se borraba de su conciencia casi de forma inmediata.

Al permitirle la intervención, se dio cuenta que sus ojos ya estaban diciendo un montón de cosas por adelantado.

“¿Me permite agregar un comentario a su clase?”, preguntó con cortesía pero decidido.

“¡Por supuesto!” Quiso preguntarle el nombre, pero decidió dejarlo anónimo y lejano.

“En primer lugar quisiera decir que más allá del condicionamiento clásico siempre asociado a la Psicología, Iván Pávlov es el gran precursor de la inteligencia artificial y un artífice importante de la conformación de nuestra contemporaneidad.”

Esas palabras chocaron contra su corazón de profesora y rebotaron hacia una zona incógnita de su otro corazón que no le enseñaba a nadie.

La máquina que aprende como los animales

“En 1951”, prosiguió el estudiante de rostro común, “Marvin Minsky, estudiante de Harvard, construyó una máquina inteligente basándose en las ideas de Iván Pávlov.

La máquina en cuestión aprendía con refuerzos similares a los de los animales.

En ese momento, los neurocientíficos aún no habían descubierto los mecanismos cerebrales que hacen que los animales aprendan así.

Pero Minsky aún era capaz de imitar libremente el comportamiento, avanzando así a la inteligencia artificial.

En un alto nivel, el aprendizaje de refuerzo sigue la intuición derivada de los perros de Iván Pávlov.

Los algoritmos no salivan pero aprenden

Es decir, es posible enseñar a un agente a dominar tareas complejas a través de una retroalimentación positiva y negativa.

Un algoritmo comienza a aprender una tarea asignada prediciendo aleatoriamente qué acción podría ganarle una recompensa.

Luego toma la acción, observa la recompensa real y ajusta su predicción en base al margen de error.

A lo largo de millones de pruebas, los errores de predicción del algoritmo convergen en cero.

Allí es cuando sabe con precisión qué acciones tomar para maximizar su recompensa y así completar su tarea. Fascinante, ¿Verdad?”

La profesora asintió y de pronto deseó ser una persona diferente.

Le hubiese gustado por ejemplo ser más ligera y espontánea.

Y querer a los perros y tener uno en casa, y que al acariciarlo la hiciera pensar en algoritmos y no en saliva de hambre y campana.

This post is also available in: English (Inglés)