Ir a página principal
ActualidadCientifica.com — Ciencia y tecnología en profundidad

Redes actor-critic con memristores analógicos abren una nueva vía para el aprendizaje por refuerzo

Un equipo internacional de investigadores ha presentado una nueva arquitectura de redes neuronales inspiradas en el cerebro que utiliza memristores analógicos para implementar el clásico esquema actor-critic del aprendizaje por refuerzo. El trabajo, publicado en una revista de alto impacto en inteligencia artificial, demuestra que estos circuitos físicos pueden aprender a tomar decisiones en entornos cambiantes con una eficiencia energética muy superior a la de los sistemas digitales convencionales.

Los memristores son componentes electrónicos cuyo estado de resistencia depende de la historia de las corrientes que han circulado por ellos. Esta memoria intrínseca los convierte en candidatos atractivos para emular sinapsis biológicas, ya que permiten codificar en el propio hardware la fuerza de las conexiones entre nodos de una red. En el nuevo estudio, los investigadores exploran cómo estos dispositivos pueden integrarse en una arquitectura actor-critic, en la que una parte de la red propone acciones y otra evalúa sus consecuencias en función de una señal de recompensa.

A diferencia de muchas implementaciones previas de aprendizaje por refuerzo, que se basan en grandes matrices de pesos digitales actualizadas mediante algoritmos numéricos, la propuesta se apoya en señales analógicas que circulan directamente por los memristores. Esto permite aprovechar la física del dispositivo para realizar parte del cálculo de forma inherente, reduciendo la necesidad de operaciones aritméticas en procesadores clásicos y disminuyendo el consumo de energía por operación de aprendizaje.

En los experimentos descritos, las redes actor-critic con memristores fueron capaces de aprender tareas de toma de decisiones en las que era necesario adaptarse a cambios en las reglas del entorno. El sistema recibía recompensas o castigos en función de sus acciones y ajustaba las resistencias de los memristores para reforzar las estrategias más exitosas. Con el paso de los ciclos de entrenamiento, la red no solo mejoraba su rendimiento, sino que también mostraba una notable capacidad para generalizar lo aprendido a situaciones ligeramente distintas de las vistas durante el entrenamiento.

El estudio subraya que uno de los puntos fuertes de esta aproximación es la integración de memoria y cálculo en el mismo componente físico. En los sistemas digitales tradicionales, los datos deben viajar continuamente entre la unidad de procesamiento y la memoria, lo que genera cuellos de botella y pérdidas de eficiencia conocidas como el problema de von Neumann. En cambio, los memristores actúan al mismo tiempo como elementos de almacenamiento y como nodos activos en el procesamiento, acercándose a la forma en que las sinapsis cerebrales almacenan y transforman información.

Desde el punto de vista de la neurociencia, la arquitectura actor-critic resulta especialmente interesante porque se inspira en la manera en que el cerebro parece combinar exploración y evaluación en tareas de aprendizaje por recompensa. Diversos modelos proponen que existen circuitos que se encargan de proponer acciones y otros que calculan señales de error o de predicción de recompensa. El uso de memristores analógicos permite implementar una versión física de este esquema, en la que las conexiones se refuerzan o debilitan según el resultado obtenido.

Los autores destacan que, aunque el prototipo estudiado trabaja con problemas relativamente simples, los principios demostrados son escalables. A medida que se desarrollen matrices de memristores más grandes y se perfeccionen las técnicas de fabricación, será posible abordar tareas más complejas, desde el control de robots autónomos hasta sistemas de decisión embebidos en sensores inteligentes. La posibilidad de ejecutar aprendizaje en tiempo real con un coste energético reducido abre la puerta a dispositivos capaces de adaptarse continuamente a su entorno.

En el ámbito de la ingeniería, uno de los desafíos será garantizar la fiabilidad y la reproducibilidad de los memristores cuando se integran en grandes redes. Estos dispositivos presentan variaciones de fabricación y comportamientos no lineales que deben tenerse en cuenta a la hora de diseñar arquitecturas robustas. El trabajo presenta estrategias para compensar parcialmente estas variaciones, como el uso de redundancia y algoritmos de calibración que ajustan los parámetros de la red a las características específicas de cada chip.

El avance se enmarca en una tendencia más amplia hacia el hardware neuromórfico, que busca acercar la computación artificial a las propiedades fundamentales del tejido nervioso. Frente al enfoque exclusivo en el software, esta línea de investigación explora cómo la elección de materiales, dispositivos y circuitos puede acelerar el aprendizaje automático y permitir que los sistemas de inteligencia artificial funcionen de manera más eficiente y autónoma en el mundo físico.

De cara al futuro, los investigadores apuntan a la posibilidad de combinar redes actor-critic con memristores con otras aproximaciones inspiradas en el cerebro, como los modelos de redes espaciotemporales o los sistemas que emulan directamente los patrones de disparo de las neuronas biológicas. La convergencia entre neurociencia, ingeniería electrónica e inteligencia artificial apunta a dispositivos que no solo ejecuten algoritmos, sino que incorporen en su propio hardware principios fundamentales del aprendizaje y la memoria. Si estas promesas se consolidan, el salto hacia sistemas verdaderamente autónomos y eficientes podría acercarse mucho más rápido de lo que sugerían los enfoques puramente digitales.

© 2025 Octavio Chaparro. Todos los derechos reservados.

Aviso legal: Este texto es obra original de su autor y se encuentra protegido por la legislación internacional de propiedad intelectual. Queda prohibida su reproducción total o parcial, distribución o comunicación pública sin autorización expresa del titular.

Ir a página principal