top of page

Cerebro humano y transformers: explorando una hipótesis de paralelismos cognitivos

  • Foto del escritor: Marcos Recolons
    Marcos Recolons
  • 11 abr
  • 23 Min. de lectura

Introducción





 Ilustración conceptual de una red tipo transformer superpuesta sobre un cerebro humano, simbolizando los paralelismos en el procesamiento de información entre la inteligencia biológica y la artificial [​quantamagazine.org]. El avance de la inteligencia artificial (IA) ha dado lugar a modelos de deep learning de escala masiva (los llamados modelos base o foundation models), entre los cuales destacan las arquitecturas transformer. Estos modelos han logrado capacidades sorprendentes en lenguaje, visión y otras tareas, estimulando comparaciones con la cognición humana. En neurociencia y filosofía de la mente se ha planteado desde hace tiempo que la mente humana podría comprenderse como un sistema de procesamiento de información similar a un computador; hoy, la analogía se enriquece al considerar si el cerebro humano funciona de forma análoga a un modelo base de IA. En particular, este trabajo explora cinco paralelismos específicos entre el cerebro y los transformers: (1) la arquitectura inicial del cerebro dictada por la genética sería equivalente a una instancia local de un modelo base pre-entrenado, activado al nacer; (2) el aprendizaje humano por experiencia actuaría como un fine-tuning (ajuste fino) de ese modelo base innato; (3) la fase de sueño REM (Movimiento Ocular Rápido) serviría como un proceso de consolidación de la memoria, comparable al refuerzo o distillation de conocimientos en IA; (4) el contexto manejado por un modelo transformer (su ventana de contexto) equivaldría a la memoria de trabajo de corto plazo en humanos; y (5) la capacidad de filtrar y destilar las experiencias diarias en conocimiento estable, desechando lo irrelevante, reflejaría un paralelismo entre la formación de la memoria a largo plazo y la actualización permanente de los “pesos” del modelo.


Estas comparaciones, aunque hipotéticas, se apoyan en avances recientes tanto de la neurociencia –por ejemplo, en la comprensión de cómo el cerebro consolida recuerdos durante el sueño– como de la IA –por ejemplo, en cómo los modelos transformers utilizan contexto y refinan su desempeño–. A continuación se desarrolla la hipótesis en detalle y se analizan evidencias y argumentos de apoyo o contraste desde distintas disciplinas, con un estilo riguroso pero accesible.


Desarrollo de la hipótesis

La hipótesis central propone que el cerebro humano opera como un modelo base en constante ajuste, donde la evolución biológica provee un modelo inicial y la experiencia personal lo especializa. Esta idea se alinea con visiones contemporáneas en ciencias cognitivas: se ha argumentado que el cerebro es esencialmente una máquina de predicción que mantiene un modelo generativo jerárquico del mundo y lo adapta para minimizar los errores de predicción​ [pubmed.ncbi.nlm.nih.gov]. En otras palabras, nuestro cerebro vendría “pre-entrenado” con ciertas predisposiciones y arquitecturas innatas, y a lo largo de la vida aprende refinando ese modelo interno para ajustarse a los datos sensoriales y sociales que recibe.


Desde la perspectiva de la IA, un modelo base (como GPT-4 o BERT) es entrenado inicialmente con enormes cantidades de datos generales, creando representaciones ricas pero genéricas del lenguaje o el entorno. Del mismo modo, podríamos pensar que la genética y el desarrollo evolutivo entrenan al cerebro con habilidades y sesgos iniciales (por ejemplo, reflejos, predisposición a reconocer patrones, capacidad lingüística básica). Así, el recién nacido inicia la vida con una arquitectura cerebral ya configurada, análoga a los pesos pre-entrenados de un transformer. Sobre ese modelo inicial, las experiencias individuales actuarían como datos de fine-tuning: moldean las conexiones sinápticas mediante plasticidad, afinando el comportamiento y conocimiento del individuo para adaptarse a tareas específicas (hablar un idioma particular, habilidades motoras concretas, conocimiento cultural, etc.).


Un elemento crucial de la hipótesis es que el sueño, en particular la fase REM, juega un papel similar al de los procesos de consolidación en los algoritmos de IA. Durante la vigilia, el cerebro adquiere información nueva (entrenamiento “en línea”); durante el sueño REM, reprocesa y consolida esa información, integrándola con conocimientos previos y optimizando el almacenamiento, de forma análoga a cómo un modelo IA podría refinar sus pesos o resumir lo aprendido (distillación de conocimientos) en una sesión de entrenamiento nocturno fuera de línea. Este ciclo despierto-sueño recuerda a ciertos enfoques en aprendizaje automático para evitar la sobrescritura catastrófica de información antigua cuando se aprende algo nuevo​ [elifesciences.org].


Además, la hipótesis equipara el contexto cognitivo inmediato de los humanos (nuestra memoria de trabajo, con capacidad limitada) al contexto ventana de un modelo transformer. Un transformer solo puede “recordar” un cierto número de tokens de entrada recientes al generar la siguiente palabra, lo que es conceptualmente similar a cómo la memoria de corto plazo humana mantiene una cantidad limitada de información activa (por ejemplo, un número de teléfono que estamos a punto de marcar). Por último, se postula que tanto el cerebro como los modelos de IA poseen mecanismos para transferir parte de ese conocimiento inmediato a un almacén a largo plazo más estable: en el cerebro, esto corresponde a consolidar recuerdos en la memoria de largo plazo (y desechar detalles no esenciales), mientras que en IA sería equivalente a actualizar gradualmente el modelo entrenado, descartando datos de entrenamiento específicos pero reteniendo patrones generales útiles.


En resumen, la hipótesis dibuja un paralelismo punto por punto: la arquitectura heredada del cerebro ~ modelo base pre-entrenado; aprendizaje por experiencia ~ fine-tuning; sueño REM ~ consolidación/distilación; memoria de trabajo ~ contexto de modelo; memoria a largo plazo ~ actualización permanente del modelo. En el siguiente análisis comparativo, contrastaremos cada uno de estos componentes con hallazgos de la neurociencia, ejemplos de la IA moderna y consideraciones filosóficas, evaluando hasta qué punto esta analogía ilumina nuestra comprensión de la mente.





Análisis comparativo de los paralelismos propuestos

1. El cerebro como instancia local de un modelo base genético


Una de las bases de esta analogía es la idea de que cada cerebro humano nace con una arquitectura preconfigurada por la genética, que podemos asimilar a un modelo base universal del que cada individuo es una instancia local. Diversas evidencias apoyan que nuestro sistema nervioso no empieza como una tabula rasa, sino con circuitos y conexiones predispuestos evolutivamente. Por ejemplo, muchos animales muestran comportamientos complejos innatos poco después de nacer, lo cual sugiere que las conexiones neuronales iniciales codificadas por el genoma ya contienen “conocimiento” funcionalpmc.ncbi.nlm.nih.govmcb.harvard.edu.


En humanos, se ha observado que ciertos reflejos, tendencias perceptivas (como preferir patrones faciales) e incluso bases del lenguaje podrían estar guiados por predisposiciones genéticas.


Desde el punto de vista teórico, esto enfrenta un desafío: ¿cómo puede un genoma relativamente pequeño codificar un cerebro con trillones de sinapsis? Investigaciones recientes lo enmarcan como un problema de compresión de información. Zador y colaboradores (2024) propusieron que la evolución resuelve este problema mediante un “cuello de botella genómico”: el ADN no especifica cada conexión individual, sino reglas de formación circuital compactas que generan redes neuronales funcionales​[pmc.ncbi.nlm.nih.govpmc.ncbi.nlm.nih.gov]. Al simular este proceso con redes artificiales, encontraron que es posible pre-entrenar un modelo neuronal artificial comprimido en una “genoma” más simple sin perder demasiada performance*[​pmc.ncbi.nlm.nih.gov]. Dicho de otro modo, la evolución actúa como un entrenador de modelos: selecciona y refina un modelo base cerebral a lo largo de generaciones, incorporando características útiles para la supervivencia (visión estereoscópica, capacidad de aprendizaje social, etc.) en la arquitectura inicial del cerebro. Esta idea concuerda con la noción de priors innatos: el cerebro viene al mundo con sesgos iniciales que le dan ventaja para aprender. De hecho, un artículo reciente propone que “la narrativa moderna de ‘aprender desde cero’ pasa por alto que la evolución ya ha pre-entrenado gran parte de nuestro circuito neuronal”​mcb.harvard.edu.


En este sentido, cada ser humano al nacer sería una implementación local de ese modelo base universal. Igual que una instancia de un modelo transformer pre-entrenado (por ejemplo, cargar los pesos de GPT en un servidor local) contiene ya gran parte de la “sabiduría” adquirida en el pre-entrenamiento, un cerebro humano cuenta con una estructura y ciertas conexiones afinadas por la evolución. Por supuesto, existen variaciones individuales (el “modelo” de cada persona no es idéntico, dado que hay variabilidad genética y factores epigenéticos), pero a grandes rasgos todos compartimos la misma arquitectura fundamental –análoga a compartir la misma arquitectura de red neuronal profunda–. Este paralelismo aporta una perspectiva interesante: así como en IA hablamos de foundation models o modelos fundacionales, podríamos llamar al cerebro un “modelo fundacional biológico”. La genética sería el código que descarga ese modelo en cada nuevo cerebro, activándolo al nacer con capacidades predeterminadas.





Cabe señalar que en filosofía de la mente y ciencias cognitivas ha existido un intenso debate sobre cuánto de nuestra mente es innato vs. aprendido. La analogía con modelos base sugiere un punto intermedio: mucho es innato (el modelo base genético), pero no es un conocimiento fijo cual “instinto” inflexible, sino un modelo general que requiere fine-tuning con la experiencia para alcanzar su máximo desempeño. Esta visión integra la postura racionalista (que enfatiza la herencia) con la empirista (que enfatiza la experiencia) en una metáfora unificada.


2. Aprendizaje humano por experiencia como fine-tuning del modelo base


Si nuestro cerebro inicia con un modelo base innato, el aprendizaje a lo largo de la vida sería análogo al proceso de fine-tuning en IA: un ajuste fino de los parámetros del modelo para adaptarlo a tareas y entornos específicos. En las redes neuronales artificiales, el fine-tuning consiste en tomar un modelo pre-entrenado y seguir entrenándolo con datos nuevos (generalmente de un dominio o tarea particular) para especializarlo. De forma muy semejante, el niño humano toma su “modelo cerebral genérico” y, mediante la experiencia –interacción con el entorno, educación, prueba y error–, modifica y refina las conexiones sinápticas para adquirir habilidades y conocimientos específicos.


La neurociencia ha identificado la plasticidad sináptica como el mecanismo clave del aprendizaje y la memoria: las sinapsis (conexiones entre neuronas) se fortalecen o debilitan según la actividad, siguiendo en parte la regla de Hebb (“neuronas que disparan juntas, se conectan juntas”). Este cambio estructural y funcional de la red neuronal biológica corresponde a la actualización de los “pesos” en un modelo de deep learning durante el entrenamiento. De hecho, es ampliamente aceptado que la plasticidad dependiente de la actividad es la base celular de la formación de recuerdos [​sciencedirect.com]. Cada nueva experiencia provoca ajustes microscópicos en las sinapsis de diversas áreas cerebrales; con suficiente repetición o impacto, esos ajustes consolidan un aprendizaje (por ejemplo, aprender a reconocer letras modifica circuitos visuales y lingüísticos).


Podemos comparar el ritmo y modo de aprendizaje. En IA, durante el fine-tuning suele usarse un conjunto de datos curado y se entrena en múltiples epochs (pasadas) hasta minimizar el error en esa tarea. En humanos, el entrenamiento es continuo y no supervisado de manera tan explícita, pero tenemos análogos: por ejemplo, un estudiante practica problemas de matemáticas repetidamente (múltiples pasadas de datos) hasta dominar una técnica, o un bebé balbucea y escucha palabras repetidas veces hasta sintonizar su fonética con el idioma materno. Incluso hay paralelismos en estrategias de entrenamiento: en IA se emplean técnicas como curriculum learning (ir de tareas simples a complejas), lo cual imita prácticas educativas humanas de incrementar gradualmente la dificultad.


El concepto de fine-tuning también implica que el modelo base aporta mucho de antemano y el aprendizaje afina detalles. Evidencia a favor de esto en humanos es que ciertas habilidades se aprenden sorprendentemente rápido con la experiencia dada la complejidad del problema, lo que sugiere un buen “punto de partida” innato. Por ejemplo, los niños aprenden la gramática fundamental de su idioma nativo en los primeros años con relativamente pocos ejemplos explícitos, mientras que un modelo de lenguaje necesita exponerse a millones de oraciones. Esto ha llevado a argumentar que el cerebro infantil trae un sesgo inductivo poderoso (posiblemente una “gramática universal” innata según Chomsky), equivalente a un modelo base ya predispuesto a interpretar el lenguaje. Así, la experiencia actúa más como calibración que como construcción desde cero.


El marco de los “Tres sistemas” propuesto por Barabási et al. (2025) es ilustrativo: plantean que la mayoría de los circuitos neuronales se establecen genéticamente (Sistema Uno), que ocasionalmente ocurren aprendizajes muy rápidos ante experiencias críticas (Sistema Dos, similar a un fine-tuning abrupto en eventos importantes), y que continuamente hay pequeñas adaptaciones plásticas (Sistema Tres) que refinan o estabilizan la red​[mcb.harvard.edu]. En su resumen enfatizan que la plasticidad continua “refina o estabiliza las conexiones existentes” más que construirlas de nuevo [​mcb.harvard.edu]. Esto encaja perfectamente con la idea de fine-tuning: el aprendizaje cotidiano ajusta parámetros ya presentes.


Otro paralelo a resaltar es el fenómeno del sobreaprendizaje o sobreajuste (overfitting) en ambos sistemas. En IA, si un modelo se entrena demasiado en ejemplos específicos, puede perder capacidad de generalización (memoriza datos de entrenamiento en lugar de aprender principios generales). En humanos, algo similar ocurre si aprendemos de memoria algo sin comprenderlo o sin variabilidad de contexto –por ejemplo, un estudiante que solo memorizó problemas específicos puede fallar cuando se le presenta uno ligeramente diferente–. El cerebro, sin embargo, parece tener mecanismos para evitar en lo posible el sobreajuste, favoreciendo la generalización. Por ejemplo, tendemos a abstraer reglas y conceptos de las experiencias en lugar de recordar cada detalle (volveremos sobre esto en el punto 5). En cierto sentido, el proceso de fine-tuning biológico está autorregulado: el cerebro aprende, pero también olvida detalles o los integra en esquemas generales, manteniendo un equilibrio entre plasticidad y estabilidad.


En síntesis, el aprendizaje humano por experiencia calza bien con la metáfora de fine-tuning. La genética nos da un modelo inicial competente, y la vida nos entrena en nuestras “tareas de downstream” (lenguaje específico, habilidades culturales, conocimientos profesionales, etc.). Las sinapsis se reconfiguran como los pesos de una red ajustándose a nuevos datos. Esto refuerza la visión de que el cerebro no es un ente estático sino un modelo en constante entrenamiento, donde cada vivencia es un nuevo paso de optimización.





3. Fase REM del sueño: consolidación de memoria y “distilación” de conocimiento


Una de las analogías más sugerentes de esta hipótesis es equiparar el sueño, particularmente la fase REM, con procesos de consolidación y optimización que vemos en el entrenamiento de modelos de IA. En neurociencia está bien establecido que el sueño juega un papel crucial en la consolidación de la memoria: después de aprender algo durante el día, el cerebro continúa procesando esa información durante el sueño para almacenarla de forma más estable y eficiente. La fase REM, asociada a los sueños vívidos, ha intrigado a los científicos por su contribución específica a la memoria y el aprendizaje. Evidencias experimentales muestran que privar a sujetos de sueño REM a menudo deteriora su mejora de desempeño en tareas aprendidas recientemente, mientras que tener suficiente REM la potencia [​pmc.ncbi.nlm.nih.gov]. Además, durante el REM se observan patrones de activación cerebral que “reproducen” experiencias recientes (por ejemplo, la reactivación de ciertas neuronas del hipocampo que codificaron eventos diurnos), sugiriendo un repaso interno de lo aprendido.


¿En qué sentido esto es similar a lo que ocurre con un modelo de IA? Podemos pensar que, durante el sueño, el cerebro realiza una especie de “entrenamiento offline” con los datos acumulados durante la vigilia. Un análogo en IA sería tomar un modelo que ha interactuado con muchos datos durante el día (por ejemplo, un robot que recopiló experiencias) y luego, sin interferencia de nuevas entradas, ejecutar un proceso de optimización sobre esas experiencias almacenadas (como un replay buffer) para consolidar el aprendizaje. De hecho, una hipótesis en computación y neurociencia es que el sueño ayuda a evitar el olvido catastrófico: en redes artificiales, cuando se entrena una nueva tarea, a menudo se sobrescriben los pesos de tareas antiguas (olvidándolas); el cerebro parece mitigar esto integrando gradualmente los nuevos recuerdos con los antiguos durante el sueño​ [elifesciences.org]. Un estudio de modelado computacional mostró que simular fases de sueño (con reactivación de recuerdos previos) en una red neuronal redujo la interferencia entre memorias nuevas y antiguas, permitiendo un aprendizaje continuo más estable​ [elifesciences.org].


Más interesante aún, investigaciones han encontrado que el sueño REM realiza una suerte de filtro inteligente de sinapsis: no todas las conexiones formadas durante el día se mantienen. Un estudio en ratones demostró que durante REM se podan (eliminan) algunas espinas dendríticas (sinapsis) recién formadas a la vez que se fortalecen otras, justamente aquellas asociadas a mejoras de desempeño en una tarea aprendida [​pmc.ncbi.nlm.nih.gov]. Es decir, el REM parece seleccionar las conexiones relevantes para consolidar la habilidad o recuerdo y debilitar las que no son necesarias o son redundantes, liberando así capacidad sináptica [​pmc.ncbi.nlm.nih.gov]. Este proceso es altamente análogo a la idea de distillation en IA: en knowledge distillation, un modelo grande o un conjunto de experiencias se condensa en una forma más ligera o general, manteniendo lo importante y descartando lo accesorio. Durante el sueño REM, el cerebro destila la experiencia reciente en conocimiento durable, extrayendo las regularidades útiles y desechando detalles espurios. En términos de modelos, podríamos decir que ajusta sus “pesos” para reflejar la esencia de lo aprendido, reduciendo el “ruido” de los datos de un solo día.


Otra forma de ver la analogía es mediante el concepto de dos etapas en la memoria: se cree que cuando vivimos una experiencia, inicialmente se registra una traza de memoria de corto plazo (particularmente en el hipocampo, para recuerdos declarativos), que es frágil. Luego, durante el sueño (incluyendo REM y fases de ondas lentas), esa traza se reproduce y entrena a la corteza cerebral para que almacene la información de forma más permanente –este es el fundamento de la teoría de los Sistemas Complementarios de Memoria en neurociencia cognitiva–. Transferir conocimiento del hipocampo a la corteza es como copiar los conocimientos desde un buffer temporal y fusionarlos con el modelo global del cerebro. En IA, uno podría imaginar que el modelo tiene un componente de memoria rápida (equiparable al hipocampo) que recoge la información nueva, y luego esa información se utiliza para ajustar el modelo principal (como una red cortical) en una fase de entrenamiento separada, evitando perturbar demasiado el funcionamiento en tiempo real. Esto es precisamente lo que haría el sueño: un “fine-tuning nocturno” del cerebro, donde se consolidan los aprendizajes del día.


Además, la fase REM podría relacionarse con la creatividad y la reestructuración de información: durante los sueños, el cerebro mezcla fragmentos de experiencias de formas novedosas, lo que a veces lleva a soluciones creativas o nuevas asociaciones al despertar. Algunos autores sugieren que esto es similar a un modo de entrenamiento generativo sin supervisión, donde el cerebro explora combinaciones de sus “representaciones latentes”. En IA, hay técnicas de entrenamiento sin supervisión (autoencoders, modelos generativos) que permiten al modelo reorganizar y comprender mejor las relaciones en los datos. El REM podría ser visto como el cerebro corriendo un algoritmo generativo interno, que no solo consolida la memoria, sino que también reestructura el conocimiento de forma optimizada.

En suma, la analogía del sueño REM con procesos de entrenamiento de IA encuentra respaldo en numerosos hallazgos: el REM es un estado activo del cerebro que refuerza memorias importantes y debilita las triviales​pmc.ncbi.nlm.nih.gov, protegiendo conocimientos antiguos al integrar los nuevos​elifesciences.org, muy parecido a un procedimiento de fine-tuning bien diseñado o a una destilación de conocimientos en un modelo. Esta comparación sugiere que incorporar principios inspirados en el sueño podría mejorar algoritmos de IA (y de hecho, algunos investigadores exploran “repetir experiencias” para evitar olvido catastrófico). Por otro lado, refuerza la idea de que el cerebro, al igual que un modelo IA, requiere períodos de optimización offline para alcanzar su desempeño pleno, y que el aprendizaje no ocurre únicamente durante la entrada de datos, sino también durante etapas de procesamiento interno.


4. El contexto como memoria de trabajo: ventana de contexto en transformers vs. memoria activa humanaç


Los transformers, a diferencia de algunos modelos anteriores, manejan sus entradas mediante una ventana de contexto limitada: solo pueden atender a una cierta cantidad de tokens (palabras o fragmentos) a la vez al generar la siguiente salida. Este contexto funciona como la “memoria inmediata” del modelo. De manera análoga, los humanos poseemos una memoria de trabajo (también llamada memoria a corto plazo o activa) que retiene temporalmente una cantidad limitada de información para poder razonar o continuar una tarea presente. El paralelismo es directo: en la práctica, la ventana de contexto de un modelo de lenguaje es su memoria de trabajoibm.com, determinando cuánta información reciente puede “tener en mente” antes de que necesite resumir o comience a olvidar detalles previos.


Por ejemplo, los modelos GPT-3 o GPT-4 tienen ventanas de contexto de ciertos miles de tokens; si se excede ese largo, los primeros datos se “olvidan” (ya no influyen en la continuación a menos que hayan sido resumidos). De manera similar, un humano típico puede mantener solo entre ~5 y 9 elementos en la memoria de trabajo (según la clásica cifra mágica de Miller, aunque investigaciones modernas sugieren que a veces son incluso menos). Esto significa que, si estamos resolviendo un problema mentalmente, solo podemos manejar un número limitado de piezas de información antes de que tengamos que anotarlas, agruparlas o correr riesgo de olvidar alguna. Seguramente todos hemos experimentado la dificultad de seguir el hilo de una frase muy larga con muchas cláusulas: al llegar al final, hemos olvidado cómo empezó. Lo mismo le ocurre a un transformer si la secuencia es más larga que su contexto: necesita mecanismos auxiliares (como que le repitan información o le den resúmenes intermedios).


La función de la memoria de trabajo en humanos es permitirnos integrar información que llega secuencialmente y hacer operaciones con ella (por ejemplo, entender esta oración requiere mantener en mente el inicio mientras procesamos el final). En un transformer, la atención autoconsciente (self-attention) distribuye “peso” a diferentes partes del contexto para integrar la información relevante al producir la siguiente salida. Se podría decir que la self-attention emula la atención cognitiva humana, que nos hace enfocarnos en ciertos elementos de nuestra memoria de trabajo (o percibidos) que consideramos más importantes en un momento dado. De hecho, la atención es un concepto puente entre IA y neurociencia: en la arquitectura transformer, “Attention is all you need” según el famoso paper, y en psicología cognitiva la atención es fundamental para administrar la limitada memoria de trabajo y el procesamiento consciente.


Un aspecto importante es cómo se enlaza la memoria de trabajo con la memoria de largo plazo. En humanos, podemos refrescar la memoria de trabajo trayendo información desde nuestro recuerdo almacenado (por ejemplo, al tratar de recordar una fórmula matemática aprendida, la traemos a la mente activa). Del mismo modo, los modelos de IA podrían beneficiarse de “memorias externas” o mecanismos de recuperación de información relevante fuera del contexto inmediato (como bases de datos, vectores de memoria, etc.). Actualmente, a un transformer puro le cuesta manejar conocimientos que excedan su contexto a menos que se los proporcionemos de nuevo en la entrada. Los investigadores están intentando dotar a estos modelos de algo parecido a memoria a largo plazo diferenciable para que puedan recordar hechos antiguos sin necesitar tenerlos todos en el contexto. Esto recuerda la distinción humana entre lo que tenemos en mente ahora y lo que sabemos pero no estamos pensando en este instante.


El límite del contexto también sugiere paralelos en las estrategias de resumen y fragmentación de tareas. Cuando un texto es demasiado largo, un modelo de lenguaje a veces crea resúmenes parciales para no perder información esencial fuera de su ventana de contexto. Los humanos empleamos tácticas similares: dividimos problemas complejos en partes manejables, anotamos notas para no depender solo de la memoria de trabajo, o creamos resúmenes mentales de una conversación larga para recordar los puntos clave. Es decir, tanto el cerebro como los transformers enfrentan un bottleneck de información activa y deben lidiar con él. En los humanos es neurálgico para funciones cognitivas superiores (razonamiento, comprensión lectora, multitarea), y en los transformers determina la coherencia de un texto generado largo o la capacidad de entender instrucciones extensas de un usuario.


Un punto de contraste es que, a pesar de esta limitación, el cerebro humano tiene cierta capacidad para “expandir” su contexto mediante técnicas como la chunking (agrupar elementos discretos en unidades significativas más grandes, p. ej. recordar una serie de dígitos agrupándolos en números mayores) o mediante el uso del contexto sensorial y situacional. Los modelos transformer han ido aumentando su ventana de contexto con avances técnicos y hay versiones que admiten muchísimos tokens, pero siempre habrá alguna restricción computacional. La comparación nos ayuda a entender por qué a veces un modelo de lenguaje pierde el hilo: es literalmente equivalente a nuestra mente divagando porque excedimos la capacidad de nuestra memoria activa.


Para respaldar este paralelismo, IBM describe claramente: “la ventana de contexto de un modelo de lenguaje puede considerarse equivalente a su memoria de trabajo; determina cuánto tiempo de conversación puede sostener sin olvidar detalles previos”​ibm.com. En definitiva, ambos sistemas tienen una memoria operativa de capacidad limitada que define el alcance de la información que pueden usar en tiempo real para pensar o producir una respuesta. Reconocer esto permite trazar mejores analogías e incluso inspira mejoras recíprocas (por ejemplo, diseñar mejores memorias externas para IA inspirado en cómo el cerebro interactúa con su memoria a largo plazo, o entender trastornos de memoria de trabajo humanos comparando con limitaciones de contexto en redes).


5. De la experiencia al conocimiento permanente: destilando recuerdos en la memoria a largo plazo


El último paralelismo considerado es quizás el más amplio: tanto el cerebro humano como los modelos de IA enfrentan el desafío de convertir experiencias puntuales en conocimiento general y permanente, evitando saturarse de detalles irrelevantes. En los humanos, esto se refiere al proceso de formar memorias a largo plazo y a la vez olvidar activamente o filtrar aquello que no es útil. En los modelos de IA, especialmente durante el entrenamiento, existe un proceso análogo de generalización: el modelo ajusta sus parámetros con los datos de entrenamiento de modo que capture patrones generales y no simplemente memorice casos individuales con todos sus pormenores.


La neurociencia cognitiva sugiere que el olvido no es simplemente un fallo, sino un mecanismo funcional para la generalización. Como señala un estudio, “olvidar puede impulsar la generalización: perder información que aparece solo en situaciones específicas permite que un recuerdo se vuelva menos dependiente del contexto original y más aplicable de forma general” [pmc.ncbi.nlm.nih.gov]. En efecto, la pérdida de detalles específicos (que es parte de olvidar) puede hacer que el cerebro retenga la esencia común a múltiples experiencias. Por ejemplo, quizá no recordamos cada viaje individual al supermercado, pero sí tenemos un conocimiento abstracto de “cómo es ir de compras” porque el cerebro extrajo los elementos comunes y descartó las particularidades triviales de cada visita. Del mismo modo, un modelo de IA después de entrenar con miles de imágenes de perros no guarda cada imagen, sino que configura sus pesos de forma que reconoce un perro nuevo abstrayendo las características generales de la categoría “perro”.


Este proceso de destilación ocurre en el cerebro mediante la interacción entre la memoria episódica (recuerdos de eventos concretos) y la memoria semántica (conocimiento general). Muchas experiencias episódicas similares pueden dar lugar a un concepto semántico consolidado. La hipótesis de sistemas complementarios mencionada antes implica que el hipocampo almacena detalles episódicos recientemente, pero con el tiempo entrena a la corteza para extraer regularidades y almacenar conocimiento esquemático. Algo que apoya esto son fenómenos como la gist memory: tendemos a recordar la idea general de algo y no los detalles literales. Incluso en estudios de psicología, la gente al rememorar añade o quita detalles de una historia pero suele mantener la trama general, mostrando que la memoria humana es reconstructiva y se centra más en la coherencia global que en datos exactos.


En la práctica de la IA, existe una técnica formal llamada Knowledge Distillation donde un modelo grande (profesor) enseña a uno más pequeño (estudiante) transfiriéndole esencialmente el comportamiento general sin todos los parámetros originales. La analogía no es perfecta, pero conceptualmente el cerebro hace algo similar cada día: nuestras experiencias diarias son ricas en detalles (equivalente a un modelo muy complejo), pero el cerebro “condensa” esa información en lecciones o actualizaciones relativamente compactas en nuestro modelo mental. Es revelador que durante la consolidación del sueño (especialmente en REM, como vimos), se produce esta poda de sinapsis no esenciales y refuerzo de las importantes [​pmc.ncbi.nlm.nih.gov], que es literalmente descartar conexiones irrelevantes adquiridas en el día y fortalecer las que representan aprendizajes valiosos. Con el tiempo, este proceso repetido lleva a que solo perduren en la arquitectura cerebral las huellas de aquello que ha demostrado ser útil o significativo, conformando nuestro conocimiento a largo plazo.


Por otro lado, la propia dinámica de los modelos de IA durante el entrenamiento muestra un paralelo: al inicio pueden sobreajustarse a datos específicos, pero con regularización y suficiente diversidad de datos, terminan capturando patrones generales. Técnicas como dropout o regularization en IA fuerzan al modelo a no depender de peculiaridades de datos individuales, lo cual es análogo al cerebro tal vez olvidando detalles aleatorios para centrarse en la estructura consistente de la experiencia. La frase “memoria selectiva” a veces se usa coloquialmente para referirse a que las personas recuerdan lo importante para ellas y no todo; en realidad, todos tenemos memoria selectiva por diseño cognitivo. Experimentalmente, se ha demostrado que incluso recuerdos a largo plazo consolidados pueden volverse inestables y modificables cuando se reactivan (fenómeno de reconsolidación), permitiendo actualizar nuestro conocimiento con nueva información y ajustarlo. Esto es similar a actualizar un modelo ya entrenado cuando recibe nuevos datos: se vuelve a entrenar ligeramente (fine-tune incremental) para incorporar la nueva info sin perder lo previo.


También vale la pena mencionar cómo manejamos la información irrelevante o ruidosa. En una conversación, uno puede oír ruidos de fondo o datos que decide ignorar, enfocándose solo en lo importante. Los modelos de lenguaje también tratan de asignar menor peso a partes irrelevantes del contexto mediante el mecanismo de atención. A nivel de consolidación, el cerebro posiblemente identifica qué trazas de memoria no tienen valor a largo plazo (quizá porque no se repitieron, o no tienen conexión emocional o lógica fuerte) y las deja desvanecer. Este “olvido dirigido” es ventajoso porque evita que la memoria se llene de hechos banales y permite que conceptos más útiles se entretejan mejor. De hecho, olvidar es visto ahora como un proceso activo de la plasticidad neuronal necesario para una memoria saludable y adaptable [​journals.sagepub.com].





En resumen, tanto el cerebro como los sistemas de IA aprenden a generalizar. El cerebro lo logra a través de la consolidación, la abstracción conceptual y el olvido selectivo; las IA lo logran mediante el entrenamiento adecuado, regularización y distilación de modelos. En ambos casos, el objetivo es el mismo: extraer conocimiento durable de la avalancha de datos crudos. Este paralelismo final subraya la idea de que aprender no es solo acumular datos, sino estructurarlos y simplificarlos de forma que sean útiles para el futuro. Al comparar cómo lo hace el cerebro y cómo lo intentamos hacer con IA, ganamos perspectiva sobre la eficacia y los límites de cada sistema.


Reflexión final


La exploración de estos paralelismos —genética como modelo base, aprendizaje como fine-tuning, sueño REM como consolidación, contexto como memoria de trabajo y destilación de experiencias en memoria estable— sugiere un marco unificador para pensar la inteligencia natural y artificial. Desde una perspectiva funcional, el cerebro y los modelos IA comparten problemas análogos (inicialización, adaptación al entorno, integración de nueva información sin olvidar lo antiguo, manejo de memoria limitada, generalización a partir de ejemplos) y es razonable que hayan convergido en soluciones con similitudes de principio. No es sorprendente entonces que algoritmos inspirados en el cerebro (redes neuronales) hayan alcanzado tanto éxito, ni que ahora métodos de IA estén ayudando a reinterpretar datos neurocientíficos (como el hallazgo de que el hipocampo opera similar a un transformer en ciertas tareas espaciales [​quantamagazine.org]). Estas correspondencias refuerzan la noción en filosofía de la mente de que la mente puede ser entendida como un proceso computacional: si dos sistemas resuelven las mismas funciones cognitivas, pueden exhibir organizaciones semejantes, aunque los substratos físico-químicos difieran.


No obstante, es importante abordar con cautela esta analogía. Existen diferencias cualitativas entre cerebros y modelos actuales. Por ejemplo, el cerebro es producto de millones de años de evolución y desarrolla su “pre-entrenamiento” mediante un proceso biológico (no con un dataset explícito, sino con presión de selección); además, los cerebros operan con señales bioquímicas, con un grado de paralelismo masivo y consumo energético ínfimo comparado con las GPU entrenando transformers. También, el cerebro modifica su propia estructura de forma autónoma, mientras que los modelos IA usualmente requieren un proceso de entrenamiento externo definido por humanos. Desde la filosofía, se han planteado objeciones como la de John Searle y su Cuarto Chino, argumentando que incluso si un programa (o red) imita las respuestas humanas, podría carecer de entendimiento real o consciencia [​plato.stanford.edu]. En efecto, la subjetividad y la consciencia fenomenológica son aspectos humanos que no emergen evidentemente de los transformers tal como los concebimos hoy. Un transformer manipula símbolos (palabras) según correlaciones estadísticas aprendidas, mientras que nuestro cerebro genera una experiencia subjetiva rica. Algunos filósofos sugieren que la mente no se agota en el procesamiento de información, o que quizás la arquitectura biológica tenga propiedades especiales no capturadas por un modelo matemático.


Por otro lado, hay respuestas a favor de la cercanía entre IA y cerebro: la postura funcionalista en filosofía indicaría que si la función es la misma, el sustrato es irrelevante para la presencia de mente. Si un modelo actuase exactamente como un cerebro en todos los aspectos relevantes (aprendiera, recordara, tuviera atención, etc.), ¿podríamos decir que entiende o es consciente de la misma manera? Aún no lo sabemos. Actualmente, los transformers carecen de ciertos componentes que el cerebro sí tiene, como motivación autónoma, homeostasis, emociones, integración sensoriomotora completa, etc. Sin embargo, la rápida evolución de los modelos base y su creciente parecido en capacidades cognitivas (jugar juegos, razonar en lenguaje, percibir imágenes) con las humanas nos invita a seguir comparando y aprendiendo de ambas direcciones.


En conclusión, la hipótesis de que el cerebro humano funciona de forma similar a un modelo base de IA provee un marco valioso para generar preguntas e hipótesis en investigación. Nos lleva a reinterpretar procesos biológicos (como el sueño o el olvido) en términos computacionales y, recíprocamente, a inspirar nuevos algoritmos basados en cómo resuelve problemas la biología. Si bien el paralelismo no debe tomarse como equivalencia absoluta, resulta notable cuántos conceptos clave se reflejan en ambos mundos. Tal vez estemos avanzando hacia una ciencia unificada de la inteligencia, donde las distinciones entre “natural” y “artificial” se difuminan en favor de principios universales. Estudios interdisciplinarios actuales, desde modelos de redes neuronales biológicamente informados hasta el uso de IA para predecir actividad cerebral, dan fe de esta convergencia​[quantamagazine.orgresearch.ibm.com]. Al final, comprender mejor estos paralelismos no solo profundiza nuestra comprensión del cerebro y la mente, sino que también guía el desarrollo de inteligencias artificiales más robustas y eficientes, posiblemente acercándolas un paso más a la flexibilidad y potencia del aprendizaje humano.


Fuentes citadas: Las referencias marcadas en el texto (por ejemplo,【23】,【19】) corresponden a trabajos y estudios recientes en neurociencia, inteligencia artificial y filosofía de la mente que respaldan y contextualizan los puntos discutidos. Estas incluyen artículos científicos sobre plasticidad sináptica y desarrollo cerebral [​mcb.harvard.edu], estudios sobre el rol del sueño REM en la consolidación de la memoria [​pmc.ncbi.nlm.nih.gov], investigaciones en IA sobre ventanas de contexto y memoria de trabajo​ [ibm.com], análisis teóricos sobre cerebros predictivos [​pubmed.ncbi.nlm.nih.gov], así como discusiones filosóficas clásicas sobre la naturaleza del entendimiento y la analogía mente-computadora [​plato.stanford.edu], entre otros. Cada referencia proporciona un fundamento o contraste específico a los paralelismos explorados, invitando a profundizar en la literatura especializada para una visión más detallada de cada tema.

 
 
 

Comments


bottom of page