La caja negra empieza a abrirse

IA · Dentro de la caja negra

Durante años, la gran incomodidad de la inteligencia artificial no ha sido lo que hace, sino que no sabemos por qué lo hace.

Un modelo de lenguaje te responde, te traduce, te resume, te engaña. Pero si le preguntas a sus creadores cómo llega exactamente a esa respuesta, la honestidad les obliga a admitir que no lo saben del todo. El modelo es una caja negra: entran datos, salen resultados, y en medio hay miles de millones de parámetros interactuando de formas que ningún ser humano puede seguir.

Eso está cambiando.

Se llama interpretabilidad mecánicamechanistic interpretability en inglés — y es probablemente la rama más fascinante y menos discutida de la investigación actual en IA. Su objetivo es tan simple de enunciar como brutal de ejecutar: entender qué está pasando realmente dentro de una red neuronal. No como caja negra con entradas y salidas, sino a nivel de circuitos, de neuronas individuales, de mecanismos concretos.

Los resultados que están saliendo son, francamente, desconcertantes.

Investigadores de Anthropic han publicado trabajos en los que identifican “características” dentro de los modelos: representaciones internas que corresponden a conceptos reconocibles. Una dirección en el espacio de activaciones puede codificar el concepto de “capital europea”. Otra, el de “sarcasmo”. Otra, algo funcionalmente parecido al miedo.

¿La IA tiene algo parecido al miedo? No en el sentido humano, obviamente. Pero tiene representaciones internas que funcionan de forma análoga: estados que influyen en el comportamiento del modelo de maneras que recuerdan, estructuralmente, a cómo las emociones influyen en el comportamiento humano.

Esto no es trivial. Es inquietante y maravilloso a partes iguales.

Por qué importa en Europa

La interpretabilidad mecánica no es solo una curiosidad académica. Tiene implicaciones directas para la regulación.

El AI Act europeo exige transparencia, explicabilidad, rendición de cuentas para los sistemas de alto riesgo. Pero ¿cómo rindes cuentas de algo que no entiendes? Si un modelo decide que alguien no es apto para un crédito, o que una imagen es sospechosa, o que un texto es desinformación, la transparencia legal choca de frente con la opacidad estructural de los modelos actuales.

Desde Bruselas, donde trabajo, observo cómo el debate regulatorio avanza con más velocidad que la ciencia que debería sustentarlo. Las normas se redactan, los artículos se aprueban, los plazos se fijan. Pero el conocimiento real sobre qué ocurre dentro de los modelos sigue siendo fragmentario.

La interpretabilidad mecánica es, en este sentido, una herramienta política además de científica. Entender cómo funcionan los modelos por dentro es el prerrequisito para poder regularlos de verdad, no solo sobre el papel.

Estamos aún en los primeros compases. Los modelos actuales tienen cientos de miles de millones de parámetros, y cartografiar sus circuitos internos es como intentar entender una ciudad leyendo el plano de una sola manzana. Pero la dirección es la correcta, y el ritmo está acelerando.

La caja negra empieza a abrirse. Y lo que hay dentro es más extraño — y más interesante — de lo que esperábamos.

Respuesta

  1. Avatar de Beatriz

    Muy interesante! ☺️. Desde el Bierzo, Beatriz

    Le gusta a 1 persona

Replica a Beatriz Cancelar la respuesta