La serpiente que se come a sí misma

En la carrera por entrenar modelos más inteligentes, hay un problema que nadie vio venir: internet se está llenando de contenido que no fue creado por humanos.
Fotocopias de fotocopias
Hay un experimento que cualquiera puede hacer en casa. Tomá una foto, hacele una fotocopia. Después hacele una fotocopia a esa fotocopia. Repetí el proceso diez veces. Lo que empezó como una imagen nítida termina como una mancha irreconocible. Cada iteración pierde información, amplifica errores, degrada la señal original hasta que no queda nada útil.
Esto es exactamente lo que le está pasando a la inteligencia artificial. En julio de 2024, un equipo de investigadores de Oxford y Cambridge publicó en Nature un hallazgo perturbador: cuando los modelos de lenguaje se entrenan con texto generado por otros modelos de lenguaje, colapsan. Primero pierden los matices. las expresiones raras, las perspectivas minoritarias, los casos extremos. Después, generación tras generación, convergen hacia outputs cada vez más homogéneos hasta producir sinsentidos. Los investigadores lo llamaron "model collapse". Otros prefieren nombres más viscerales: "IA Habsburgo", "canibalismo digital", o simplemente, el ouroboros. la serpiente que se come su propia cola.
El veneno ya está en el agua
El problema no es teórico. Para 2026, se estima que el 90% del contenido en internet será sintético. Los modelos actuales se entrenan raspando la web. Wikipedia, artículos, foros, redes sociales. Pero esa misma web que alimenta a los modelos ahora está siendo colonizada por sus outputs. Artículos escritos por ChatGPT, imágenes generadas por Midjourney, código producido por Copilot. Cada día se suben 30 millones de imágenes generadas por IA. El veneno ya está en el agua.
Y aquí aparece la conexión con algo que exploramos antes. En "El arte de preguntar" describimos cómo el método socrático. guiar sin imponer, preguntar sin dar respuestas. es la base del RLHF, el proceso mediante el cual humanos entrenan a las máquinas. Evaluadores humanos juzgan qué respuesta es mejor, más precisa, más ética. Ese feedback es el ingrediente crítico que hace que los modelos mejoren. Pero si el contenido que los evaluadores ven ya está contaminado. si ya no pueden distinguir qué es genuinamente humano. el círculo virtuoso se rompe. El método socrático funcionaba porque Sócrates era humano, y sus interlocutores también. ¿Qué pasa cuando ya no podés estar seguro de eso?
Probar que sos humano
Sam Altman, el CEO de OpenAI, aparentemente vio este problema antes que la mayoría. En 2019. cuatro años antes de que ChatGPT explotara. cofundó un proyecto paralelo con una premisa extraña: escanear el iris de cada persona en el planeta. El proyecto se llama World (antes Worldcoin), y su objetivo es crear lo que llaman "prueba de humanidad". una credencial digital que demuestra que sos una persona real y única, sin revelar quién sos.
La mecánica es simple pero ambiciosa. Un dispositivo esférico llamado "Orb" escanea tu iris. el patrón más único y difícil de falsificar del cuerpo humano. Ese escaneo genera un identificador criptográfico que se almacena localmente en tu teléfono. Cuando necesitás probar que sos humano, usás una prueba de conocimiento cero que verifica tu humanidad sin revelar tu identidad. No es ciencia ficción. Ya hay millones de personas verificadas en más de 20 países.
La ironía es difícil de ignorar: el hombre que creó la herramienta más poderosa para generar contenido sintético también creó la herramienta para distinguir humanos de sus creaciones. Pero quizás no es ironía. es previsión. Altman entendió que en un mundo donde cualquiera puede generar texto, imagen y video indistinguibles de lo real, la pregunta "¿esto lo hizo un humano?" se vuelve la pregunta más importante de todas.
El nuevo recurso escaso
Hace no mucho tiempo, el recurso escaso era la información. Saber algo que otros no sabían te daba ventaja. Después, cuando internet democratizó el acceso, el recurso escaso pasó a ser la atención. Todos tenían información; pocos podían capturar el interés de otros. Ahora, en la era de la IA generativa, estamos entrando en una tercera fase: el recurso escaso es la verificabilidad humana.
El contenido generado por humanos verificados se está convirtiendo en algo parecido al acero de bajo fondo. el acero producido antes de 1945, antes de que las pruebas nucleares contaminaran la atmósfera con radiación. Ese acero, libre de contaminación, es esencial para fabricar sensores médicos y nucleares de alta precisión. Se comercia a precios premium porque no se puede fabricar más. De manera similar, los datos recopilados antes de 2022. antes de la explosión de contenido sintético. están adquiriendo un valor sin precedentes. Las empresas que los poseen tienen una ventaja estructural para entrenar mejores modelos.
Pero no podemos vivir del pasado. La solución a largo plazo requiere algo nuevo: mecanismos para certificar la autoría humana en tiempo real. Ahí es donde entran los sistemas de prueba de humanidad. No como curiosidad criptográfica, sino como infraestructura crítica para el futuro de la inteligencia artificial.
El juicio humano, otra vez
Volvemos, inevitablemente, al mismo punto. En "El arte de preguntar" argumentamos que el juicio humano. la capacidad de navegar ambigüedad, leer contexto, decidir sin manual. es la habilidad que las máquinas no pueden replicar. Ahora vemos que esa habilidad no solo es valiosa en sí misma, sino que es el ingrediente esencial para que las máquinas sigan mejorando.
El model collapse no es un bug técnico que se pueda resolver con más poder de cómputo. Es un recordatorio de que la inteligencia artificial, por más sofisticada que parezca, sigue dependiendo de nosotros. De nuestras palabras genuinas, de nuestros juicios auténticos, de nuestra humanidad verificable. La serpiente puede comerse a sí misma hasta desaparecer, o puede aprender a buscar alimento afuera. Ese alimento somos nosotros. Y eso, paradójicamente, nos hace más valiosos que nunca.
Join the Conversation
We're just getting started on this journey. If you're interested in the intersection of human quality data and AI, we'd love to hear from you.