Por qué la IA simplemente no puede hacer el trabajo de un fact-checker

Casi la mitad de los estadounidenses aseguran utilizar la IA para buscar información y generar ideas. No es difícil entender por qué. A medida que las redes sociales se degradan y Google se convierte en una simple página de inicio para hilos de Reddit y granjas de contenido, la mayoría anhelamos algo confiable. Además, los chatbots son muy “útiles”, ¿verdad? La primera vez que interactué con uno, le pregunté si era consciente del enorme consumo de recursos que suponía. Media hora después, tenía una nueva receta de queso crema vegano.

Nunca probé la receta. En cambio, encontré una creada por humanos que el LLM podría haber utilizado. Así es como funcionan estos modelos, por supuesto. Reempaquetan el conocimiento colectivo en algo que parece hecho a la medida para ti. Esto puede estar bien para las alternativas lácteas (a menos que seas un bloguero vegano). Pero en el orden mundial, y en lo que respecta a “la verdad” (el enfoque de mi trabajo como verificador de datos en WIRED), lo que está en juego es exponencialmente mayor.

No me preocupo

Durante el último año, cada vez más personas me miran con gran lástima. Seguramente, una verificadora de datos en una revista no durará mucho en este mundo mejorado por la IA. Pueden llamarme ingenua, pero no me preocupa demasiado. He llegado a la conclusión de que muy poco del conocimiento colectivo de la humanidad reside en internet. Y según mis investigaciones, la IA se equivoca aún más de lo que la gente piensa.

Según el escritor Colin Dickey, es evidente que Tom Wolfe consideraba a los verificadores de datos como una “camarilla de mujeres y editores mediocres que colaboraban para dominar y emascular la prosa del Gran Escritor”. Como definición, no está mal (aunque mi jefe y muchos colegas son hombres). ¿Qué puedo decir? Nuestro trabajo, a diferencia del de la IA, es ser molestos.

El departamento de verificación de datos de WIRED es tradicional: anotaciones meticulosas línea por línea, fuentes primarias siempre que sea posible y una revisión ética y legal exhaustiva. Cuestionamos las suposiciones básicas, buscamos información nueva o contradictoria, llamamos y hablamos con la gente; nos aseguramos de todo. Es una revisión por pares ágil, que funciona lo mejor posible al mismo ritmo que las noticias.

Por lo que sé, la IA aún no se ha aplicado a este proceso. Lo que sí se ha aplicado es la verificación de hechos a posteriori, el análisis al estilo Snopes de la veracidad de algo después de los hechos. En el Reino Unido, una iniciativa llamada Full Fact ha desarrollado sus propias herramientas de IA para ayudar a frenar la propagación de la desinformación. Estas herramientas, utilizadas en más de 40 países, procesan enormes volúmenes de datos, desde publicaciones en redes sociales hasta transcripciones de podcasts, y luego identifican afirmaciones específicas que los humanos pueden investigar más a fondo. "Definitivamente se necesita un ser humano", opina Mark Frankel, jefe de asuntos públicos de Full Fact.

¿Cuánto se equivoca la IA?

La razón es sencilla: la IA aún se equivoca. Como verificadora de datos, me encantaría poder decirte con exactitud con qué frecuencia. Pero no es tan fácil. Desde 2018, se han publicado casi 17,000 artículos en arXiv sobre maestrías en derecho (LLM –no confundir con grandes modelos de lenguaje–), muchos de ellos centrados específicamente en la cuestión de su fiabilidad. Aun así, vale la pena intentar establecer una cifra aproximada.

En cualquier artículo que pasa por la mesa de verificación de datos de WIRED, suele haber bastante información complementaria: estadísticas, noticias, citas, todo aquello que ayuda a contextualizar el tema. Los verificadores de datos suelen buscar esta información básica en Google, y ese proceso, en forma de las temidas AI Overviews (Reseñas de IA de Google) del buscador, constituye mi principal interacción con la IA. En mi opinión profesional, resulta inutilizable (por errónea) aproximadamente un tercio de las veces.

Sin embargo, esta podría ser una valoración generosa. Un estudio de marzo de 2025 del Tow Center for Digital Journalism reveló que más del 60 % de las respuestas de los motores de búsqueda con IA eran inexactas. Un estudio de la BBC sitúa la tasa de error de los chatbots en torno al 45 %, cifra que veo citada con más frecuencia. Dado que los porcentajes pueden generar confusión, lo diré de forma más clara: la IA podría equivocarse aproximadamente la mitad de las veces.

¿Importa qué modelo?

Elon Musk ha dicho que Grok es el más inteligente, pero no he visto mucha investigación que lo confirme. Claude lideró la prueba RealFactBench, un test de referencia centrado en la verificación de hechos desarrollado por científicos informáticos en China y el Reino Unido el año pasado. Obtuvo una precisión del 73% en todas las métricas. (Para ser justos, Grok no fue evaluado). Otra prueba de referencia, SimpleQA, desarrollada por OpenAI en octubre de 2024, planteó más de 4,000 preguntas de respuesta única a modelos de OpenAI y Anthropic. Ninguno de los modelos superó el 50% de precisión. Google actualizó la prueba de referencia a principios de este año, reduciendo el conjunto de preguntas a 1,000. Gemini 2.5 Pro se alzó con la victoria, con una precisión del 55.6%.

Luego están las evaluaciones de los propios modelos. Cuando le pregunté a ChatGPT qué tan precisos eran los principales modelos de medicina del sueño, me indicó que la mayoría tenía una precisión del 90 al 96% en algunas pruebas de estilo profesional. Luego, de forma confusa, me ofreció un enlace a un artículo sobre un examen de certificación en medicina del sueño. En la sección de "preguntas generales del mundo real", simplemente me ofreció la tasa de alucinaciones que se ha demostrado en modelos como este: del 1 al 2%, aparentemente, aunque cuando intenté acceder a la fuente citada, no existía.