Estudiar con IA generativa dificulta la retención de conocimientos

La penetración de la IA generativa en la educación nunca había sido tan rápida: ChatGPT alcanzó los 100 millones de usuarios solo dos meses después de su lanzamiento en noviembre de 2022, y entre el 60 y el 80% de los estudiantes universitarios la han utilizado con fines de aprendizaje. Sin embargo, ha habido pocas pruebas experimentales sobre qué impacto tienen estas herramientas en la eficacia del aprendizaje a largo plazo.

En este contexto, André Barcaoui, investigador de la Universidad Federal de Río de Janeiro en Brasil, llevó a cabo un ensayo controlado aleatorio en el que 120 estudiantes de administración de empresas de la universidad, que no tenían conocimientos previos de inteligencia artificial o aprendizaje automático, fueron divididos aleatoriamente en dos grupos de 60 para examinar el impacto del uso de la IA generativa en la retención del conocimiento.

En primer lugar, un grupo, autorizado a usar IA (el grupo de IA), utilizó libremente ChatGPT (GPT-4) para investigar temas relacionados con la IA y el aprendizaje automático. Al otro grupo (el grupo de aprendizaje convencional) se le prohibió usar cualquier herramienta de IA y solo se le permitió aprender mediante libros de texto, artículos académicos y motores de búsqueda convencionales, como lo habían hecho anteriormente. Ambos grupos recibieron una tarea común: crear materiales sobre el mismo tema y presentar lo aprendido a pequeños grupos de 8 a 10 personas en 10 minutos.

Además, 45 días después del período de aprendizaje, se realizó una prueba sorpresa sin previo aviso. La prueba constaba de 20 preguntas de opción múltiple, diseñadas para evaluar la comprensión de los conceptos más que la simple memorización. Cabe destacar que este período de 45 días se estableció intencionalmente para reflejar el patrón natural del olvido.

Existe una clara diferencia en la retención de conocimientos

Según Barkawi, se observó una clara diferencia en los resultados de la prueba. La puntuación media del grupo de aprendizaje convencional fue de 6,85 sobre 10, mientras que la del grupo de IA fue de tan solo 5.75. Esto representa una diferencia de aproximadamente 11 puntos porcentuales en respuestas correctas. Esta diferencia es estadísticamente significativa, con un tamaño del efecto (d = 0.68) de moderado a grande. En otras palabras, alrededor del 75 % de los estudiantes del grupo de aprendizaje convencional obtuvieron una puntuación superior a la del estudiante promedio del grupo de IA.

Además, se observó una diferencia significativa en el tiempo de estudio. El grupo que utilizó IA dedicó un promedio de 3.2 horas, aproximadamente un 45% menos que el grupo que estudió con métodos convencionales (5.8 horas). Si bien es innegable que esta diferencia en el tiempo de estudio pudo haber afectado el rendimiento, la desventaja del grupo que utilizó IA se mantuvo estadísticamente significativa incluso después de considerar el tiempo de estudio. Esto sugiere que el uso de IA en sí mismo es un factor independiente que dificulta la retención del conocimiento.

La tendencia se mantuvo constante en todos los análisis temáticos. La mayor diferencia se observó en el contenido técnico (d=0.92), y también se confirmó una diferencia en ética y ciencias sociales (d=0.45). Independientemente del tipo de contenido, se observó un impacto negativo constante del uso de la IA en la retención del conocimiento.

La clave para explicar este fenómeno reside en el concepto de "descarga cognitiva". Cuando las personas se encuentran en un entorno donde pueden depender de herramientas externas, inevitablemente dejan de esforzarse por pensar por sí mismas. En otras palabras, dado que ChatGPT proporciona respuestas organizadas de inmediato, los estudiantes evitan la tarea de recuperar y organizar la información por su cuenta.