Maestros pueden dar un respiro de alivio (o de frustración): la IA todavía es mala para calificar ensayos

Mucho se ha dicho sobre estudiantes que hacen trampa en la escuela al recurrir a la inteligencia artificial generativa para que les haga la tarea, ¿pero qué hay de los maestros? ¿Puede un profesor delegar a ChatGPT la responsabilidad de calificar los ensayos de sus alumnos? Pues así como los estudiantes han descubierto (a veces a la mala) que la IA es capaz de cometer errores, en lo que respecta a la docencia, la IA aún está lejos de ser una herramienta perfecta, especialmente en educación superior.

“Las universidades se enfrentan a una enorme presión para reducir la carga de trabajo del personal y mejorar la eficiencia, al tiempo que satisfacen las crecientes expectativas de los estudiantes. Algunas podrían empezar a recurrir a la IA para la evaluación”, dijo Deborah Talmi, psicóloga de la Universidad de Cambridge. “La IA podría automatizar algunos de los aspectos más laboriosos de la calificación, liberando así al profesorado para una mayor interacción directa con los estudiantes”.

En teoría eso no suena tan mal, pero la tecnología aún no es lo suficientemente fiable para reemplazar a los evaluadores humanos. Esa fue la conclusión de un informe elaborado por OpRaise, un proyecto académico dirigido por la doctora Talmi. El informe se titula ‘AI in University Assessment: Evaluating the Opportunities and Risks of Automated Marking’ y puede ser consultado por este enlace.

Más del 60% de universitarios en México usa IA generativa, pero pocos la dominan

En México, el 79% de los docentes y el 82% de los estudiantes consideran que la IA generativa es útil para procesos cognitivos complejos, como el razonamiento, la reflexión, la imaginación y la creatividad.

¿Cómo califica el profesor GPT?

El estudio examinó la capacidad de tres modelos de lenguaje de gran tamaño (Claude Opus 4.6, GPT-5.4 y Gemini 3 Flash) para calificar ensayos reales de estudiantes de Psicología en tres universidades del Reino Unido: Cambridge, Nottingham y Manchester Metropolitan. En total, participaron 125 estudiantes y se analizaron 761 ensayos escritos entre 2022 y 2025.

Los investigadores compararon las notas otorgadas por la IA con las calificaciones oficiales asignadas por docentes humanos. Además, realizaron grupos focales con estudiantes y profesores para explorar las implicaciones éticas y educativas de incorporar inteligencia artificial en los procesos de evaluación.

Los resultados revelan que, en algunos casos, la concordancia entre la IA y los docentes humanos fue similar a la que suele existir entre dos maestros distintos. Sin embargo, esa precisión no fue consistente. Dependía de la casa de estudios, del tipo de ensayo y del modelo utilizado. Cuando se analizó si humanos e IA coincidían en la categoría final de la nota (por ejemplo, sobresaliente o aprobado) el acuerdo osciló entre apenas 35 y 65%.

¿Qué pasó aquí? Los sistemas de IA mostraron sesgos sistemáticos al evaluar los textos. Por ejemplo, tendían a favorecer ensayos largos, con un vocabulario más amplio, oraciones complejas y muchos conectores lógicos. En otras palabras, parecían reaccionar más a la forma del lenguaje que a la calidad real de las ideas. Style over substance.

Además, los LLM exhibieron una “tendencia central” que otorgaba calificaciones medias incluso cuando los trabajos eran excepcionalmente buenos. Eso significa que los mejores ensayos recibían notas más bajas de las que merecían, mientras que los peores eran evaluados con demasiada benevolencia.

“Hemos constatado que depender en gran medida de los mejores modelos de IA actuales daría como resultado una calificación de los estudiantes homogeneizada, que subestimaría la brillantez y favorecería el estilo lingüístico por encima del contenido de un juicio académico sólido”, dijo Deborah Talmi.

Paradójicamente, aunque los LLM no coincidían del todo con los humanos, sí coincidían mucho entre ellos. Los tres modelos produjeron resultados notablemente consistentes cuando se les pidió recalificar los mismos ensayos varios días después. También mostraron altos niveles de acuerdo mutuo. Para los investigadores, esto sugiere que los sistemas comparten patrones similares de razonamiento, o de error, incluso cuando pertenecen a empresas distintas.