¿Existe sesgo al calificar a través de Canvas?: Registros de Calificaciones en Canvas Revelan un Sesgo Secuencial Extendido

2 de Julio 2024

La calificación es la representación del juicio realizado sobre el desempeño del estudiante y es comunicado a varios actores, como instituciones de educación, familiares y al mismo estudiantado. Por su importancia social y el uso masivo de herramientas de aprendizaje online que ordenan las evaluaciones alfabéticamente según el apellido, se hace relevante estudiar si existen […]

La calificación es la representación del juicio realizado sobre el desempeño del estudiante y es comunicado a varios actores, como instituciones de educación, familiares y al mismo estudiantado. Por su importancia social y el uso masivo de herramientas de aprendizaje online que ordenan las evaluaciones alfabéticamente según el apellido, se hace relevante estudiar si existen sesgos al revisar evaluaciones en un orden predeterminado y si estos sesgos producen disparidades en el tiempo. Para responder a estas interrogantes, Wang et al. (2023) analiza más de 30 millones de datos de la plataforma Canvas de una universidad pública de Estados Unidos.

Calificar es muy importante para el proceso de enseñanza-aprendizaje. Cumple una función social, en cuanto expresa un juicio sobre el desempeño del estudiantado a través de números o letras. Esto permite que se comunique tanto a agentes externos al proceso de evaluación, como instituciones educativas y familiares, como al mismo alumnado (Ruiz, 2009). Además, hay diversos estudios que indican que la motivación por mejorar el desempeño se ve acrecentada cuando se reciben notas precisas y acordes al desempeño demostrado (Evans, 2013; Hattie y Timperley, 2007; Iraj et al., 2021; Wisniewski et al., 2020). Por todo ello, se debe asegurar la precisión en la calificación y reducir al mínimo el margen de error. 

Este proceso puede considerarse una tarea secuencial compleja. Al realizar este tipo de tareas durante mucho tiempo, si bien se acumula experiencia y crece la precisión y eficiencia, también aumenta la fatiga y el aburrimiento, lo que puede influir en su correcta ejecución. La revisión de tareas podría tener un impacto en las calificaciones otorgadas al final del proceso, por lo que surge la duda de si esto puede generar un sesgo que depende del orden en que se revisa. 

Por otro lado, si dicho sesgo existe, vale la pena preguntarse si se traduce en disparidades en las calificaciones entre el estudiantado en un contexto en que siempre se revisa en el mismo orden. Esto ocurre, por ejemplo, en Canvas, una plataforma de aprendizaje online cuyo uso se ha acrecentado en los últimos años. En ella se puede utilizar la herramienta SpeedGrader para la revisión de evaluaciones que, por defecto, las ordena alfabéticamente según el apellido.  

Estas dos incógnitas son las que intenta resolver el estudio realizado por Wang et al. (2023) analizando más de 30 millones de entregas de más de 850.000 evaluaciones distintas de la plataforma Canvas en una universidad pública de Estados Unidos entre 2014 y 2022. Para analizar los datos, se consideran algunas variables como las calificaciones y los comentarios de los evaluadores, en cuanto si son positivos, neutros o negativos y su nivel de amabilidad. Por otro lado, también se analizó la calidad de la calificación y retroalimentación a través de la tasa de re-correción solicitada por el estudiantado y sus preguntas después de la entrega.  

Entre los resultados del estudio se encontró que, en las evaluaciones de 60 estudiantes o menos, las últimas 10 revisadas comparadas a las 10 primeras se califican 3,5 puntos cada 100 más bajo. Ocurre también cuando el orden es al azar y en las muestras revisadas en orden inverso. Esto responde a la primera pregunta: sí existe sesgo en el proceso de calificación relacionado con el orden de revisión. 

Por otro lado, se observó que los estudiantes cuyos apellidos empezaban con letras al final del alfabeto, tendían a recibir notas 0.6 puntos cada 100 más bajas que los primeros. Si el orden está volteado, se observan resultados similares. Por tanto, el estudio concluye que, si las evaluaciones están siempre ordenadas por apellido, existe una disparidad en las calificaciones. 

En cuanto a la calidad de las revisiones, esta también se vio disminuida en las últimas respecto a las primeras. En general, las últimas suelen recibir una retroalimentación más negativa y menos amable. Además, tienen mayor tasa de re-corrección y reciben más preguntas por parte del estudiantado, incluso cuando se compararon las mismas calificaciones de dos estudiantes diferentes. 

Estos resultados se vieron acentuados en disciplinas asociadas a las Ciencias Sociales y Humanidades. El estudio comenta que en estos temas se hace más difícil corregir y calificar por la variedad de respuestas recibidas y el nivel de complejidad de la revisión de preguntas abiertas, comparado a preguntas cerradas más propias de otras disciplinas. 

La diferencia en puntaje puede parecer pequeña al considerar la cantidad de estudiantes registrados en estas plataformas y esta disparidad podría no reflejar el desempeño real de algunos. Sin embargo, recibir peores calificaciones solo por el apellido puede generar costes innecesarios y una calificación menos precisa y justa, que puede traducirse en menor motivación por mejorar el desempeño y en un impacto negativo en la experiencia educativa del alumnado. 

El artículo propone 5 posibles soluciones a esta situación: 1) Configurar siempre de forma aleatoria al estudiantado para revisar sus evaluaciones; 2) Integrar más evaluadores para minimizar el error en la revisión; 3) Asegurar el uso de rúbricas que mantengan la objetividad en la revisión; 4) Mantener la carga de trabajo en niveles considerables para que no afecte la revisión; y 5) Informar a los evaluadores de estas influencias para que estén conscientes del posible sesgo e intenten disminuirlo lo máximo posible.

Infografia Artículo del mes Sesgo en Canvas de Actividades CDDOC

 

Si quieres profundizar en este tema, te invitamos a leer el artículo completo.

Referencias:

Evans, C. (2013). Making sense of assessment feedback in higher education. Review of Educational Research, 83(1) 70–120. https://doi.org/10.3102/00346543124743  

Hattie, J.; Helen, T. (2007). The power of feedback. Review of educational research, 77(1) 81–112. https://doi.org/10.3102/003465430298487 

Iraj, H., Fudge, A., Khan, H., Faulkner, M., Pardo, A., y Kovanovic, V. (2021). Narrowing the feedback gap: examing student engagement with personalized and actionable feedback messages. Journal of Learning Analytics, 8(3) 101–116. 

Ruiz, M. (2009). Evaluación Vs Calificación en Innovación y Experiencias Educativas. Revista Electrónica.https://archivos.csif.es/archivos/andalucia/ensenanza/revistas/csicsif/revista/pdf/Numero_40/ALEJANDRA_BARO_1.pdf 

Wang, Z., Pei, J., y Li, J. (2023). 30 Million Canvas Grading Records Reveal Widespread Sequential Bias and System-Induced Surname Initial Disparity. https://ssrn.com/abstract=4603146  

Wisniewski, B., Zierer, K. y Hattie, J. (2020). The power of feedback revisited: a meta-analysis of educational feedback research. Frontiers in Psychology, 10(2019) 3087. 

Desde el Centro de Desarrollo Docente, se promueven prácticas para entregar retroalimentaciones efectivas en las evaluaciones de las/os estudiantes, dentro de la plataforma Canvas. Te invitamos a revisar nuestra página👈🏻, donde encontrarás distintos tips para evitar el sesgo en el proceso de calificación: ¿Cómo guardar mensajes prediseñados para retroalimentar?, ¿Cómo asignar calificadores adicionales? entre otros.