CORRECCIÓN MÚLTIPLE Y CONSISTENCIA ENTRE EVALUADORES
Generalmente cuando se realizan evaluaciones del rendimiento académico a gran escala, es común utilizar diferentes tipos de preguntas. Si bien en un inicio, las Evaluaciones Nacionales utilizaron únicamente preguntas cerradas de opción múltiple, a partir de la EN 2001 se utilizaron también preguntas abiertas en las pruebas aplicadas por el Ministerio de Educación. En la actualidad, diversos sistemas de evaluación emplean este tipo de preguntas pues como lo señalan Patz, Junker, Johnson y Mariano (2002) las respuestas abiertas son comúnmente utilizadas en las evaluaciones educativas a gran escala, pues permiten evaluar logros educativos más complejos.
Esta mejora en los instrumentos de evaluación trae consigo una complejidad adicional, y es que no pueden usarse sistemas automatizados para la corrección de las preguntas. Una prueba constituida sólo por preguntas cerradas puede ser calificada utilizando cualquier programa informático que permita comparar una plantilla de calificación y las respuestas de cada una de las personas evaluadas a cada una de las preguntas, a fin de asignarles el puntaje correspondiente. En cambio, la corrección de respuestas abiertas implica un procedimiento distinto. Generalmente se trabaja con un conjunto de jueces[1] independientes que leen, evalúan y puntúan las respuestas dadas a las preguntas.
Al trabajarse con las valoraciones realizadas por los jueces, se encuentra siempre implicado algún grado de subjetividad, que trata de reducirse mediante la capacitación a los evaluadores y la creación de manuales con criterios de calificación, que buscan homogenizar las evaluaciones realizadas por los jueces (Stemler 2004). A pesar de lo importante y útil que puede ser la capacitación dada a los jueces, MacMillan (2000) advierte que por muy sistemático que haya sido el entrenamiento que se les ha dado, múltiples investigaciones demuestran que la variabilidad entre los correctores no puede ser eliminada del todo. Por ejemplo, Wolfe (2004) distingue tres tipos de efectos o sesgos que pueden presentar los jueces aún después de haber sido capacitados:
1. Precisión / Imprecisión:
- Implica que tan bien ha sido entrenado o que tanta experiencia tiene un juez a fin de asignar calificaciones precisas. Es decir, se asume que hay un estándar, una calificación correcta, y se quiere ver que tanto se aproxima un calificador a ese estándar.
- La capacidad de asignar calificaciones precisas depende de múltiples factores, tanto personales (nivel educativo, entrenamiento, estilos de pensamiento, etc.) como contextuales (ausencia de distractores, interacciones sociales que se producen en el ambiente de calificación, etc.).
2. Severidad / Leniencia
- En estos casos puede haber calificadores que de forma consistente otorgan calificaciones más altas al compararse con el resto de calificadores (lenientes) o que otorgan menores calificaciones (severos).
3. Centralidad / Extremismo
- Este efecto implica que los calificadores suelen utilizar fundamentalmente las calificaciones intermedias (centralismo) o sólo las altas y bajas (extremismo)
Dada la presencia de estos sesgos es muy importante evaluar la confiabilidad inter-evaluadores, que es definida por Stemler (2004) como el grado de acuerdo entre un conjunto particular de jueces, utilizando un instrumento de evaluación específico en un momento específico. Esta es una propiedad de la situación de evaluación, no del instrumento en sí mismo. En consecuencia deberá ser analizada cada vez que cambie la situación de evaluación.
Los análisis de la confiabilidad inter-evaluadores se han trabajado generalmente desde tres modelos teóricos: la Teoría Clásica de los Tests, la Teoría de la Generalizabilidad y el Modelo Rasch de Facetas Múltiples. Además es importante considerar que la confiabilidad inter-evaluadores no es un concepto unitario pues existen diversas perspectivas respecto a su conceptualización y análisis. Así, Stemler (2004) propone una clasificación tripartita de los diversos tipos de estimaciones de la confiabilidad inter-evaluadores, cuya síntesis presentamos a continuación:
1. Consenso:
- Las estimaciones de consenso se basan en el supuesto que dos o más observadores independientes deben llegar a un acuerdo exacto respecto a como aplicar los diversos niveles de una escala de calificación a un comportamiento observado.
- Este tipo de índices es más útil cuando los datos son de naturaleza nominal, es decir, la escala de calificación representa diferencias cualitativas.
- Los métodos más utilizados para este tipo de confiabilidad implican el cálculo del porcentaje de acuerdos, denominado en alguna ocasiones índice de acuerdos (Escurra 1998), el coeficiente Kappa de Cohen y otros menos utilizados como la J de Jaccard, el índice G y el índice Delta propuesto por Martin y Femia (2004). Estos índices tiene la desventaja de tener que aplicarse a cada pregunta y a cada par de jueces.
- Es importante señalar que existe una variante del coeficiente Kappa, conocida como Kappa múltiple, que se puede aplicar cuando hay más de dos evaluadores (Watkins 2002).
2. Consistencia:
- Las estimaciones de consistencia suponen que no es necesario que dos jueces muestren consenso en el uso de una escala de calificación, siempre y cuando las diferencias de consenso se apliquen de manera consistente. Es decir, puede ser que el juez A le asigne siempre o casi siempre la calificación 1 a cierto tipo de respuestas, mientras que el juez B les asigna siempre o casi siempre la calificación 3 a ese mismo tipo de respuestas. Por lo tanto, la diferencia de calificaciones entre ambos será predecible y podrá corregirse mediante el uso de constantes aditivas.
- Este enfoque es utilizado cuando los datos son de naturaleza cuantitativa continua, pero también pueden aplicarse a variables ordinales, si se suponen que representan un continuo a lo largo de una sola dimensión.
- La ventaja de este enfoque es que si hay una consistencia en las calificaciones entre jueces, pueden aplicarse estrategias de corrección de las diferencias en severidad. Por ejemplo si un juez A da una calificación un punto por encima de la de otro juez B y esto se repite de manera consistente, la correlación entre ambas calificaciones será bastante alta y se podrán equiparar las puntuaciones de ambos jueces restándoles un punto a todas las personas que fueron evaluadas por el juez A.
- Los procedimientos empleados para las estimaciones de consistencia incluyen la correlación de Pearson (variables cuantitativas continuas) y de Spearman (variables ordinales). En los casos de tener varios jueces, se puede utilizar al W de Kendall (Cairns 2003; Legendre 2005).
3. Medida:
- Las estimaciones de medida postulan que debe usarse toda la información disponible de los jueces cuando se trata de crear una calificación final para cada persona evaluada. Por ejemplo, se pueden controlar los efectos de severidad o lenidad al momento de asignar las calificaciones.
- Se emplean cuando los diferentes niveles de la escala de calificación pretenden representar diferentes niveles de una variable latente unidimensional. También sirven cuando se tienen varios jueces y es imposible que todos los jueces califiquen todas las preguntas. Es decir, se tienen una matriz incompleta de datos, con conexiones por medio de personas comunes (una persona o conjunto de personas es calificada de forma independiente por diferentes jueces, pero no todas las personas son calificadas por todos los jueces).
- El procedimiento más utilizado para este tipo de estimaciones es el análisis Rasch de Facetas Múltiples. En el caso de modelar las calificaciones de los jueces como una faceta, asume que la probabilidad de respuesta a una pregunta es una función de la habilidad de quien responde a la pregunta, la dificultad de la pregunta y la severidad del corrector (Bond y Fox 2001). Otra alternativa es la propuesta por Patz, Junker, Johnson y Mariano (2002) conocida como Modelo Jerárquico de Evaluadores (HRM), que dentro del marco de la Teoría de la Generalizabilidad, utiliza las distribuciones de las habilidades latentes propias de la Teoría de Respuesta al Ítem, en lugar de las distribuciones de puntajes verdaderos y los supuestos de distribución normal.
REFERENCIAS
Barrett, P. (2001). Assessing the reliability of rating data. Recuperado abril 25, 2005, desde http://www.liv.ac.uk/~pbarrett/rater.pdf.
Bond T. y Fox, Ch. (2001). Applying the Rasch Model: Fundamental measurement in the Human Sciences. Nueva Jersey: Lawrence Earlbaum Associates.
Cairns, P. (2003). MSC in Research Methods Statistics: Examples of Correlations. UCL Interaction Centre. Recuperado abril 26, 2005, desde http://www.uclic.ucl.ac.uk/paul/PsyStats/4NonParaCorrel/4Examples.pdf.
Escurra, M. (1998). Cuantificación de la validez de contenido por criterio de jueces. Revista de Psicología, 6.
Legendre, P. (2005). Species Associations: The Kendall Coefficient of Concordance Revisited. Journal of Agricultural, Biological, and Environmental Statistics, 10 (2), 226–245.
Macmillan, P. D. (2000). Classical, generalizability, and multifaceted rasch detection of interrater variability in large, sparse sets. The Journal of Experimental Education, 68 (2), 167-190.
Martín, A. y Femia, M. (2004). Delta: A new measure of agreement between two raters. British Journal of Mathematical & Statistical Psychology, 57, 1-19.
Patz R.J., Junker, B.W., Johnson, M.S. y Mariano, L. (2002). The hierarchical rater model for rated tests items and its application to large-scale educational assessment data. Journal of Educational and Behavioral Statistics, 27 (4), 341-384.
Stemler, S. E. (2004) A comparison of consensus, consistency, and measurement approaches to estimating interrater reliability. Practical Assessment, Research & Evaluation, 9 (4). Consulta hecha en 06/03/2005.
Watkins, M. W. (2002). MacKappa [programa informático]. Pennsylvania State University: Autor.
Wolfe, E. W. (2004). Identifying rater effects using latent trait models. Psychology Science, 46 (1), 35-51.
[1] En algunos casos se refieren a las personas que realizan esta función como: calificadores, evaluadores, observadores, codificadores o correctores.