Psicometría y más

Nombre: Andrés Burga
Ubicación: Lima, Peru

Licenciado en psicólogia, magister en psicología educacional. Coordinador del Equipo de Análisis e Informática de la Unidad de Medición de la Calidad Educativa del Ministerio de Educación del Perú. Docente de la Facultad de Psciología de la Universidad Peruana Cayetano Heredia desde el año 2001 hasta julio del 2007

jueves, agosto 16, 2007

CORRECCIÓN MÚLTIPLE Y CONSISTENCIA ENTRE EVALUADORES

Generalmente cuando se realizan evaluaciones del rendimiento académico a gran escala, es común utilizar diferentes tipos de preguntas. Si bien en un inicio, las Evaluaciones Nacionales utilizaron únicamente preguntas cerradas de opción múltiple, a partir de la EN 2001 se utilizaron también preguntas abiertas en las pruebas aplicadas por el Ministerio de Educación. En la actualidad, diversos sistemas de evaluación emplean este tipo de preguntas pues como lo señalan Patz, Junker, Johnson y Mariano (2002) las respuestas abiertas son comúnmente utilizadas en las evaluaciones educativas a gran escala, pues permiten evaluar logros educativos más complejos.

Esta mejora en los instrumentos de evaluación trae consigo una complejidad adicional, y es que no pueden usarse sistemas automatizados para la corrección de las preguntas. Una prueba constituida sólo por preguntas cerradas puede ser calificada utilizando cualquier programa informático que permita comparar una plantilla de calificación y las respuestas de cada una de las personas evaluadas a cada una de las preguntas, a fin de asignarles el puntaje correspondiente. En cambio, la corrección de respuestas abiertas implica un procedimiento distinto. Generalmente se trabaja con un conjunto de jueces[1] independientes que leen, evalúan y puntúan las respuestas dadas a las preguntas.

Al trabajarse con las valoraciones realizadas por los jueces, se encuentra siempre implicado algún grado de subjetividad, que trata de reducirse mediante la capacitación a los evaluadores y la creación de manuales con criterios de calificación, que buscan homogenizar las evaluaciones realizadas por los jueces (Stemler 2004). A pesar de lo importante y útil que puede ser la capacitación dada a los jueces, MacMillan (2000) advierte que por muy sistemático que haya sido el entrenamiento que se les ha dado, múltiples investigaciones demuestran que la variabilidad entre los correctores no puede ser eliminada del todo. Por ejemplo, Wolfe (2004) distingue tres tipos de efectos o sesgos que pueden presentar los jueces aún después de haber sido capacitados:

1. Precisión / Imprecisión:
- Implica que tan bien ha sido entrenado o que tanta experiencia tiene un juez a fin de asignar calificaciones precisas. Es decir, se asume que hay un estándar, una calificación correcta, y se quiere ver que tanto se aproxima un calificador a ese estándar.
- La capacidad de asignar calificaciones precisas depende de múltiples factores, tanto personales (nivel educativo, entrenamiento, estilos de pensamiento, etc.) como contextuales (ausencia de distractores, interacciones sociales que se producen en el ambiente de calificación, etc.).

2. Severidad / Leniencia
- En estos casos puede haber calificadores que de forma consistente otorgan calificaciones más altas al compararse con el resto de calificadores (lenientes) o que otorgan menores calificaciones (severos).

3. Centralidad / Extremismo
- Este efecto implica que los calificadores suelen utilizar fundamentalmente las calificaciones intermedias (centralismo) o sólo las altas y bajas (extremismo)
Dada la presencia de estos sesgos es muy importante evaluar la confiabilidad inter-evaluadores, que es definida por Stemler (2004) como el grado de acuerdo entre un conjunto particular de jueces, utilizando un instrumento de evaluación específico en un momento específico. Esta es una propiedad de la situación de evaluación, no del instrumento en sí mismo. En consecuencia deberá ser analizada cada vez que cambie la situación de evaluación.

Los análisis de la confiabilidad inter-evaluadores se han trabajado generalmente desde tres modelos teóricos: la Teoría Clásica de los Tests, la Teoría de la Generalizabilidad y el Modelo Rasch de Facetas Múltiples. Además es importante considerar que la confiabilidad inter-evaluadores no es un concepto unitario pues existen diversas perspectivas respecto a su conceptualización y análisis. Así, Stemler (2004) propone una clasificación tripartita de los diversos tipos de estimaciones de la confiabilidad inter-evaluadores, cuya síntesis presentamos a continuación:

1. Consenso:
- Las estimaciones de consenso se basan en el supuesto que dos o más observadores independientes deben llegar a un acuerdo exacto respecto a como aplicar los diversos niveles de una escala de calificación a un comportamiento observado.
- Este tipo de índices es más útil cuando los datos son de naturaleza nominal, es decir, la escala de calificación representa diferencias cualitativas.
- Los métodos más utilizados para este tipo de confiabilidad implican el cálculo del porcentaje de acuerdos, denominado en alguna ocasiones índice de acuerdos (Escurra 1998), el coeficiente Kappa de Cohen y otros menos utilizados como la J de Jaccard, el índice G y el índice Delta propuesto por Martin y Femia (2004). Estos índices tiene la desventaja de tener que aplicarse a cada pregunta y a cada par de jueces.
- Es importante señalar que existe una variante del coeficiente Kappa, conocida como Kappa múltiple, que se puede aplicar cuando hay más de dos evaluadores (Watkins 2002).

2. Consistencia:
- Las estimaciones de consistencia suponen que no es necesario que dos jueces muestren consenso en el uso de una escala de calificación, siempre y cuando las diferencias de consenso se apliquen de manera consistente. Es decir, puede ser que el juez A le asigne siempre o casi siempre la calificación 1 a cierto tipo de respuestas, mientras que el juez B les asigna siempre o casi siempre la calificación 3 a ese mismo tipo de respuestas. Por lo tanto, la diferencia de calificaciones entre ambos será predecible y podrá corregirse mediante el uso de constantes aditivas.
- Este enfoque es utilizado cuando los datos son de naturaleza cuantitativa continua, pero también pueden aplicarse a variables ordinales, si se suponen que representan un continuo a lo largo de una sola dimensión.
- La ventaja de este enfoque es que si hay una consistencia en las calificaciones entre jueces, pueden aplicarse estrategias de corrección de las diferencias en severidad. Por ejemplo si un juez A da una calificación un punto por encima de la de otro juez B y esto se repite de manera consistente, la correlación entre ambas calificaciones será bastante alta y se podrán equiparar las puntuaciones de ambos jueces restándoles un punto a todas las personas que fueron evaluadas por el juez A.
- Los procedimientos empleados para las estimaciones de consistencia incluyen la correlación de Pearson (variables cuantitativas continuas) y de Spearman (variables ordinales). En los casos de tener varios jueces, se puede utilizar al W de Kendall (Cairns 2003; Legendre 2005).

3. Medida:
- Las estimaciones de medida postulan que debe usarse toda la información disponible de los jueces cuando se trata de crear una calificación final para cada persona evaluada. Por ejemplo, se pueden controlar los efectos de severidad o lenidad al momento de asignar las calificaciones.
- Se emplean cuando los diferentes niveles de la escala de calificación pretenden representar diferentes niveles de una variable latente unidimensional. También sirven cuando se tienen varios jueces y es imposible que todos los jueces califiquen todas las preguntas. Es decir, se tienen una matriz incompleta de datos, con conexiones por medio de personas comunes (una persona o conjunto de personas es calificada de forma independiente por diferentes jueces, pero no todas las personas son calificadas por todos los jueces).
- El procedimiento más utilizado para este tipo de estimaciones es el análisis Rasch de Facetas Múltiples. En el caso de modelar las calificaciones de los jueces como una faceta, asume que la probabilidad de respuesta a una pregunta es una función de la habilidad de quien responde a la pregunta, la dificultad de la pregunta y la severidad del corrector (Bond y Fox 2001). Otra alternativa es la propuesta por Patz, Junker, Johnson y Mariano (2002) conocida como Modelo Jerárquico de Evaluadores (HRM), que dentro del marco de la Teoría de la Generalizabilidad, utiliza las distribuciones de las habilidades latentes propias de la Teoría de Respuesta al Ítem, en lugar de las distribuciones de puntajes verdaderos y los supuestos de distribución normal.

REFERENCIAS

Barrett, P. (2001). Assessing the reliability of rating data. Recuperado abril 25, 2005, desde http://www.liv.ac.uk/~pbarrett/rater.pdf.
Bond T. y Fox, Ch. (2001). Applying the Rasch Model: Fundamental measurement in the Human Sciences. Nueva Jersey: Lawrence Earlbaum Associates.
Cairns, P. (2003). MSC in Research Methods Statistics: Examples of Correlations. UCL Interaction Centre. Recuperado abril 26, 2005, desde http://www.uclic.ucl.ac.uk/paul/PsyStats/4NonParaCorrel/4Examples.pdf.
Escurra, M. (1998). Cuantificación de la validez de contenido por criterio de jueces. Revista de Psicología, 6.
Legendre, P. (2005). Species Associations: The Kendall Coefficient of Concordance Revisited. Journal of Agricultural, Biological, and Environmental Statistics, 10 (2), 226–245.
Macmillan, P. D. (2000). Classical, generalizability, and multifaceted rasch detection of interrater variability in large, sparse sets. The Journal of Experimental Education, 68 (2), 167-190.
Martín, A. y Femia, M. (2004). Delta: A new measure of agreement between two raters. British Journal of Mathematical & Statistical Psychology, 57, 1-19.
Patz R.J., Junker, B.W., Johnson, M.S. y Mariano, L. (2002). The hierarchical rater model for rated tests items and its application to large-scale educational assessment data. Journal of Educational and Behavioral Statistics, 27 (4), 341-384.
Stemler, S. E. (2004) A comparison of consensus, consistency, and measurement approaches to estimating interrater reliability. Practical Assessment, Research & Evaluation, 9 (4). Consulta hecha en 06/03/2005.
Watkins, M. W. (2002). MacKappa [programa informático]. Pennsylvania State University: Autor.
Wolfe, E. W. (2004). Identifying rater effects using latent trait models. Psychology Science, 46 (1), 35-51.
[1] En algunos casos se refieren a las personas que realizan esta función como: calificadores, evaluadores, observadores, codificadores o correctores.

viernes, junio 16, 2006

UNIDIMENSIONALIDAD


“Cada vez que contamos, nos basamos en un principio de identidad, es decir, al menos para nosotros los objetos que contamos son lo suficientemente idénticos como para ser intercambiables.”

Wright y Mok, 2004



Cuando leía el primer capítulo del libro Introduction to Rasch Measurement editado por Everett Smith y Richard Smith (ISBN 0-9755351-1-0) me gustó mucho esta frase, y me tomé la libertad de traducirla al castellano. La idea me remite a uno de los problemas importantes de la validez de los tests psicométricos: la unidimensionalidad. Aunque este problema suele ser dejado de lado en los textos de Teoría Clásica de los Tests, aparece mucho en los textos sobre Teoría de Respuesta al Ítem.

Pregunta: ¿De dónde suele porvenir el puntaje directo de los tests?
Respuesta: de la suma de las puntuaciones individuales de los ítemes.

Solo por hablar del caso de los ítemes dicotómicos, la suma, o puntaje directo es el conteo de respuestas correctas o positivas (que van en la dirección del constructo). Y si queremos contarlos, esto implica que “son lo suficientemente idénticos como para ser intercambiable”. Con esta afirmación, los autores están reafirmando la importancia de la unidimensionalidad: si los ítemes son combinados linealmente, es porque comparten algo en común, es decir, miden fundamentalmente lo mismo. ¿Cómo podemos fundamentar la suma de un par de ítemes si estos se refieren a algo muy diferente?

Si los ítemes tienen un grado significativo de varianza común compartida, diremos que ello se debe a que su covarianza es producida fundamentalmente por el mismo rasgo latente. Incluso, si queremos hacer una afirmación en términos causales, diremos que la varianza observada en estos ítemes es causada en gran parte por el mismo rasgo latente.

Por supuesto, la unidimensionalidad perfecta no existe. Lo que tenemos, son instrumentos de medición cuyos itemes no se alejan mucho de este supuesto. Como dirían algunos: son tests esencialmente unidimensionales. Y es precisamente a este aspecto, al que debemos apuntar, a fin de tener instrumentos e medida, cuyas puntuaciones (e interpretaciones) sean más válidas. Este es el objetivo de los diferentes modelos Rasch (para ítemes dicotómicos, de créditos parciales, de escala de valoración, etc.), lograr escalar un conjunto de ítemes que no se alejen mucho de este supuesto de undimensionalidad, además de cumplir con una serie de supuestos, de los cuales escribiremos en otra oportunidad.

Saludos cordiales,

Andrés

domingo, mayo 21, 2006

CONFIABILIDAD

Es curioso oir siempre: "la confiabilidad del test es..."; "esta prueba tiene una confiabilidad de ..." y otras frases similares. El problema es que se trata a la confiabilidad como una característica del instrumento en si, como una cualidad intrínseca, y tal vez definitiva del mismo.

Nada más lejano de la realidad. Cuando hablamos de la confiabilidad, esta se refiere a una propiedad de las puntuaciones observadas. Es una relación entre la varianza verdadera y la varianza de las puntuaciones observadas, la cual se ve afectada por diversos factores externos al test mismo. Por ello, pueden haber tantos coeficientes de confiabilidad como usos le demos a las puntuaciones derivadas de un instrumento de medición.

Refirámonos al tema con propiedad: "la confiabilidad de las puntuaciones es..."

Saludos cordiales

Andrés

martes, mayo 16, 2006

TEORÍA CLÁSICA DE LOS TESTS

X = V + e

Los puntajes observados (X) son una combinación lineal de los puntajes verdaderos (V) y el error (e).

Este es el Modelo Lineal Clásico o Teoría Clásica de los Tests, postulado en 1904 por Charles Spearman. Durante mucho tiempo fue el único modelo de medición que respaldaba los procesos psicométricos (y edumétricos, aunque no me gusta mucho este término), hasta las primeras ampliaciones de Cronbach y otros en los años 50 (Teoría de la Generaliabilidad) y los aportes independientes de Lord y Rasch en los años 60 (Teoría de Respuesta al Ítem y Analisis Rasch).

Aún ahora, a pesar de sus limitaciones, sigue siendo uno de los modelos más empleados en cualquier estudio de tipo psicométrico y es infaltable en un buen programa de estudios en una facultad de psicología.

Saludos cordiales

Andrés