“Si uno tortura a la información estadística lo suficiente, la naturaleza eventualmente confesará”

Reflexiones sobre los resultados del último Operativo Nacional de Evaluación (ONE) de la calidad educativa a la luz de la vieja frase de Ronald Coase

La Semana pasada, durante la asunción de la Presidente, se adelantaron durante el discurso algunos resultados del ONE del 2010, para alumnos del último año del colegio secundario, cuyo informe preliminar apareció publicado en la página web del Ministerio de Educación tres días después (click aqui para bajar el informe).

El resultado más notable fue que en Matemática, que en el ONE del 2007 había registrado solo 55,3% de alumnos con rendimiento satisfactorio o destacado (44,7% poco satisfactorio ) ahora creció hasta un 70% de los alumnos en esa condición (se redujo a 30% la cantidad de alumnos con rendimiento bajo).

Y notable no por la magnitud, sino porque el número va en contra de la percepción que muchos de los que damos clases en materias de primer año de la universidad tenemos, cuando recibimos a los ingresantes recién salidos del colegio secundario.

Podría pensarse que el resultado depende del margen de error de muestreo de los cuestionarios –porque en 30 preguntas no se puede evaluar todo el contenido del colegio y sería probable que por azar se hubieran seleccionado ítems relativamente fáciles, o que justo coincidieran con los temas que más sabían los alumnos- pero la fuerte mejora también se registró en Ciencias Naturales (donde se creció del 44,3% al 65,6% de rendimiento aceptable o sobresaliente) y en Ciencias Sociales (que pasó del 57,8% en la evaluación del 2007 al 70%)

La mala noticia es que en Lengua el porcentaje de alumnos “aprobados” cayó 5,1% en comparación con el 2007, aunque es verdad que queda de todos modos en un aceptable 73,7% entre nivel medio y alto.

Los números además tampoco coinciden con lo que vienen mostrando las evaluaciones estandarizadas internacionales que lleva adelante la gente de PISA (Programme for International Student Assessment). En la evaluación comparada de estudiantes secundarios de 15 años que se hizo en 2006 y se repitió en 2009, nuestro país mejoró solo un 1,8% en Matemáticas y un 2,5% en Ciencias, mientras que en Lengua, a contramano del ONE, fue donde más mejoró; un 6,4%.

Y la última prueba de que algo anda mal es que si bien la matrícula de quinto año creció un 7,4% entre 2007 y 2010 (pasando de 336.807 a 361.690 alumnos), la cantidad de graduados del colegio secundario se ha mantenido prácticamente sin cambios en los últimos 4 años (en rigor cayó de 248.396 a 248.389), lo cual indicaría que está llegando más gente que fracasa a quinto año y si esas personas entran en las mediciones, pues los números deberían caer.

Comparando peras con manzanas

La primera sospecha es que simplemente el ONE del 2007 y el del 2010 no sean comparables.
En rigor, la evaluación del 2007 fue muestral, seleccionándose 1839 escuelas y administrándose el cuestionario a 36940 alumnos, sobre una matrícula de 336.807 alumnos. En contraste, la medición del 2010 tuvo carácter “censal” y las comillas vienen a cuento de que participaron 277.959 estudiantes de 7.308 escuelas de todo el país, cuando la matrícula es de 361.690. O sea que un 23,2% de los alumnos matriculados, o bien ya no están en el colegio o no fueron parte de la medición. La hipótesis del desgranamiento, por otro lado, puede explicar solo parte de la historia porque incluso en el censo ONE del año 2000, con una matrícula menor, respondieron más alumnos (283.573)

Pero la evaluación muestral del 2007 tampoco fue homogénea puesto que los exámenes de matemática y lengua se administraron efectivamente en el 2007 pero los de naturales y sociales se corrieron en el 2008, o sea sobre otro grupo distinto de alumnos (en este caso unos 40.000 alumnos de 2.000 escuelas). Se reduce por lo tanto un año (queda del 2008 al 2010) el período de que se dispuso para que las mejoras reales de transmisión y adquisición de contenidos tuvieran lugar, con lo que resulta aún más llamativa la mejora, por ejemplo de Naturales que creció 21,3% en ese corto lapso.

Respecto a la estructura de los exámenes, en los informes del 2007 y del 2010 se habla de 35 ítems en el primer caso y 32/33 en el segundo. En 2007 les daban 80 minutos para hacer el examen y no se sabe aún cuanto les dieron en 2010. Lo que sí queda claro, al menos por los ejemplos que aparecen en ambos documentos, es que no existen garantías de que las evaluaciones de los dos momentos midan cosas similares, aunque por fortuna y según se reconoce en la página 14 del último informe, hay algunos ítems que se repitieron (la pregunta del millón es por qué no se repitieron todos.

Un ejemplo de que además los ítems tienen baja validez de constructo es el modelo de ejercicio sugerido como “nivel de desempeño alto” en matemáticas (página 31 del informe).

“En un terreno rectangular de 140 m2 se construye una piscina de 10×6. La piscina está rodeada por una vereda que tiene un ancho constante. ¿Cuál es el ancho máximo que puede tener la vereda?”. El ejercicio está acompañado del croquis de la pileta, en el centro, y la vereda ocupando el resto del terreno.

Pues bien. La ficha técnica del ejercicio dice que el problema “involucra plantear y resolver una ecuación de segundo grado”, lo cual es verdadero hasta acá; simplemente la pileta tiene dos veredas laterales de 10 mts de largo y X mts de ancho, más dos veredas en las cabeceras, cuyo ancho obviamente es X y su largo resulta igual a los 6 metros de ancho de la pileta, más la prolongación de las otras dos veredas que sabemos que tienen X mts de ancho, cada una. La sumatoria de todo eso tiene que medir el total del terreno, de modo que la ecuación que hay que construir es la siguiente:

140 = 60 + 2 X (10) + 2 X (6+2X)

Pero resulta que acá es donde la cosa se pone interesante, porque la pregunta es con la modalidad multiple choice ofreciéndose las siguientes 4 alternativas.

a) 2mts
b) 4 mts
c) 10 mts
d) 20 mts

Así lo que empezó siendo un ejercicio de razonamiento relativamente avanzado acaba de convertirse en un simple juego de prueba y error, que además lleva menos tiempo que plantear la ecuación y resolverla.
El alumno razona rápidamente que si la vereda tiene 2 mts de ancho, pues las laterales miden 20 m2 cada una y las de las cabeceras también (porque el largo es 6 mts mas los 2 mts de la otra vereda de cada lado). Cuatro veredas de 20 m2, son 80 m2, más los 60 m2 de la piletaaa….BINGOOOO

Ese es el modelo de ejercicio para el nivel avanzado. Vaya imaginándose usted la dificultad del de nivel bajo.

Los genios que diseñaron el examen (incluso según el informe hubo una “validación de expertos de la UBA”) proponen el siguiente ejercicio:

“En un club 200 socios practican natación y representan el 25% del total de asociados. ¿Cuántos socios tiene el club?”. Por si el color del caballo blanco de San Martín aún no se hacía evidente, aparecen las opciones salvadoras:

a) 150
b) 225
c) 250
d) 800

Los comentarios huelgan, pero es realmente divertido de modo que los voy a hacer igual. O sea, acá hay gente que cobró dinero para validar un instrumento y pone 150 como una opción. Si hay 200 practicando natación, la única razonabilidad de incluir esa opción es si se busca detectar algún caso serio de retraso mental en la población estudiantil. Pero además 225 y 250, tampoco resisten mucho análisis.

En rigor, pero esto ya trasciende el ONE que estamos discutiendo, no tiene pies ni cabeza ofrecer opciones múltiples para una pregunta que debe responderse con un solo número. Lo correcto sería poner un casillero en blanco para que el alumno complete y punto. Ok, Ok ya se…el software no puede leer el número. Bueno en realidad los software hace rato que pueden detectar si hay un 800 en una casilla, pero además igual hubo un ejército de docentes trabajando para corregir las preguntas abiertas, de modo que una mancha mas al tigre no le hacía mucha diferencia y lograban así medir lo que querían medir.

Ta Te Ti, figurita para mí

Un aspecto que llama la atención de los analistas que armaron el informe del último ONE es que habría disminuido hasta un 50% el porcentaje de no respuesta en comparación con el 2007.

Quiero pensar que esta gente trabaja seriamente y que dada la naturaleza estructuralmente aleatoria de las preguntas choice descuentan 0,33 de cada una de las preguntas mal respondidas, de suerte tal que si una persona que no conoce el idioma castellano y se sienta frente el examen a hacer ta te ti, pierda el punto que ganó ¼ de las veces por pura suerte las otras ¾ parte de las veces que el azar no lo acompañe.

Porque los exámenes de matemática del ONE del 2007, por ejemplo tuvieron en torno a un 8% de preguntas sin responder. Si esa gente ahora hace ta te ti, pues tenemos 2% más de preguntas correctas.

Incluso más; el diseño de un buen examen de opciones múltiples es una tarea difícil y si las alternativas resultan disparatadas o están dominadas, pues la estrategia de adivinación, mediada por un previo descarte puede permitir acertar muchos más que el 25% por simple azar.

Como ejemplo analicemos el ejercicio propuesto como modelo de “nivel de desempeño alto” para las ciencias sociales.

“Si en una elección para Presidente de la nación la lista que más votos saca (lista 1) obtiene más del 45% pero no llega a tener una diferencia porcentual mayor al 10% con respecto a la segunda lista (lista 2), ¿Cuál es el resultado final de dicha elección?”

Muy interesante la pregunta y realmente sospecho que muchos ciudadanos que han votado más de una vez pueden llegar a contestarla mal. De hecho me resulta de una honestidad brutal que el propio ministerio de educación considere que ese conocimiento refleja “desempeño alto” puesto que solo 17,2% de los que egresan tienen desempeño alto en sociales y uno presupondría que nadie puede terminar la secundaria sin saber cómo funciona su sistema electoral, nada menos que para la elección del presidente.

Pero volvamos a la pregunta. ¿Hay opciones?
Siiiiiiiiiiiiiiii

a) Gana la lista 2
b) Hay balottage entre la lista 1 y la lista 2
c) Se repite la elección con todas las listas
d) Gana la lista 1

O sea; a ver, comprendo que alguien tenga alguna duda entre las opciones b y d, pero realmente pensar que se pueda declarar ganador a la lista que salió segunda es un insulto a la inteligencia de cualquier persona. Preguntas como esta son candidatas a reducir la adivinanza a una suerte de moneda al aire; 50 y 50.

Las opciones disparatadas siguen. En Naturales por ejemplo hay una opción que dice que “hace más de 2.000 millones de años apareció y evolucionó la población humana (cuando es obvio que todos saben que Adan nació recién entre 4.000 y 5.000 años antes de Cristo…, chiste).
También en naturales hay una opción que dice que el nitrógeno del aire queda en el interior del cuerpo (abstenerse los que están pensando en el chiste del tipo que se baña con el jabón de glicerina) y luego aparece una tablita que muestra que el aire inspirado tiene un 78% de nitrógeno y el aire expirado un 78% y en la misma pregunta otra que dice que la totalidad del oxígeno inhalado pasa al interior del cuerpo y luego la tablita anexa muestra que el 14,6% del aire exhalado es oxígeno.

De manera interesante los ejemplos de Lengua no presentan este tipo de problemas de diseño.

En fín; si el resto de los ítems están diseñados como los modelos, pues es de suponer que tenemos candidato para explicar la mejora en los puntajes.

Candidatos por la positiva

Por último, también podría uno pensar que los fracasos en los ingresos a las universidades y el estancamiento de los resultados en PISA son fenómenos artificiales y que en realidad sí se está produciendo una mejora en el rendimiento de los alumnos.
Tengo algunas hipótesis que podrían justificar esa mejora.

La primera es que tanto el análisis estadístico multinivel que se hace en el ONE 2007, como el simple cruce de variable que se efectúa en el del 2010, confirman un resultado que ya tenía abundante literatura de respaldo; esto es: que la educación de los padres (y sobre todo de la madre) influye fuertemente en el rendimiento de los chicos. Pues la explosión de la matricula en las universidades durante los ’80 y ’90 (paradójicamente congelada desde el 2000) implica que los padres de los chicos que hoy tienen 17 años hayan pasado por los claustros en mayor medida y eso debería mejorar los rendimientos.

La segunda es que 66,1% de los alumnos de quinto año estaban en el sector público cuando se hizo el ONE del 2000, mientras que solo 62,2% lo está ahora, de modo que es plausible pensar que ese 4% que migró del estado al sector privado haya tenido más días de clase y recursos de infraestructura en la escuela.

El factor económico solo no creo sin embargo que tenga mucha influencia, porque la economía ya venía creciendo fuertemente entre octubre del 2002 y noviembre del 2007 (que fue cuando se tomo la evaluación del ONE). La mayor parte de la recuperación del empleo ya había tenido lugar y por otro lado la novedad de la asignación universal por hijo debería impactar en la primaria y no sería razonable esperar resultados en la secundaria sino hasta dentro de unos 10 años (puesto que no se puede hacer quinto año, si se abandonó en primero).

Las políticas educativas tampoco, porque básicamente no han cambiado lo que sucede dentro del aula, siguen reproduciendo el vetusto modelo del siglo XIX que como explicara brillantemente Ken Robinson (clik aqui para ver la conferencia TED de Robinson) puede haber sido muy útil cuando la economía era básicamente industrial, pero fracasa absolutamente en todas partes ahora que la tecnología y las revolución de las comunicaciones han reemplazado a la vieja línea de montaje.

La otra variable que podría haber hecho mejorar los indicadores es la mayor conectividad de los adolescentes (tanto en internet como mediante los celulares). Sé que este punto es controvertido. Hace unos años hubo un trabajo famoso de Terezinha Carraher que demostraba que los chicos pobres rendían bien en los ámbitos laborales en los que se desempeñaban pero mal en la escuela para el mismo tipo de demandas cognitivas. El título del trabajo era “En la vida 10, en la escuela 0” y yo creo que ahora el corte es mas transversal y que los chicos están aprendiendo en internet lo que la escuela no les enseña. Quizás en poco tiempo veamos un paper que se titule “En la compu 10, en la escuela 0”.

Entonces, ¿estamos mejor o peor?

En síntesis, ciertamente los ONE 2007 y 2010 no son comparables.
La muestra del 2007 tiene un margen de error estadístico del orden del 2,5% y un margen de error de inclusión de los ítems, que probablemente sea mucho mayor (dado que solo se pueden tomar 35 preguntas, de un universo casi infinito).
Va a ser interesante analizar la sub muestra de ítems repetidos entre el 2007 y el 2010, aunque de todos modos, el error estadístico de inclusión no se anula repitiendo el mismo test, en tanto y en cuanto cambian los alumnos y es probable que los temas que justo por azar saben unos no sean los mismos que de casualidad saben los otros.

El censo del 2010, por su parte, paradójicamente no es un censo, puesto que al dejar a 23% de la población objetivo fuera de la evaluación introduce un espectacular sesgo. Para ser ilustrativos; esto es exactamente lo mismo que si el censo nacional que hizo el Indec el año pasado solo hubiera relevado a 31 millones de argentinos.
Obviamente no sabemos el sentido (el signo) del sesgo. Y no lo sabremos hasta que el ministerio explique porque quedó tanta gente sin censar, puesto que allí podremos conjeturar la correlación que existe entre la probabilidad de haber sido censado y el rendimiento.
Si el ministerio publica la base de datos completa (como lo hizo en el 2000 con el ONE censal de ese entonces), podré efectuar un estudio de matching entre las poblaciones de los dos censos ONE y entre la población del ONE 2010 y el Censo 2010. Con esa información puedo calcular perfectamente el sesgo que ocasionó ese 23% que falta, pero será necesario también algún financiamiento porque es bastante trabajo.

Por último, los ítems no lucen muy fiables y ciertamente no se puede descartar la hipótesisis de que haya habido un “efecto ta te ti” que explique entre 2 y 4 puntos porcentuales de diferencia.

Sumando entonces todo, parece razonable confiar en la medición de la gente de PISA que después de todo compara peras con peras y manzanas con manzanas.
Si esa es la verdadera historia entonces quiere decir que los rendimientos mejoraron. Poquito, es verdad, pero lo hicieron. Y más en lengua que en matemáticas y ciencias.

M.T.

Martin Tetaz es Economista, egresado de la Universidad Nacional de La Plata, especializado en Economía del Comportamiento, la rama de la disciplina que utiliza los descubrimientos de la Psicología Cognitiva para estudiar nuestras conductas como consumidores e inversores. Actualmente es Diputado Nacional.

“Si uno tortura a la información estadística lo suficiente, la naturaleza eventualmente confesará”

Enviar comentario Cancelar la respuesta