L’étude de Bruno Suchaut, dont les médias se sont largement fait l’écho ces derniers jours, a porté sur 6 copies d’élèves en sciences économiques et sociales ayant passé le bac en juin 2006 et en juin 2007, et qui ont été soumises à la correction d’une trentaine de professeurs. Nous reproduisons ci-dessous l’intégralité de la conclusion, dans laquelle l’auteur, comme on le verra, tire des enseignements concernant l’évaluation en général au baccalauréat, dont certains sont sans doute à méditer par les enseignants de langue à l’heure où ils sont soumis à une forte pression pour modifier leurs pratiques et leurs outils d’évaluation.
En conclusion : quels enseignements pour le baccalauréat ?
Cette expérimentation ne fait que confirmer les conclusions bien connues des recherches antérieures sur la question des aléas de la notation. Ces aléas persistants interrogent forcément sur leurs conséquences sur la carrière des élèves et sur l’obtention des diplômes, et en l’occurrence ici, du baccalauréat. Les écarts de notation d’un correcteur à l’autre sont très importants (jusqu’à 10 points) et peuvent avoir, pour certains élèves, une réelle influence sur la réussite à l’examen. Ainsi, pour l’épreuve de sciences économiques et sociales qui est affectée d’un coefficient 7, un écart de 5 points en matière de notation entraîne au total des différences de 35 points, ce qui est loin d’être négligeable… Evidemment, on peut penser que les aléas de notation ont tendance à se compenser avec le nombre d’épreuves mais les coefficients variables affectés à ces épreuves ne donnent pas à toutes les erreurs de mesure le même poids. La réflexion suscitée par l’expérimentation présentée dans ce texte peut être menée à plusieurs niveaux.
Le premier niveau concerne la notation des élèves lors des examens et la question de la réduction de l’incertitude de la mesure est difficile à traiter. Une voie possible est de fournir des outils permettant de renforcer la cohérence des pratiques en la matière. Les grilles de correction avec un barème précis peuvent contribuer à garantir des aléas moins importants. Toutefois, même dans des disciplines scientifiques, l’utilisation d’un barème précis détaillé en de nombreuses sous-questions est loin d’être un outil parfait et les biais ne sont pas non plus négligeables (Aymes, 1979). Une autre possibilité est de multiplier le nombre de correcteurs, comme cela peut se faire dans certains concours avec notamment le principe de double correction. Pour des raisons évidentes de nature économique, cela n’est pas possible et la recherche de la « vraie note » (au sens statistique du terme), celle qui réduirait au maximum les aléas de correction n’est concrètement pas envisageable (Leclercq, Nicaise, Demeuse, 2004).
Au niveau des examens encore, les procédures d’harmonisation des notes ne limitent que très imparfaitement les biais puisqu’elles ne portent que sur l’échelle globale de notation (moyenne et dispersion de la distribution) et n’agissent aucunement sur les écarts entre les correcteurs. Une solution pourrait être, quand la nature de l’épreuve le permet, de recourir à des formes de type Q.C.M. pour lesquelles les marges d’interprétation des réponses sont nulles. Le coût en temps est plus élevé au niveau de la construction des épreuves que pour une forme traditionnelle, mais les gains en termes d’équité de la notation sont significatifs, de même que ceux relatifs au temps alloué à la correction. Bien sûr certaines disciplines se prêtent moins que d’autres à cette forme d’évaluation, sachant par ailleurs que les épreuves orales n’échappent pas non plus aux biais d’évaluation.
Un deuxième niveau de réflexion concerne le baccalauréat lui-même. Au début du XXIe siècle, 200 ans après sa création, la question de la pertinence de cet examen emblématique se pose et des interrogations sur sa valeur, son coût et son organisation sont légitimes (Solaux,2001). Il est évident, qu’au fil des décennies, le bac a perdu de son intérêt en terme de sélectivité et même si les différentes séries du bac ne se valent pas toutes pour la poursuite d’études ultérieures, sa dévalorisation est néanmoins évidente (Duru-Bellat, 2006). Un autre aspect est son coût élevé à la fois monétaire et en temps pour les élèves avec la mobilisation des locaux scolaires pour les centres d’examen. Il serait aussi possible d’envisager des épreuves plus légères possédant le même caractère prédictif de la réussite, mais moins coûteuses en matière d’organisation (Oget, 1999), mais le problème des aléas de la notation ne serait pas davantage résolu. C’est donc clairement la question de la suppression de l’examen qui peut se poser sachant que son remplacement par le contrôle continu n’est pas la panacée, celui-ci étant très marqué par le contexte local au niveau de l’établissement.
Enfin, un dernier niveau de réflexion concerne plus généralement la pratique de la notation au quotidien en soulignant que cette pratique évaluative n’existe pas dans un certain nombre de pays. L’expérimentation présentée et analysée dans ce texte, ne fait que confirmer avec des données actuelles, ce que l’on sait depuis longtemps déjà sur l’incertitude de la notation. On ne peut que regretter que cette pratique, si répandue à tous les échelons de notre système éducatif, puisse avoir des conséquences en termes d’inégalités dans la certification des acquis scolaires. Faire le deuil de la notation, renvoie aussi à changer plus globalement la vision de la finalité de l’acte d’enseignement. Un changement en la matière obligerait à revoir totalement les mécanismes de sélection, d’orientation et de certification des élèves, mais aussi, au quotidien, le regard que porte l’enseignant sur l’élève.