Article paru le 11 jan, 2010
10 propositions pour améliorer la fiabilité de la notation
La docimologie, c’est quoi au juste ? Menées depuis près d’un siècle, les recherches en docimologie se sont centrées sur la pratique des examens dans l’enseignement, et plus particulièrement sur la manière dont des copies d’examen sont notées. En se basant sur l’hypothèse que la correction d’un examen rédactionnel comporte incontestablement une dimension subjective, cette science issue de la psychologie cherche à voir dans quelle mesure la notation aux examens varie d’un correcteur à l’autre. Les résultats n’ont pas manqué de surprendre, si ce n’est d’inquiéter…
La question de la fiabilité et des écarts entre différents correcteurs
Dès 1922, Henri PIERON introduit cette nouvelle discipline. En 1931, l’Université américaine Columbia lance une enquête internationale sur les examens et concours dans les différents pays. L’enquête sera ensuite nommée «Enquête CARNEGIE». En 1936, la commission française de l’enquête CARNEGIE soumet des copies du baccalauréat à une expérience de multi-correction. Pour chaque copie, six correcteurs attribuent une note sur 20 pour 100 copies de 6 disciplines. Les résultats de cette enquête sont exploités par Henri LAUGIER et Dagmar WEINBERG (1936) qui font état d’écarts de notes considérables : jusqu’à 13 points d’écart en composition française, 12 en philosophie et en version latine, 9 en anglais et en mathématiques, 8 en physique.
En 1996, Pierre MERLE publie une nouvelle étude concernant les évaluations en classes. Il montre que pour un écart moyen de notation de 2,2 points en faveur des enfants de cadres par rapport aux enfants d’ouvriers (données recueillies sur 1700 élèves scolarisés en classe de quatrième), un demi-point de moyenne (soient 25 % de l'écart) n'est pas justifié par les différences de compétences aux tests dit « standardisés » et s'explique par le statut social des élèves considérés (notes de mathématiques et français confondues). Il affirme que les notes sont plus élevées pour les filles ainsi que pour les élèves issus de milieux aisés. Pour l’épreuve du baccalauréat cette fois-ci anonyme, il observe qu’une proportion plus grande de garçons, fils d’ouvriers et redoublants sont reçus à l’épreuve, alors que ces derniers font l’objet d’une sous-estimation au contrôle continu durant le reste de l’année. Il soutient face à cela que les enseignants devraient davantage partager sur la conception des sujets et s’échanger les copies pour la correction.
En 2008, Bruno SUCHAUT obtient les corrections d’une trentaine de correcteurs sur 3 copies de Sciences Économiques et Sociales des baccalauréats de 2006 et 2007. Cette étude montre que plus la copie est jugée « mauvaise », plus elle sera assortie de nombreux commentaires, visant à « justifier », en quelque sorte, cette note. Il met une nouvelle fois en évidence des écarts allant jusqu’à 10 points entre deux correcteurs pour une même copie. L’auteur souligne également la lourdeur de l’examen du baccalauréat en termes d’organisation et de coûts. La modernisation de cet examen de plus de 200 ans d’existence permettrait notamment de revaloriser le diplôme. Pour autant, cette étude suscite peu de réactions, si ce n’est la critique par les enseignants non-avertis de l’enquête menée.
Nous ne nous livrons pas ici à une énième dénonciation sur les écarts de notes. Nous nous interrogeons plutôt sur la raison pour laquelle de tels écarts continuent d’être observés. Savons-nous au juste ce que représente un 06/20, un 10/20 ou un 16/20 ?
Il résulte de ces observations une conséquence surprenante pour un concours aussi important que celui de médecine en première année (PCEM1) : en quoi un étudiant qui obtient sur toutes ses épreuves un point de plus qu’un autre est-il compétent pour être médecin plutôt que dentiste et inversement ? Si un écart de points si faible fait cette différence, la question n’est elle pas de savoir quel est l’aléa maximum pouvant altérer les notes de chaque correcteur ? La répartition entre les différentes professions médicales apparaît-t-elle « scientifique » ?
La question du sens
Une note représente-t-elle un même ensemble de connaissances pour chaque enseignant ? Dans la mesure où aucune règle ne définit clairement les compétences atteintes pour obtenir un 6/20 ou celles pour un 14/20, il paraît impossible, dans le cas d’une épreuve non-structurée, que les enseignants puissent évaluer une copie de la même manière, avec les mêmes critères.
D’année en année, la note certifie des compétences, la règle étant d’obtenir la moyenne pour être admissible. Cela signifie-t-il que si j’obtiens 10/20, je serais capable d’assurer pour moitié seulement les fonctions relatives à ces compétences ?
Si obtenir 10 sur 20 signifie selon l’usage, que je suis admis pour les assumer toutes, dans ce cas, que signifient les notes comprises entre 10 et 20, puisqu’en ayant 10 je serai certifié comme celui qui a obtenu 16 ou 20 ? Il serait plutôt bon de savoir quelles sont les compétences validées par telle ou telle note. Cela impliquerait bien sûr de définir les compétences exigées et de savoir, par exemple, de quoi l’on parle, lorsque on se donne pour objectif l’acquisition d’un « socle commun de connaissances et de compétences » par tous.
Depuis la circulaire de 1969 qui tentait de faire disparaître la notation chiffrée au profit d’appréciations lettrées et son abrogation dès 1971, peu s’attardent à vouloir encore résoudre la problématique de la note, chargée d’un trop lourd passé historique et social, comme le rappelle bien Bertrand GIMMONET (2007) dans son dernier ouvrage.
Ce désintéressement témoigne sans doute de l’impossibilité de répondre aux problématiques de la fiabilité et du sens dans la notation. Si aucune solution ne permet de résoudre ces problèmes dus à l’inévitable subjectivité dans la correction, nous proposons dix solutions simples permettant de pallier à ces imperfections. Toutes impliquent peu ou prou l’utilisation de l’évaluation informatisée.
Nous proposons de lancer le débat. Nous vous invitons vivement à participer autour de ces quelques questions : que représente la note ? Est-elle juge de valeur ? Pensez-vous qu’une évolution des représentations et des usages autour de la note soit possible ?
10 propositions pour améliorer la fiabilité de la notation
1. Présenter aux élèves à chaque rentrée, la démarche et les critères d’évaluation employés pour chaque enseignement.
2. Rédiger une charte écrite de ces points pour chaque promotion
3. Éviter les interrogations à note unique forfaitaire ; prévoir si possible dans ce cas, que la notation de ces épreuves ne comptera que pour une part limitée dans la moyenne de l’enseignement.
4. Pour chaque sujet d’épreuve : l’analyser et rédiger un corrigé type
5. Parallèlement à la rédaction du corrigé type, définir les objectifs précis à remplir par l’élève :
- Connaissances enseignées durant le cours : expliciter les éléments de connaissances attendus lors de la réponse de l’élève : utilisation et/ou description des faits et concepts enseignés
- Savoir-faire maîtrisé : expliciter les éléments de savoir-faire enseignés à évaluer : raisonnement, style…
- Éléments de Connaissances ou de Savoir-faire originaux explicitement attendus : si en dehors des éléments de connaissances et de savoir-faire enseignés l’épreuve implique explicitement que l’élève fasse preuve d’originalité, il importe que les points attribués à cette demande soit définis et limités. Il faut éviter qu’un ajout positif ou négatif hors sujet soit comptabilisé (effet de halo).
6. Pour chaque objectif définir les points à attribuer : plus les objectifs sont nombreux, détaillés et précis, plus la marge d’approximation s’avère limitée. Chaque objectif doit se voir attribué un nombre de points pouvant être obtenus fixes. Une bonne réponse comme une erreur peuvent être plus importantes qu’une autre. Les points par question doivent être limités par groupes réduits, par exemple :
Si 1 point : 0 ou 1
Si 2 points : 0 ou 2 ou 0, 0,66, 1.33 ou 2
Si 3 points : 0 ou 3 ou 0, 1, 2 ou 3 ….
Le principe est d’éviter une concentration sur la moyenne et une trop grande latitude de notation, par exemple :
Si 3 points : 0 – 0,25 – 0,5 – 0,75 – 1 – 1,25 – 1,5 – 1,75 – 2 – 2,25 – 2,5 – 2,75 – 3
7. Délibérer entre enseignants de ces points (1 à 6)
8. Réaliser une partie des évaluations formatives sous forme de QCM permettant d’obtenir un référentiel objectif pour chaque élève
9. Mettre en œuvre une véritable correction anonyme des épreuves rédactionnelles
10. Utiliser un outil de dématérialisation permettant la correction assistée des épreuves rédactionnelles, sur la base de l’évaluation de l’enseignant, objectif par objectif, point par point avec calcul automatique de la note.
Bibliographie
Henri PIERON, 1936. "Problèmes docimologiques." L'année psychologique, vol. 37, n° 1, pp. 766-773. url :
Pierre MERLE, 2007. Les notes sont-elles justes. Café Pédagogique :
Merci pour ces informations, je suis moi aussi sensible à ces questions lorsque je note mes élèves.
Je fais des qcm pour pouvoir réagir si je vois que les élèves n'ont pas compris. Néanmoins, il est aussi essentiel d'évaluer l'écrit. La correction assistée par ordinateur me paraît être un outil intéressant que je ne connais pas. Il est surtout important de pouvoir envoyer les corrections aux élèves afin qu'ils puissent se constituer un "e-portfolio" et qu'ils disposent des corrigés pour pouvoir s'améliorer.
bonne continuation !
As-tu des exemples "d'outils de dématérialisation permettant la correction assistée des épreuves rédactionnelles" ? Personnellement il m'arrive d'utiliser un simple tableur (un étudiant par ligne, un critère par colonne) pour avoir rapidement le calcul des notes finales à partir des points attribués à une vingtaine de critères, mais :
- indiquer les points directement sur la copie permet à l'étudiant de connaître ses erreurs : envoyer un mail à chaque étudiant avec la ligne qui lui correspond (pour qu'il connaisse le détail de sa note) est assez fastidieux et je ne connais pas d'outil logiciel qui pourrait assister cette étape. Certes, on peut envoyer tout le tableau de notes à l'ensemble de tous les étudiants, cela nécessite de prévoir un moyen d'anonymiser un tel tableau pour éviter que tout le monde connaisse les notes de tout le monde.
- le système est source d'erreurs, car il est assez facile de se tromper de ligne ou de colonne, ou de noter "trop vite".
- si on veut calculer automatiquement les notes en additionnant les points par une formule simple de tableur, ça nous incite à évaluer les copies juste de façon "numérique", sans mettre de commentaires (alors qu'en corrigeant directement sur la copie on aura tendance à commenter certaines erreurs, ou féliciter l'étudiant pour des solutions astucieuses).
Bref, il y a certainement des outils plus adaptés que le tableur pour cela, existants… ou à créer ! En attendant, le plus souvent, je corrige directement sur la copie sans assistance informatique :s.
Bonjour,
Il me paraît très important de relayer ces problèmes et solutions non seulement à l'éducation nationale mais encore à l'administration en général.
C'est très très grave. Chaque année l'administration organise des concours de recrutement. Malheureusement, la subjectivité et l'opacité des critères entraîne des erreurs de recrutement.
J'espère que quelqu'un aura le courage de prendre ce problème à bras le corps.
Merci énormément pour cet article en tous les cas.