Terre à Terre
@terreaterre.bsky.social
1.4K followers 100 following 580 posts
Enseignant #TeamSVT J'essaie de vulgariser de façon la plus honnête possible des sujets comme l'agriculture et l'écologie, même si c'est pas facile ! terre-a-terre.webgenie.fr
Posts Media Videos Starter Packs
terreaterre.bsky.social
J'ai testé avec plusieurs IA... Le mieux c'était Le Chat mais pas encore top...
Apparemment avec Gemini pro ça fonctionne par contre, mais c'est payant
terreaterre.bsky.social
J'ai scanné en résolution 300 ppp
terreaterre.bsky.social
Euh je sais plus... c'est vraiment important ?
terreaterre.bsky.social
Pour que ce soit plus visuel
terreaterre.bsky.social
Et sans compter que pour la correction des examens, où la connaissance des élèves n'entre pas en jeu, et où les copies sont déjà numérisées, ça permettrait de faire des économies tout en améliorant la cohérence et justice de notation
terreaterre.bsky.social
Alors oui, le travail de numérisation est long, mais pourrait être divisé par 4 avec une bonne machine.
Le prompt que j'ai tapé pourrait fonctionner pour n'importe quel autre sujet type 2. Suffit d'apporter le barème.
terreaterre.bsky.social
De mon point de vue, on passe beaucoup trop de temps pour le travail de correction, pour une plus-value trop modeste en termes de connaissance des élèves... Ce temps serait à mon sens bien mieux investi ailleurs...
Et lire les appréciations de l'IA suffirait sûrement à savoir ce qu'il faut savoir
terreaterre.bsky.social
Peut-être, mais faire corriger par l'IA n'empêche pas de lire les copies. Et d'ailleurs les appréciations fournies sont très pertinentes sur l'état de compétences des élèves j'ai trouvé !
terreaterre.bsky.social
Pour ma part, je n’utiliserai pas l’IA pour des copies manuscrites (trop long, trop galère), mais pour de l’évaluation formative lorsque les élèves sont sur ordinateur, ça pourrait être un outil redoutable.
On verra comment je l’intègre à mes pratiques !
terreaterre.bsky.social
Les seuls vrais obstacles, pour l’instant, sont :
• la numérisation des copies,
• la reconnaissance d’écriture manuscrite, encore très perfectible.
Mais d’ici quelques années, ces verrous sauteront, et on se posera alors les questions éthiques.
terreaterre.bsky.social
En conclusion :
Pour moi, aucun doute : l’IA est déjà capable de corriger des copies, à condition de bien cadrer le prompt.
Et encore, je n’ai entraîné aucun modèle ! Avec un peu d’entrainement, on pourrait sûrement faire encore bien mieux.
terreaterre.bsky.social
Par contre, toujours cette fichue copie n°6 où il y a de gros écart avec la moyenne… Peut-être dois-je recorriger ? ^^
Et même en prenant en compte tous les modèles, la dispersion reste en moyenne à 2,1 points, soit dans la fourchette basse des écarts entre correcteurs humains.
Pas si mal, donc.
terreaterre.bsky.social
Pour le fun, j’ai tout regroupé sur un graphique.
Quand on fait la moyenne de tous les tests, ça correspond très bien à mes notes : écart moyen global de 1,7 point.
terreaterre.bsky.social
-Gemini : interface fluide, résultats plus proches des miens (écart moyen : 2,1 points), mais encore des notes trop élevées et une dispersion un peu forte (écart-type : 1,35).
terreaterre.bsky.social
-Le Chat : pas mieux. Même indulgence, et même un 20/20 donné à une copie moyenne ! L’interface est lente, mais la cohérence d’un passage à l’autre est excellente (écart-type : 0,9 point).
terreaterre.bsky.social
Et les autres modèles, alors ?
Petit tour d’horizon :

-ChatGPT : rapide, mais limité en nombre de fichiers joints... Et côté notation, un peu trop laxiste : il identifie bien les bonnes et mauvaises copies, mais gonfle les notes (écart moyen : +2,9 points).
terreaterre.bsky.social
Mais des écarts de ce genre, on en trouve aussi entre enseignants.
L’écart-type moyen ressort à 1,2 point, bien inférieur à celui d’un panel de correcteurs humains
Petit bémol : le modèle rame parfois et bug. Il peut s’arrêter au milieu, changer de langue ou de sujet sans prévenir.
terreaterre.bsky.social
J’ai ensuite voulu vérifier la stabilité du modèle : j’ai refait passer les mêmes copies plusieurs fois.
Résultat : peu de variation globale, même si certaines copies (notamment la fameuse n°6) donnent du fil à retordre, avec des notes allant de 10,5 à 17 selon les passages…
terreaterre.bsky.social
Quand je compare item par item dans le barème, c’est pareil : de petites différences, mais globalement très cohérent.
terreaterre.bsky.social
D’autant que, même entre deux correcteurs humains, les écarts peuvent être énormes : certaines études montrent des écarts-types de 2 à 3,5 points, et parfois jusqu’à 13 points (!!).
Bref, un écart moyen de 1,6 entre l’IA et moi, on est très bien.
terreaterre.bsky.social
Les commentaires sont abondants et pertinents, bien plus que mes deux ou trois remarques griffonnées à la va-vite, et les notes collent étonnamment bien aux miennes.
Regardez plutôt : l’écart moyen avec ma correction manuelle est de 1,6 point. Pas mal !
terreaterre.bsky.social
Qu’à cela ne tienne, je continue.
Je prends 9 copies représentatives, que je retranscris moi-même phrase par phrase pour corriger les erreurs de reconnaissance.
J’envoie ensuite ces textes propres à mon IA, et là, franchement, c’est bluffant.
terreaterre.bsky.social
Bref : le principal obstacle est là.
L’IA est encore incapable de bien lire les copies manuscrites — surtout quand la graphie est… disons, perfectible.
terreaterre.bsky.social
Je vais donc voir la retranscription de la copie, et là, c’est le drame : en voulant traduire l’écriture manuscrite des élèves, l’IA se trompe souvent, invente des mots, corrige des fautes sans qu’on le lui demande, et change parfois complètement le sens.
terreaterre.bsky.social
Je corrige d’abord à la main, pour ne pas être influencé, puis j’envoie les copies numérisées une par une à l’IA.
Elle fait le job, mais rapidement je vois que, sur une bonne partie des copies, c’est un peu n’importe quoi : notes erronées, appréciations à côté de la plaque…