Risultati degli esami nel Regno Unito Inversione di marcia: gli algoritmi da soli non possono risolvere problemi umani complessi
I risultati degli esami decisi da un algoritmo Ofqual per un massimo del 97% degli studenti di livello A e GCSE in Inghilterra verranno ora eliminati e i voti “ falsi ” previsti decisi dai singoli insegnanti verranno ripristinati, in un’umiliante inversione a U per il governo.
Il controverso algoritmo, implementato per dare voti standardizzati agli studenti al posto degli esami, ha segnato circa il 40% di tutti i risultati di livello A e ha colpito in modo sproporzionato gli studenti provenienti da ambienti più poveri e scuole statali rispetto agli studenti con istruzione privata.
Che cosa è andato storto?
Se mai ci fosse un algoritmo adatto per prevedere in modo accurato ed equo i risultati degli esami, quell’algoritmo dovrebbe essere addestrato su anni di dati educativi personali e tenere conto di un’enorme quantità di fattori attenuanti, in particolare considerando lo stato emotivo irregolare del tuo studente medio di livello A. Senza accesso a questo pool di dati di formazione granulari, l’algoritmo di Ofqual si basava invece sui voti storici dei singoli centri di test, sulle classifiche degli studenti fornite dai centri di test e dagli insegnanti e sui risultati degli esami precedenti. I voti previsti dagli insegnanti (che ora rappresenteranno i voti ufficiali sia per i livelli A che per i risultati GCSE) sono stati utilizzati anche come filtro secondario dopo i risultati storici della scuola, ma c’erano enormi discrepanze tra i risultati previsti e quelli decisi dall’algoritmo.
La controversia è nata perché i voti degli insegnanti o il rendimento individuale passato erano lontani dai fattori principali che influenzano le decisioni dell’algoritmo. Invece, i due fattori più importanti per l’algoritmo su cui lavorare sono stati la distribuzione dei voti del centro di test di un individuo tra il 2017-2019 e la “ classifica ” di ogni studente in base a come quel centro di test pensava che ti saresti comportato tra i tuoi coetanei, e la stima dell’insegnante del tuo grado. Dopo questi due fattori, i risultati dei test passati di uno studente sono stati presi in considerazione nella previsione, con gli studenti di livello A che sono stati giudicati in base alle prestazioni GCSE e gli studenti GCSE in base alle loro valutazioni chiave della fase due prese all’età di undici anni.
Questa struttura significava che i voti venivano calcolati principalmente in base al precedente conseguimento della classe o della materia e il voto di un individuo calcolato in base alla sua posizione nella classifica di quell’anno precedente – se la classifica diceva che eri al centro della classe, riceveresti un voto equivalente alla metà della classe dello scorso anno, con i risultati precedenti presi in considerazione per adattarsi a ciascun individuo. L’uso dei risultati degli esami precedenti di un bambino potrebbe essere andato in qualche modo verso il raggiungimento di previsioni più personalizzate, ma utilizzarlo solo per mettere a punto il voto finale suggerisce che questo approccio ambientale, basato sui pari, è stato molto più influente e non tiene conto dei cambiamenti che qualsiasi essere umano attraversa tra gli 11 ei 17 anni.
Perché i bambini di tutte le razze devono sapere come parlare di razza
Ciò è preoccupante per una serie di ragioni: 1) il calcolo dei voti in base al raggiungimento storico di un centro di test presuppone che la posizione abbia un effetto profondo sui voti, il che implica che gli studenti provenienti da ambienti storicamente svantaggiati non sono in grado di ottenere voti più alti rispetto agli anni precedenti e che gli studenti delle scuole con risultati migliori otterranno sempre risultati migliori, 2) presuppone una normale distribuzione dei voti durante la carriera scolastica di un bambino e una progressione lineare di ogni studente all’interno di una classe o area disciplinare (al contrario, la ricerca suggerisce che gli studenti C hanno un successo a lungo termine maggiore rispetto agli studenti A.), e 3) perpetua il quadro educativo già parziale che significa che le classi più piccole ottengono risultati migliori, precisamente il tipo di pregiudizio che questo approccio alla standardizzazione avrebbe dovuto correggere.
Piccoli soggetti, un grande vantaggio
Secondo l’analisi dei dati dell’ente di beneficenza per la mobilità sociale, UpReach , il solo effetto “soggetto piccolo” ha portato a un aumento del 4,7% dei voti A e A * nelle scuole private rispetto allo 0,3% nei college Sixth Form. Questo effetto significava anche che gli studenti del Sixth Form College avevano il 20% di probabilità in più di subire un declassamento del voto valutato dall’insegnante rispetto alle scuole private, con alcuni studenti del Sixth Form che sperimentavano cali fino a sei voti inferiori ai risultati previsti . Le classi più piccole portano a una distribuzione dei voti più bassa tra gli studenti poiché è più probabile che ci sia una gamma più ristretta di abilità in una classe più piccola – un’attenzione extra offerta agli studenti è anche propagandata come uno dei principali vantaggi delle classi più piccole nelle scuole private. Le classi più piccole compaiono anche più frequentemente in materie di nicchia come il latino che non sono necessariamente insegnate nelle scuole statali, e come tale l’inclusione di queste materie contraddice l’idea di “standardizzare” i voti nelle scuole che non hanno lo stesso curriculum.
Le materie classiche hanno anche visto il 10,4% in più di voti A * o A rispetto all’anno precedente, mentre le materie più comunemente insegnate nei college Sixth Form, come Psicologia e Sociologia, hanno visto un magro aumento tra lo 0,2% e lo 0,5% nei gradi A o A * . Questa “inflazione dilagante” secondo UpReach, è un altro esempio di pregiudizio discriminatorio inerente a questo algoritmo e implica un livello di fiducia negli insegnanti delle scuole private che non è concesso agli insegnanti di sesta forma nel sistema statale – nonostante le prove che suggeriscono che le scuole private lo facciano non necessariamente fornire un’istruzione migliore. Questo sentimento classista è evidente nei risultati di UpReach: in latino, il 97,4% delle scuole tiene conto dei voti valutati dagli insegnanti, mentre in sociologia solo il 35,2% delle scuole tiene conto delle proiezioni dell’insegnante piuttosto che delle classifiche. Se si considera che circa 30 volte più studenti hanno studiato sociologia a livello A presso i college Sixth Form e FE rispetto a scuole private e il 70% delle scuole che offrono latino e storia dell’arte a livello A erano scuole indipendenti, questo problema di fiducia ed equità è messo in netto contrasto.
Fidarsi troppo
Fino a quando non saremo in grado di addestrare un algoritmo con tutti i dati di cui ha bisogno, tenendo conto di ogni possibile circostanza e fattore di attenuazione, gli esseri umani saranno sempre necessari per temperare i calcoli grezzi di un robot, e dovremo mettere da parte i nostri pregiudizi per potersi fidare di questi aggiustamenti.
Quello che possiamo imparare da questa situazione è che affinché l’intelligenza artificiale sia vantaggiosa per tutti, dobbiamo assicurarci che gli esseri umani che decidono quando fare affidamento sulle statistiche e quando fidarsi dell’istinto umano possano anche essere considerati affidabili per agire nel migliore interesse di tutti. Per questa generazione, che sta per entrare seriamente nella forza lavoro del Regno Unito, ci vorrà molto per riconquistare quella fiducia.