Note informali sulla proposta della commissione CRUI-CUN per il confronto delle prestazioni nella VQR di dipartimenti di aree diverse

La proposta della commissione CRUI-CUN per confrontare i risultati di Dipartimenti eterogenei nella VQR -- Note informali per capirne i principi

di Marco Abate

La commissione CRUI-CUN, di fronte alle proposte più varie sull’uso dei risultati della VQR per confrontare dipartimenti di diverse aree all’interno degli Atenei, ha proposto un indicatore “voto standardizzato di dipartimento”. L’ANVUR ha quindi calcolato sulla base dei suoi dati il valore di questo indicatore per tutti i dipartimenti italiani. È da notare che solo l’ANVUR dispone dei dati confidenziali relativi ai risultati dei singoli docenti che hanno partecipato alla VQR e quindi è l’unica in grado di calcolare tali indicatori (infatti per motivi di privacy non possono essere resi pubblici i risultati, anche aggregati, di SSD di un dipartimento con meno di 10 prodotti attesi; ma tali risultati concorrono comunque nel calcolo di indicatori di dipartimento). I risultati di questo esercizio sono disponibili qui .

 

Ma in cosa consiste la proposta della commissione CRUI-CUN?

In breve, ecco cosa fa l’indicatore “voto standardizzato di dipartimento”. Il ragionamento non è completamente banale (è basato su argomenti di teoria della probabilità, e non di statistica elementare), per cui non stupisce che di primo acchito ci si possa confondere.

Prendiamo un dipartimento reale, con una fissata composizione in numero di membri distribuiti nei vari settori. Lo vogliamo confrontare con tutti gli altri dipartimenti virtuali che si possono costruire mantenendo la stessa composizione come numero di membri nei settori ma pescando a caso i membri a livello nazionale (attenzione, qui è il primo punto delicato: non lo vogliamo confrontare direttamente con gli altri dipartimenti reali, ma con i dipartimenti virtuali con uguale composizione).

Il modo banale per farlo sarebbe calcolare un valore di R pesato (il cosiddetto IDVA) per ciascuno dei dipartimenti virtuali, e vedere in quale percentile della distribuzione dei valori di IDVA sui dipartimenti virtuali si situa il dipartimento reale: se è nel primo 5% il dipartimento reale è molto buono, se nell’ultimo 5% è molto debole, e così via. Ma questo procedimento ha due problemi: il primo è che richiederebbe una marea di conti, il secondo (molto più serio) è che la distribuzione dei valori di IDVA sui dipartimenti virtuali non è una gaussiana standardizzata, ma dipende dal dipartimento reale da cui siamo partiti; quindi il percentile che si ottiene in questo modo non fornisce un valore confrontabile fra dipartimenti reali diversi.

L’idea (intelligente) portata avanti dalla commissione consiste nel costruire un indicatore che abbia una distribuzione gaussiana standardizzata su ciascun insieme di dipartimenti virtuali. Il procedimento è il seguente: sia v s la variabile aleatoria che a ogni membro del settore s associa il voto medio dei suoi prodotti attesi. Indichiamo con u s la variabile aleatoria standardizzata (a media 0 e varianza 1) ottenuta sottraendo da v s la media nazionale sul settore e poi dividendo per la deviazione standard nazionale sul settore. Si noti che la distribuzione di u s in generale si guarda bene dall’essere una gaussiana, ma non importa: l’unica cosa che conta qui è che è standardizzata. A questo punto, dato il dipartimento reale, costruiamo la variabile aleatoria U ottenuta sommando tante u s quanti sono i componenti del settore s del dipartimento reale, per tutti i settori, e dividendo per la radice del numero di addendi (questo nel caso di un dipartimento in cui tutti i membri avevano 3 prodotti attesi; la formula vera è un poco più complicata per considerare anche membri con meno prodotti, ma l’idea è la stessa). Siccome il numero di addendi è almeno 40, possiamo ragionevolmente applicare il teorema del limite centrale, per cui la distribuzione di U sull’insieme dei dipartimenti virtuali associati al dato dipartimento reale è sempre una gaussiana a media 0 e (avendo diviso per la cosa giusta) con varianza 1. Qui stiamo supponendo che le u s siano variabili aleatorie indipendenti; lo sono di sicuro quando riferite a settori diversi, ma anche l’eventuale dipendenza fra le u s sullo stesso settore è molto debole. Come conferma sperimentale, è stato verificato che i valori di U calcolati su tutti i dipartimenti virtuali associati a un dato dipartimento reale si distribuiscono bene lungo una gaussiana standardizzata.

Siccome la distribuzione di U è una gaussiana standardizzata, il valore di U sul dipartimento reale permette facilmente divedere come è messo rispetto a tutti gli altri dipartimenti virtuali con la stessa composizione: se U (dipartimento reale)>1 allora è nel top 16%, se U (dipartimento reale)>2 allora è nel top 2%, se U (dipartimento reale)>0 allora è nel top 50%, e così via. La cosa cruciale è che se partiamo da un dipartimento reale diverso, arriviamo a una variabile aleatoria diversa ma con la stessa legge gaussiana standardizzata : per cui il confronto diretto del voto standardizzato dei due dipartimenti ci permette di dire quale dei due sia messo meglio rispetto alla popolazione dei propri dipartimenti virtuali associati. Nelle tabelle preparate dall’ANVUR per ogni dipartimento reale oltre al valore di U viene fornito anche il percentile corrispondente, per una più semplice lettura dei risultati.

Attenzione: non stiamo assumendo che la distribuzione dei voti standardizzati dei dipartimenti reali sia una gaussiana. Non c’è nessun motivo che lo sia: ogni dipartimento reale appartiene a una popolazione (di dipartimenti virtuali) diversa. Anzi, ci aspettiamo che la distribuzione dei voti standardizzati dei dipartimenti reali non sia affatto una gaussiana, in quanto i voti degli appartenenti a un singolo dipartimento reale (che è una cosa ben diversa dalle variabili aleatorie viste sull’intera popolazione nazionale) è ragionevole che non siano indipendenti. Ma questo non ha nulla a che fare con tutto il ragionamento precedente.

Terzo punto delicato: le tabelle preparate dall’ANVUR contengono anche dei cosiddetti "voti standardizzati di SSD per dipartimento”, perché sono stati chiesti alla commissione. Secondo me, questi "voti standardizzati di SSD per dipartimento” hanno invece poco senso, perché spesso la loro distribuzione, pur standardizzata, non è una gaussiana. Infatti sono ottenuti sommando tipicamente poche variabili aleatorie (quanti sono i dipartimenti che hanno 30-40 persone in uno stesso settore? Pochissimi), per cui non si può applicare il teorema del limite centrale. Di conseguenza, i valori ottenuti per SSD o dipartimenti diversi non sono confrontabili e non dovrebbero essere usati all’interno degli Atenei.

Riassumendo…

Si può dire che partendo dalle assunzioni della VQR (nessun settore è a priori migliore di un altro; gli unici dati a disposizione sono i voti ricevuti dai prodotti e la composizione dei dipartimenti) il voto standardizzato di dipartimento fornisce un modo ragionevole e matematicamente corretto per dire come è messo un dipartimento rispetto a tutti i dipartimenti con la stessa composizione che si potrebbero costruire pescandone a caso i membri a livello nazionale. In particolare, questo indicatore non soffre di molti dei problemi di tutti gli indicatori precedenti: in particolare, sterilizza le differenze di media e varianza dei diversi GEV. Ovviamente non è l’unico indicatore che si può costruire con le stesse proprietà; ma ha il vantaggio di essere calcolabile, di avere un significato chiaro (una volta spiegato per bene), e di essere infinitamente più sensato degli “indicatori finali di dipartimento” prodotti dall’ANVUR nel rapporto VQR. Infine, lo stesso approccio potrebbe essere usato anche per calcolare indicatori di ateneo da utilizzare per la distribuzione del FFO.

La questione politica è se sia giusto usare questo indicatore per distribuire risorse ai dipartimenti. Dipende… il dato di fatto è che sicuramente ha senso usare la VQR per distribuire risorse; chi ha avuto una valutazione migliore ha diritto ad avere più risorse (altrimenti la VQR perde di significato). La VQR ha fornito tanti dati; quelli relativi alla valutazione dei prodotti sono probabilmente i più importanti, e sono quelli più direttamente legati alla ricerca. Negli atenei sono in corso discussioni su come usare questi dati, e la scelta delle procedure da usare sta spesso portando anche a forte conflittualità interna; questo indicatore (o sue variazioni) fornisce invece uno strumento ragionevole, terzo, che si può usare senza favorire a priori un settore piuttosto di un altro. Come usarlo è una decisione politica dei singoli atenei; ma sicuramente è uno strumento migliore rispetto a quelli finora disponibili.

Iscriviti alla Newsletter

Finora 4395 persone hanno aderito al Coordinamento dei Giovani Accademici (principalmente tra i firmatari della petizione contro il D.L. 112/08 convertito nella Legge 133/08).

Iscriviti qui per ricevere la newsletter.