Sintesi dei risultati della VQR

Brevi note di lettura della VQR 2004-2010

Marco Abate

9 agosto 2013

Questo documento contiene alcune indicazioni per la lettura e la comprensione del rapporto finale della VQR, senza volersi in alcun modo sostituire a esso. In tondo sono riportate informazioni fattuali contenute nel o dedotte dal rapporto; in corsivo invece osservazioni e opinioni personali riguardante la VQR e i suoi risultati.

  • Scopo della VQR è valutare le strutture e non i singoli ricercatori; in particolare, i prodotti presentati sono stati scelti per rappresentare al meglio le strutture, ma non danno necessariamente una buona indicazione della qualità dei singoli ricercatori (soprattutto in aree contraddistinte da collaborazioni fra numerosi ricercatori).

  • La valutazione riguardava esclusivamente la ricerca svolta nel settennio 2004-2010, e non la didattica o la divulgazione scientifica. Sono stati raccolti anche dei dati riguardanti attività di terza missione (prevalentemente trasferimento tecnologico), ma come esplicitamente detto nel rapporto finale si tratta solo di dati preliminari, non sufficientemente maturi per poter essere usati per comparazioni o distribuzioni di risorse. Per questo motivo non verranno ulteriormente discussi qui.

  • Hanno partecipato alla VQR 95 università, 12 enti di ricerca vigilati dal MIUR e 26 strutture (19 consorzi interuniversitari e 7 enti di ricerca) che si sono sottoposte volontariamente alla valutazione. Alcuni enti di ricerca non vigilati dal MIUR (per esempio enti vigilati dal Ministero della Salute) non hanno fatto richiesta di essere sottoposti a valutazione, per cui i risultati non coprono tutti gli enti di ricerca italiani.

  • Il personale degli enti di ricerca, essendo impegnato a tempo pieno nella ricerca, doveva presentare 6 prodotti (meno in caso di presa di servizio posteriore al 2004 o di congedi); il personale universitario, essendo impegnato anche nella didattica, doveva presentare 3 prodotti, con l’eccezione però del personale universitario affiliato a enti di ricerca che, nonostante rimanesse comunque impegnato nella didattica, doveva presentare 6 prodotti. Questo è un errore: l’affiliazione a un ente di ricerca può avere conseguenze sulla qualità della produzione, ma non certo sulla quantità. Questo ha causato una sistematica sottostima dei risultati in Aree (per esempio le aree Matematica/Informatica, Fisica e Medicina) aventi una percentuale relativamente elevata di personale universitario affiliato a enti di ricerca.

  • Pur non essendo direttamente collegati alla qualità della ricerca, dai dati contenuti nel rapporto si ricavano informazioni interessanti sulla distribuzione di genere nelle varie aree. Le donne costituiscono il 35.3% del personale universitario, e il 36.5% del personale degli enti di ricerca. Nelle università superano il 50% solo nelle aree di Biologia e di Lingue e Lettere (e sono meno del 20% nell’area di Ingegneria Industriale e dell’Informazione); negli enti di ricerca superano il 50% nelle aree di Biologia, Medicina, Lingue e Lettere, Giurisprudenza, ed Economia (e non sono mai al di sotto del 20%). Nelle università, a livello di ordinari, non sono mai la maggioranza; riescono a essere oltre il 40% solo nell’area di Lingue e Lettere (e sono meno del 20% in tutte le aree escluse quelle umanistiche ma inclusa Economia); sono invece oltre il 50% fra gli associati dell’area di Lingue e Lettere, e e fra i ricercatori delle aree di Chimica, Biologia, Lingue e Lettere, e Storia, Filosofia e Psicologia (mentre non sono mai meno del 20% a livello di ricercatore, e sono meno del 20% a livello di associato solo nelle aree di Fisica e di Ingegneria Industriale e dell’Informazione).

  • Vi è stata una grande partecipazione alla VQR da parte degli atenei e degli enti di ricerca, che si sono sottoposti di buon grado a questo processo di valutazione. La percentuale di prodotti mancanti è pari a solo il 5.1%, ed è del tutto fisiologica.

  • Non ci sono dati precisi al riguardo, ma l’impressione è che i prodotti mancanti siano in buona parte attribuibili a personale fortemente impegnato in attività gestionali o didattiche, o alla naturale diminuzione di produttività legata all’aumentare dell’età. In ogni caso la percentuale di personale davvero inattivo (cioè non impegnato né in attività di ricerca né in attività didattiche o di gestione) nell’università è sensibilmente inferiore al 5%.

  • Il peso dei prodotti mancanti nei risultati della VQR è assolutamente eccessivo, e ha falsato alcuni risultati (si veda il caso della Normale che nelle strutture piccole in Area Matematica/Informatica passa dal secondo posto se non si considerano i prodotti mancanti al sesto posto considerando i prodotti mancanti). In assenza di un’analisi delle motivazioni della mancanza di prodotti, nella valutazione della qualità della ricerca i prodotti mancanti non dovrebbero essere considerati, o tutt’al più contare 0 (assegnando punteggi positivi ai prodotti presentati), senza produrre penalizzazioni.

  • La distribuzione dei prodotti mancanti fra le varie aree non è omogenea: si passa dal 9.3% dell’area Medicina (caratterizzata dalla forte attività clinica), al 2.5% dell’area Fisica (caratterizzata da numeri di coautori per articolo molto elevati, e quindi maggiore produzione di articoli), e dipende in buona parte da caratteristiche specifiche dell’area non legate alla qualità della ricerca. La presenza in una struttura di una percentuale di prodotti mancanti in un’area sensibilmente superiore alla percentuale di area può essere segnale di un problema in quella struttura; ma percentuali paragonabili o inferiori alla percentuale di area sono da considerarsi del tutto fisiologiche.

  • I prodotti presentati sono in larga maggioranza (73.5%) articoli su rivista, in misura minore monografie, contributi in volume e curatele (19.9%), e solo per il 6.6% altre tipologie di prodotti. Nelle aree umanistiche (con l’eccezione di Economia) la maggioranza dei prodotti consiste in monografie, contributi in volume e curatele.

  • I prodotti presentati non sono distribuiti uniformemente sui vari anni: per esempio, i prodotti presentati pubblicati nel 2009-2010 sono il 38.9% del totale, contro il 28.6% atteso in caso di distribuzione uniforme.

  • Ciascun prodotto presentato è stato assegnato a un’area, che l’ha valutato usando criteri propri, assegnandogli un punteggio che poteva essere 0, 0.5, 0.8 oppure 1 (rispettivamente prodotti limitati, accettabili, buoni, eccellenti). I prodotti mancanti hanno ricevuto un punteggio negativo pari a -0.5; una minima percentuale (circa 1%) di prodotti presentati è stato considerato non conforme alle regole della VQR e penalizzato in vario modo. Per ciascuna struttura in ciascuna area sono stati sommati i punteggi ottenuti dai prodotti attesi dell’area, e la somma è stata divisa per il numero di prodotti attesi, fornendo quindi il voto medio I della struttura nell’area. Il voto medio in un’area di ciascuna struttura è poi stato diviso per il voto medio dell’area (distinguendo fra università, enti di ricerca, consorzi), ottenendo il voto medio normalizzato R della struttura nell’area. Infine, il voto medio normalizzato di una struttura in un’area è stato moltiplicato per la percentuale di prodotti attesi nell’area della struttura rispetto al totale dei prodotti attesi nell’area, ottenendo così l’indicatore IRAS1 per la struttura nell’area, il primo degli indicatori di qualità della ricerca delle strutture del bando VQR. Un procedimento analogo è stato effettuato per ciascun dipartimento/sottostruttura in ciascuna struttura in ciascuna area, ottenendo IRD1 per il dipartimento della struttura nell’area, il primo indicatore di qualità della ricerca dei dipartimenti del bando VQR. Si veda più oltre come i valori per ciascuna area possono essere combinati in modo da dare dei valori per ciascuna struttura/dipartimento che comprendano i contributi di tutte le aree interne alla struttura/dipartimento.

  • Un altro indicatore considerato nel rapporto VQR è l’indicatore X, dato dal rapporto fra la percentuale di prodotti eccellenti della struttura nell’area e la percentuale di prodotti eccellenti nell’area.

  • I criteri usati per valutare i prodotti usati da aree diverse sono stati inevitabilmente molto diversi; quindi i voti (assoluti e medi) ottenuti in aree diverse non sono minimamente confrontabili. Per esempio, le aree umanistiche hanno usato criteri di valutazione principalmente o esclusivamente basati sul parere di esperti esterni, cosa che ha inevitabilmente portato a voti usualmente più bassi rispetto a quelli delle aree che hanno usato criteri di valutazione principalmente basati sulla sede di pubblicazione e sul numero di citazioni, senza che questo abbia nulla a che fare con differenze di qualità della ricerca.

  • I pareri di esperti esterni diversi sullo stesso prodotto sono stati significativamente diversi (differenza di 2 o 3 classi) nel 19.2% dei casi, percentuale non trascurabile (e la percentuale è superiore al 20% in 8 aree su 14) che rende delicate procedure di valutazione basate solo su questi pareri. D’altra parte, valutazioni basate sul numero di citazioni sono significative solo in aree con numeri elevati di citazioni, diventando invece una misura delle dimensioni o della produttività di un gruppo di ricerca più che una misura della qualità di un articolo in aree con numeri relativamente bassi di citazioni.

  • Mentre il confronto fra aree a livello nazionale è completamente privo di senso, è inevitabile cercare di usare i risultati della VQR per confrontare i risultati di aree diverse all’interno di uno stesso ateneo. Questo può essere fatto o usando la posizione relativa all’interno della graduatoria d’area (ma solo procedendo con estrema attenzione; vedi oltre per commenti su questo), oppure usando il voto medio normalizzato R. Ma per questo scopo R non è sufficientemente normalizzato, in quanto non tiene conto del fatto che aree diverse non solo hanno voti medi diversi ma anche variabilità diverse nei risultati. Per esempio, un valore di R pari a 1.1 è da considerarsi alto in un’area il cui valore massimo di R è 1.11, non può essere considerato alto in un’area in cui il valore massimo è invece 2. Per ottenere un indicatore confrontabile occorre quindi normalizzare anche questa variabilità fra le aree (in termini tecnici, occorre normalizzare la varianza). Questa normalizzazione non è presente nei dati della VQR, rendendone complicato l’uso (ma si veda il successivo lavoro della commissione CRUI-CUN, qui).

  • Il 34.39% dei prodotti sono stati considerati eccellenti, solo il 21.75% limitati. Le aree umanistiche hanno percentuali di prodotti eccellenti molto più basse delle altre aree, ma questo è un effetto inevitabile della valutazione tramite esperti esterni, che tendono a concentrare i propri giudizi sui valori centrali della scala.

  • Si noti come il risultato, 34,39% dei prodotti eccellenti, non sia affatto un risultato scontato in presenza di una preselezione delle sedi di pubblicazione L’ANVUR ha infatti definito come “eccellenti” i prodotti considerabili nel 20% migliore a livello mondiale. La definizione ha anche portato ad una penalizzazione di alcune aree: di solito la valutazione dei prodotti a livello internazionale viene effettuata con maggiore granularità e l’eccellenza è riservata a percentuali sensibilmente più basse (intorno a non più del 10%). Questo ha portato molti esperti a riservare il giudizio di eccellente a meno prodotti (nello stesso modo con cui un valutatore difficilmente dà 10/10 o 30/30). Un problema complementare è l’aver dichiarato “accettabili” i prodotti fra il 40% e il 50% a livello mondiale, che è una fascia difficile da definire e molto soggettiva – e la differenza di punteggio fra un prodotto “accettabile” e uno “limitato” (50% inferiore a livello mondiale) è molto forte (0.5 punti su un massimo di 1). Questo suggerisce in futuro di classificare i prodotti in classi meglio definite e indicate con termini il cui significato usuale sia coerente con la dimensione della classe.

  • I risultati ottenuti hanno portato a graduatorie delle strutture nelle varie aree. In queste valutazioni, è fondamentale confrontare soltanto strutture di dimensioni paragonabili, per vari motivi: strutture piccole concentrano la ricerca in pochi campi, mentre strutture grandi tendono a coprire molti campi di ricerca; il peso delle attività didattiche o gestionali è molto differenziato a seconda delle dimensioni della struttura; i risultati ottenuti dalla VQR sono basati su un campione dell’intera produzione scientifica, e quindi sono più stabili quanto più il campione (la struttura) è grande; e così via. A maggior ragione, non è possibile confrontare fra loro diverse tipologie di strutture (università/enti di ricerca/consorzi) in quanto aventi finalità e organizzazioni assolutamente incomparabili. Quindi per ogni area e ogni tipologia di struttura (università/enti di ricerca/consorzi) ci sono (tipicamente) tre graduatorie, per strutture piccole, medie e grandi.

  • Cambiare la suddivisione in piccole/medie/grandi può cambiare significativamente le graduatorie: strutture più grandi hanno inevitabilmente voti medi più concentrati verso la media di area, mentre le strutture più piccole hanno con maggiore probabilità voti medi significativamente più alti o più bassi della media di area. La definizione di piccolo/medio/grande a livello di atenei è più semplice da trovare, in quanto (con poche eccezioni tutte concentrate nelle strutture piccole) gli atenei hanno organizzazioni interne essenzialmente paragonabili, soprattutto nel periodo considerato dalla VQR. Per i dipartimenti invece la definizione di piccolo/medio/grande è molto più delicata, in quanto le organizzazioni dei dipartimenti sono estremamente variabili fra i diversi atenei.

  • La presentazione dei risultati tramite graduatorie è suggestiva ma soffre di un errore di fondo: differenze a livello della seconda (se non terza) cifra decimale sono statisticamente prive di significato (quando il voto massimo è 1, non c’è nessuna differenza fra avere avuto un voto medio di 0.55 o un voto medio di 0.56 su un campione di prodotti che non comprende la totalità della produzione della struttura), e vengono inappropriatamente amplificate dalle graduatorie. Per rappresentare correttamente i risultati della VQR, le strutture avrebbero dovuto essere raggruppate in classi di qualità, e non ordinate in una graduatoria.

  • In generale i risultati mostrano come, con un paio di eccezioni, relative ad università che hanno saputo e potuto investire in un ricambio e rafforzamento del loro organico negli ultimi anni (ed alle quali va questo merito), la qualità espressa dalla ricerca delle principali università italiane sia a macchia di leopardo, con dipartimenti assolutamente eccellenti (anche primi nella loro area) che coesistono nella stessa struttura con dipartimenti valutati di buona/media qualità.

  • Il confronto (parte terza del rapporto VQR), principalmente quantitativo, della produzione della ricerca italiana con quella europea e mondiale mostra che siamo in media europea (e in alcune aree anche al di sopra della media) come produzione, ma sensibilmente al di sotto come numero di ricercatori rispetto alla popolazione, e come finanziamenti alla ricerca.

  • Questo suggerisce che un aumento del numero dei ricercatori e dei finanziamenti potrebbe portare la ricerca italiana, almeno quantitativamente, in cima a livello europeo.

  • IRAS1 è solo il primo, anche se il più importante, dei sette indicatori di qualità della ricerca considerati dalla VQR. Per ciascuna struttura e ciascuna area sono stati calcolati i seguenti indicatori (tra parentesi il peso assegnatovi dal bando VQR, indicando quando il peso è diverso nel caso dei consorzi):

    • IRAS1: votazione dei prodotti della struttura nell’area / votazione totale di area (peso 0.5; consorzi peso 0.5)

    • IRAS2: fondi ricevuti nella struttura da bandi competitivi / fondi totali di area (peso 0.1; consorzi peso 0.3)

    • IRAS3: voti dei soggetti assunti-promossi dalla struttura nell’area / votazione dei soggetti assunti-promossi di area (peso 0.1; no consorzi)

    • IRAS4: indicatore di internazionalizzazione (peso 0.1; consorzi peso 0.1) ottenuto considerando

      • IRAS4.1: mesi entrata-uscita estero dipendenti della struttura nell’area / totale mesi entrata-uscita dell’area

      • IRAS4.2: numero prodotti eccellenti con coautore estero della struttura nell’area / numero totale prodotti eccellenti nell’area con coautore estero

    • IRAS5: numero dottorandi, borsisti, assegnisti della struttura nell’area / numero totale dottorandi, borsisti, assegnisti nell’area (peso 0.1; no consorzi)

    • IRAS6: finanziamenti interni alla ricerca della struttura nell’area / totale finanziamenti interni nell’area (peso 0.05; consorzi peso 0.1)

    • IRAS7: miglioramento rispetto alla VTR (peso 0.05; no consorzi) dato dalla percentuale dei prodotti attesi dalla struttura nell’area se il risultato della VQR era non inferiore al risultato nella VTR oppure il voto medio normalizzato nella VQR era almeno pari a 1; dato da 0 altrimenti.

Si noti che questi indicatori dipendono anche dalla dimensione della struttura.

  • IRAS3 misura la valutazione dei chiamati-promossi in un’area in una struttura rispetto alla valutazione di tutti i chiamati-promossi nell’area. È interessante, in vista della valutazione ex-post del reclutamento, anche confrontare la valutazione media dei chiamati-promossi in un’area in una struttura rispetto alla valutazione media di tutta l’area. Tenendo presente che questo è un confronto che ha senso solo nelle aree di quelle strutture in cui sono stati assunti-promossi un numero sufficiente di soggetti, i dati riportati nell’Appendice E mostrano come nella maggior parte dei casi gli assunti-promossi abbiano avuto una valutazione media più alta di quella dell’area, che è un segnale di buona qualità delle scelte fatte dalle strutture. Questo non è vero in tutte le strutture: in alcuni casi minoritari la valutazione media degli assunti-promossi è (talvolta anche sensibilmente) inferiore alla valutazione media di area. Questo vuol dire che una valutazione ex-post del reclutamento potrebbe produrre risultati significativi.

  • La definizione di IRAS7 è tale da assumere valori positivi per tutte le strutture che hanno avuto risultati sopra la media nella VQR, anche se peggiorate rispetto alla VTR.

  • È importante misurare non solo la qualità assoluta in un dato momento, ma anche la variazione di qualità nel tempo; per questo motivo un confronto fra i risultati della VTR e quelli della VQR è interessante. Tale confronto è stato effettuato nell’appendice G del rapporto. Ben 30 università hanno migliorato in maniera significativa (R aumentato di almeno 0.1) nella VQR il loro rendimento rispetto alla VTR in almeno 4 aree: Ancona, Bologna, Brescia, Calabria, Cassino, Ferrara, Firenze, Foggia, Insubria, Milano, Milano Bicocca, Milano Politecnico, Napoli Parthenope, Padova, Parma, Pavia, Perugia, Piemonte orientale, Pisa S. Anna, Roma Tor Vergata, Roma Tre, Salento, Salerno, Sannio, Siena, Torino, Torino Politecnico, Trento, Udine, Verona. In neretto sono indicate università che oltre ad aver migliorato il loro rendimento in almeno 4 aree sono anche di alta qualità in almeno 4 aree (non necessariamente le stesse). Da notare le università sottolineate che pur avendo attualmente carenze in almeno 4 aree sono però riuscite a migliorare il proprio rendimento in almeno 4 aree. Le università in corsivo hanno avuto andamento bivalente: hanno migliorato il proprio rendimento in almeno 4 aree, e lo hanno peggiorato in altre 4. Infine, 18 università hanno peggiorato in maniera significativa (R diminuito di almeno 0.1) nella VQR il loro rendimento rispetto alla VTR in almeno 4 aree: Bari, Cagliari, Camerino, Catania, Chieti e Pescara, Firenze, Genova, L’Aquila, Messina, Napoli Federico II, Napoli II, Palermo, Perugia, Reggio Calabria, Roma La Sapienza, Trieste, Udine, Urbino. In neretto sono indicate università che oltre ad aver peggiorato il loro rendimento in almeno 4 aree hanno anche gravi carenze in almeno 4 aree (non necessariamente le stesse). Nessuna di queste università è di alta qualità in almeno 4 aree.

  • Per ciascuna area si ottiene un indicatore finale di struttura in quell’area (chiamato A nel rapporto VQR) sommando i valori di IRAS1–IRAS7 per quella struttura in quell’area con i pesi indicati sopra. Per ottenere l’indicatore finale di struttura complessivo IRFS1 bisogna sommare gli indicatori finali A di struttura nelle aree usando opportuni pesi (chiamati w nel rapporto VQR). Tali pesi devono essere scelti dalla struttura politica che intende usare questi dati, e dipendono dall’uso previsto. Per esempio, se si vogliono distribuire fondi per la ricerca, i pesi potrebbero dipendere dai costi della ricerca nelle varie aree. Non è compito dell’ANVUR decidere i valori di questi pesi; il rapporto VQR contiene però una proposta al riguardo.

  • Questo modo di procedere ha un grosso problema intrinseco: le varianze dei vari indicatori sono molto diverse fra di loro nelle varie aree, per cui una loro combinazione effettuata senza un’ulteriore normalizzazione produce risultati distorti (si veda la discussione fatta sopra riguardo gli indicatori di dipartimento). Quindi i valori di IRFS1 pubblicati nel rapporto VQR sono da utilizzare con molta cautela.

  • Il rapporto VQR propone anche un secondo indicatore finale di struttura complessivo IRFS2, che dipende oltre che da IRAS1–IRAS7 anche da un indicatore di qualità della ricerca indipendente dalle dimensioni della struttura, che è l’indicatore S, ottenuto come rapporto fra il voto medio della struttura dell’area e la somma dei voti medi delle strutture in quell’area. IRFS2 si ottiene prima sommando per ciascuna area gli indicatori IRAS1–IRAS7 e l’indicatore S con opportuni pesi (decisi a livello politico), ottenendo dei valori B di area della struttura, e poi sommando questi valori B delle varie aree usando i pesi w come per IRFS1.

  • Anche per IRFS2 valgono le stesse osservazioni fatte sopra per IRFS1. Il valore di S non è esplicitamente scritto nel rapporto VQR, ma è ricavabile dai dati pubblicati.

  • Considerazioni analoghe si applicano alla valutazione dei dipartimenti. Gli indicatori considerati per i dipartimenti sono (tra parentesi il peso assegnatovi dal bando VQR):

    • IRD1: votazione dei prodotti del dipartimento nell’area / votazione totale di area (peso 0.5)

    • IRD2: fondi ricevuti dal dipartimento per bandi competitivi / fondi totali di area (peso 0.2)

    • IRD3: indicatore di internazionalizzazione (peso 0.2) ottenuto considerando

      • IRD3.1: mesi entrata-uscita estero del dipartimento nell’area / totale mesi entrata-uscita dell’area

      • IRD3.2: numero prodotti eccellenti con coautore estero del dipartimento nell’area / numero totale prodotti eccellenti nell’area con coautore straniero

    • IRD4: numero dottorandi, borsisti, assegnisti del dipartimento nell’area / numero totale dottorandi, borsisti, assegnisti nell’area (peso 0.1)

L’indicatore IRD1 è stato calcolato sia per i dipartimenti ante legge 240 (tipicamente ancora attivi nel 2010) che per i dipartimenti post legge 240, considerando i soggetti valutati afferenti a questi nuovi dipartimenti. L’indicatore IRD4 non è invece calcolabile per i dipartimenti post legge 240, e quindi non è considerato nel rapporto finale.

  • I valori di IRD1–IRD3 nelle varie aree possono essere combinati per ottenere un indicatore finale di dipartimento IRFD con la stessa procedura utilizzata per costruire IRFS1 partendo da IRAS1–IRAS7. Di nuovo, questa combinazione è un’operazione politica non compito dell’ANVUR; in ogni caso, il rapporto VQR contiene una proposta di calcolo di IRFD usando i pesi proposti nell’Appendice D.

  • Per gli stessi motivi descritti nella discussione di IRFS1, il calcolo proposto dei valori di IRFD è da utilizzare con estrema cautela. Inoltre, il rapporto finale non contiene i valori di IRD1–IRD4, per cui in questo momento le strutture non sono in grado di calcolare autonomamente valori diversi di IRFD.

  • Riassumendo, la VQR è stata un’operazione di estremo interesse, condotta per la prima volta su una scala così ampia, e che ha prodotto una quantità di dati che possono essere molto utili e che fotografano ragionevolmente bene lo stato della ricerca in Italia. Come sempre in questi casi, occorre porre particolare attenzione nell’uso dei dati; in particolare, è importante avere un’idea chiara del loro significato, e dei limiti oltre i quali perdono di senso.