Nell’analisi dei set di dati incompleti, l’imputazione multipla si è rivelata sia rigorosa che versatile. Sebbene esistano altri metodi che evitano gli svantaggi dell’imputazione singola, l’imputazione multipla è il più generale: funziona.
I dati sono quasi sempre incompleti. Nelle sperimentazioni cliniche i pazienti spesso rinunciano e gli intervistati saltano le domande; le scuole non riportano i punteggi e i governi costruiscono i bilanci ignorando elementi delle loro economie. Quando i dati scompaiono, gli strumenti statistici standard, come il calcolo delle medie, non sono più utili.
“Non possiamo calcolare con dati mancanti, così come non possiamo dividere per zero“, ha affermato Stef van Buuren(si apre una nuova scheda), professore di analisi statistica dei dati incompleti presso l’Università di Utrecht.
Supponiamo che tu stia testando un nuovo farmaco per ridurre la pressione sanguigna. Misuri la pressione sanguigna dei partecipanti al tuo studio ogni settimana, ma alcuni diventano impazienti: la loro pressione sanguigna non è migliorata molto, quindi smettono seguire il protocollo e di presentarsi.
Potresti escludere quei pazienti, mantenendo solo i dati di coloro che hanno completato lo studio, un metodo noto come analisi completa del caso. Ciò potrebbe sembrare intuitivo, persino ovvio ma è anche un imbroglio. Se escludi le persone che non hanno completato lo studio, stai escludendo i casi in cui il tuo farmaco ha avuto i risultati peggiori, facendo sembrare il trattamento migliore di quanto non sia in realtà. Hai distorto i tuoi risultati.
Evitare questo errore, e farlo bene, è sorprendentemente difficile. Per molto tempo, i ricercatori si sono affidati a trucchi ad hoc, ognuno con le sue principali carenze. Ma negli anni ’70, uno statistico di nome Donald Rubin(si apre una nuova scheda) propose una tecnica generale, sebbene mettesse a dura prova la potenza di calcolo dell’epoca.
La sua idea era essenzialmente di fare una serie di ipotesi su quali potessero essere i dati mancanti e poi di usare quelle ipotesi. Inizialmente questo metodo incontrò resistenza, ma negli ultimi decenni è diventato il modo più comune per gestire i dati mancanti in ogni branca di ricerca, dagli studi sulla popolazione alle sperimentazioni sui farmaci. I recenti progressi nell’apprendimento automatico potrebbero renderlo ancora più diffuso.
Un tocco di casualità
Al di fuori delle statistiche, “imputare” significa attribuire responsabilità o colpe. Gli statistici invece assegnano dati. Se ti dimentichi di compilare la tua altezza su un questionario, ad esempio, potrebbero assegnarti un’altezza plausibile, come l’altezza media per il tuo genere.
Questo tipo di ipotesi è nota come imputazione singola, una tecnica statistica che risale al 1930. L’imputazione singola funziona meglio del semplice ignorare i dati mancanti. Negli anni ’60, era spesso il metodo preferito dagli statistici. Rubin cambiò le cose.
Rubin iniziò gli studi universitari nei primi anni ’60 come specialista in fisica, solo per passare a psicologia. Poi, dopo aver iniziato la scuola di specializzazione all’Università di Harvard, gli fu detto che non poteva saltare i corsi di matematica obbligatori del dipartimento di psicologia. Sentendo di aver già trattato la materia al college, passò all’informatica, completando il master nel 1966. In seguito, trascorse un’estate a scrivere programmi di statistica per un sociologo, cosa che lo ispirò a conseguire un dottorato in statistica.
Durante i suoi studi di dottorato, Rubin si interessò al problema dei dati mancanti. Sebbene l’imputazione singola evitasse la distorsione dell’analisi completa dei casi, Rubin vide che aveva un suo difetto: l’eccessiva sicurezza. Non importa quanto accurata possa sembrare un’ipotesi, gli statistici non possono mai essere completamente sicuri che sia corretta. Le tecniche che implicano l’imputazione singola spesso sottostimano l’incertezza che introducono. Inoltre, mentre gli statistici possono trovare modi per correggere questo, Rubin si rese conto che i loro metodi tendevano a essere pignoli e specializzati, con ogni situazione che richiedeva praticamente la sua tesi di laurea. Voleva un metodo che fosse sia accurato che generale, adattabile a quasi tutte le situazioni.
Nel 1971, un anno dopo aver completato il dottorato, Rubin iniziò a lavorare per l’Educational Testing Service a Princeton, New Jersey. Quando un’agenzia governativa chiese all’ETS di analizzare un sondaggio con dati mancanti, Rubin propose una soluzione non convenzionale ma sorprendentemente semplice: non imputare solo una volta. Imputa più volte.
Imputare e imputare ancora: l’imputazione multipla
Torniamo a quello studio sulla pressione sanguigna. Stai testando un nuovo farmaco per la pressione sanguigna e alcuni pazienti smettono di presentarsi alla clinica per il monitoraggio. Cosa fai?
Se si utilizzasse l’imputazione singola, si potrebbe supporre che chiunque abbia abbandonato lo studio abbia conservato per sempre la propria ultima pressione sanguigna misurata. Oppure si potrebbe provare qualcosa di più sofisticato: trovare, ad esempio, un altro paziente il cui progresso è stato simile a quello del caso mancante e utilizzare i suoi dati al suo posto.
Ma probabilmente ci sono diversi casi simili tra cui potresti scegliere, e sostituire un valore diverso può portare a un risultato molto diverso. Tutte le diverse scelte che potresti fare danno quella che gli statistici chiamano una distribuzione di previsioni per i dati mancanti.
L’approccio di Rubin, chiamato imputazione multipla, tiene conto di tale distribuzione. Per utilizzarlo, prima fai diverse copie del tuo set di dati. Per un dato valore mancante in una copia, assegna casualmente un’ipotesi dalla tua distribuzione. Per impostazione predefinita, è più probabile che tu scelga una delle ipotesi migliori, ma avrai anche una piccola possibilità di scegliere una delle ipotesi meno plausibili. Questo processo riflette l’incertezza in ogni ipotesi. Ripeti questi passaggi per il valore mancante in ciascuna delle altre copie del set di dati.
Una volta inseriti tutti i dati mancanti, puoi analizzare ogni set di dati completato. Otterrai diverse previsioni per l’efficacia del tuo farmaco. Quindi puoi usare una ricetta nota come regola di Rubin per mettere insieme i tuoi risultati e ottenere una previsione media. Seguendo questi passaggi, puoi anche calcolare una stima migliore dell’incertezza della tua previsione finale. Per gli enti regolatori dei farmaci come la Food and Drug Administration degli Stati Uniti, essere precisi su tale incertezza è fondamentale: influenza se un farmaco verrà approvato o meno.
Gli usi moltiplicati dell’imputazione multipla
Quando Rubin introdusse per la prima volta la sua tecnica nei primi anni ’70, molti scienziati erano scettici. Perché, si chiedevano, avrebbero voluto usare qualcosa di diverso dalla migliore ipotesi? Anche coloro che volevano provarla a volte trovavano difficile da implementare: se il loro studio coinvolgeva, ad esempio, dati di censimento, allora archiviarne diverse copie avrebbe significato gestire centinaia di milioni di voci di dati. In un’epoca in cui i dati dovevano essere archiviati su schede perforate, questo era quasi impossibile.
Rubin evangelizzò il suo metodo durante gli anni ’70 e ’80. Lavorò come consulente per numerose agenzie governative, tra cui l’IRS, i National Institutes of Health, il Department of Labor e il Department of Defense, agenzie che avevano le risorse per fare molte copie di grandi set di dati. Il suo lavoro con loro dimostrò quanto potesse essere efficace l’imputazione multipla. Le organizzazioni crearono anche dati imputati che altri potevano poi usare nelle proprie analisi.
Entro gli anni Novanta, la memoria e la potenza di elaborazione dei computer erano notevolmente migliorate. L’imputazione multipla divenne accessibile non solo alle agenzie governative, ma anche ai singoli ricercatori. Tra loro c’era van Buuren. Nel 1999, lui e Karin Groothuis-Oudshoorn (si apre una nuova scheda) ha rilasciato un programma per computer che ha reso ancora più semplice per gli scienziati l’uso dell’imputazione multipla.
Seguirono altri programmi e l’imputazione multipla divenne più diffusa. Poi, nel 2010, un rapporto commissionato dalla FDA la raccomandò fortemente(si apre una nuova scheda) contro l’imputazione singola e i vecchi metodi ad hoc. L’imputazione multipla è diventata la tecnica di riferimento in medicina.
L’imputazione multipla si è rivelata sia rigorosa che versatile. Sebbene esistano altri metodi che evitano gli svantaggi dell’imputazione singola, l’imputazione multipla è il più generale: funziona ogni volta che avresti altrimenti provato a usare l’imputazione singola.
Il software per l’imputazione multipla ha ancora difficoltà con i set di dati più grandi e complicati. Ma il nuovo software per l’imputazione multipla che usa l’apprendimento automatico(si apre una nuova scheda) è stato in grado di imputare dati più complicati. Questo, a sua volta, ha introdotto l’imputazione multipla in campi come l’ingegneria, dove i metodi ad hoc sono stati più comuni. Detto questo, alcuni ricercatori si preoccupano ancora del rigore matematico di queste nuove tecniche e sono più esitanti ad adottarle.
Per ora, però, sembra che l’imputazione multipla di Rubin sia qui per restare. Che gli scienziati stiano testando un nuovo farmaco o analizzando modelli di voto, le ipotesi casuali li aiutano a rimanere onesti su ciò che sanno.