NEWS | Economia

Analisi dei dati, petrolio da maneggiare con cura

10 giugno 2021

Analisi dei dati, petrolio da maneggiare con cura

Condividi su:

«I dati sono il petrolio del XXI secolo ma vanno maneggiati con molta cura». Come fa notare il professor Guido Consonni, alla guida del Dipartimento di Scienze statistiche della facoltà di Economia dal novembre 2019, l’analisi statistica dei dati richiede metodologie adeguate per trarre valide conclusioni. È quanto si propone di fare la studiosa americana Elizabeth Ogburn, della Johns Hopkins University, ospite del primo incontro del ciclo “Statistical bridges”, promosso dal Dipartimento di Scienze statistiche, che venerdì 11 giugno, alle ore 18, in diretta sulla piattaforma Webex, terrà una relazione dal titolo Social network dependence, unmeasured confounding, and the replication crisis.

«I webinar sono rivolti a tutti i ricercatori che svolgono indagini empiriche e analisi dei dati, con particolare riguardo a quanti operano nel nostro Ateneo, e  e con l’obiettivo di creare un ponte tra la Statistica e le altre discipline», osserva il professor Consonni.  «I seminari del 2021 ruotano intorno alla problematica della replication crisis, in italiano crisi della replicazione o della riproducibilità».

Che cosa si intende con questo termine? «Da molti anni si è osservato che, con frequenza allarmante, risultati già validati da riviste scientifiche spesso ad alto impatto, ad esempio circa l’efficacia di un nuovo farmaco, non sono replicabili, ossia non trovano riscontro in indagini successive. Ciò genera smarrimento nella comunità scientifica, ma anche danni economici ad esempio perché si finanziano linee di ricerca che non trovano uno sbocco di successo. Si noti che non stiamo parlando di risultati ottenuti in modo fraudolento, oppure di esperimenti condotti in modo non professionale (ci sono anche questi naturalmente), ma piuttosto di un impiego non corretto di tecniche di analisi statistica. Questo è il punto su cui si concentra il ciclo di seminari».

Quali possono essere le origini della mancanza di riproducibilità? «Sono molteplici. La professoressa Elisabeth Ogburn,  in un interessante articolo dal titolo “Dependence Can Lead to Spurious Associations and Invalid Inference”, pubblicato sul Journal of the American Statistical Association, ne analizza uno in particolare. Dimostra come moltissime analisi basate su un data set largamente impiegato negli Stati Uniti per lo studio di problemi cardiaci in realtà erano inficiate da un difetto di fondo sui metodi di analisi. In parole povere, non si era tenuto conto del fatto che molte delle persone inserite nel campione erano legate tra di loro da relazioni di tipo amicale, sociale e, talvolta, anche famigliare».

Ci spieghi meglio? «Qualunque analisi statistica poggia su ipotesi di base, spesso non adeguatamente considerate dal ricercatore. Un’ipotesi frequente è che le osservazioni siano indipendenti all’interno del campione, dunque le unità non siano “collegate” tra di loro. Ma se questa ipotesi non regge, le conclusioni non sono valide. In questo caso i risultati non sono replicabili. Infatti una metodologia di analisi più corretta, ossia che tenga conto della dipendenza tra i soggetti, porterebbe a risultati anche molto diversi, come dimostra la Ogburn».

Qual è la lezione che ne possiamo trarre? «La prima: che un esperimento è un’attività molto delicata e che la raccolta dei dati va effettuata con criteri rigorosi e trasparenti così da consentire ad altri di poter riprodurre, nel modo più fedele possibile, l’indagine. In questo senso si dovrebbero ulteriormente incentivare progetti di replicabilità in tutte le branche della scienza.  La seconda lezione è che l’analisi deve essere adeguata al problema che si vuole risolvere ed alla tipologia dei dati. I dati sono preziosi ma l’attenzione nella raccolta e analisi deve essere massima, altrimenti possiamo cadere in varie trappole, e una di queste è la crisi della riproducibilità».

E negli altri due webinar quali saranno gli argomenti presi in esame? «A settembre ospiteremo la freelance scientific writer Regina Nuzzo, che ci parlerà del “p-value”, uno strumento ancora molto usato per le indagini statistiche. A partire da un suo articolo, la cui pubblicazione sulla rivista Nature ha avuto una forte eco nella comunità scientifica, ci mostrerà che il “p-value” è molto sopravvalutato come indicatore di affidabilità di un esperimento. Va dunque maneggiato con cura e chi lo utilizza deve essere consapevole delle limitazioni che comporta e, cosa più importante, sapere che esistono alternative più affidabili. A ottobre, infine, sarà la volta dello psicologo quantitativo dell’Università di Amsterdam Eric J.  Wagenmakers, che presenterà una rassegna sulla replication crisis con particolare focus sugli studi psicologici, un settore particolarmente esposto a questa problematica. Anche per questo seminario, oltre a evidenziare i problemi, apprenderemo strumenti di analisi per affrontarli».

 

Un articolo di

Katia Biondi

Condividi su:

Newsletter

Scegli che cosa ti interessa
e resta aggiornato

Iscriviti