Il machine learning sta aggravando la crisi della ricerca scientifica?
Il machine learning sta causando una crisi nella ricerca scientifica. Software di apprendimento automatico vengono utilizzati in moltissime branche della scienza, dall’astronomia alla medicina, per analizzare grandissime quantità di dati. I risultati, però, sono spesso ingannevoli, se non completamente sbagliati.
Secondo gli studi di Genevera Allen, professoressa di statistica della Rice University di Houston, queste inesattezze stanno aggravando la cosiddetta crisi di riproducibilità che sta affliggendo tutta la ricerca scientifica; in altre parole, un numero preoccupante di ricerche non produce gli stessi risultati quando un altro gruppo di scienziati ripete l’esperimento, e il machine learning sta peggiorando le cose.
Rice University |Genevera Allen
Il problema del machine learning è strutturale, perché i suoi algoritmi sono studiati appositamente per trovare risultati interessanti. Messe davanti a masse ingenti di dati, le macchine riescono sempre a individuare modelli e schemi. Ma questi modelli non esistono necessariamente nella realtà, né si riproducono quando la stessa macchina legge un nuovo set di dati simili con lo stesso algoritmo. Allen sta lavorando a nuovi metodi di apprendimento automatico, in grado di fornire anche il livello di accuratezza e riproducibilità dei risultati. Correggere questi problemi aiuterà la comunità scientifica a risparmiare tempo e soldi
Un fenomeno ventennale
Quello della riproducibilità è un problema di lunga data. Secondo Richard Horton, direttore di The Lancet, una delle maggiori riviste di medicina, «gran parte della letteratura scientifica forse metà, potrebbe semplicemente essere falsa».
Richard Horton, Offline: What is medicine’s 5 sigma? The Lancet, Vol 385, 11 Aprile 2015
Nel 2017 la BBC citava la ricerca dell’immunologo Tim Errington, direttore di The Reversibility Project, ricerca volta a replicare i risultati di cinque importanti studi sul cancro. Nonostante la spasmodica attenzione al dettaglio e sei anni di lavoro, il team di Errington è riuscito a confermare solo due risultati. Nel 2016 Nature, tra le più antiche e importanti riviste scientifiche esistenti, denunciava che il 70% di 1.500 ricercatori aveva provato, senza successo, a riprodurre i risultati di un altro scienziato.
Monya Baker, 1,500 scientists lift the lid on reproducibility, Nature, 26 Maggio 2016
Il fenomeno è ventennale. Per Horton, questa crisi è dovuta «a studi con campioni piccoli, con effetti ridotti, analisi esplorative non valide, flagranti conflitti di interesse unite a un’ossessione nel perseguire tendenze di dubbia importanza. La scienza ha preso una svolta verso l’oscurità. Come ha detto un collega, “i peggiori metodi ottengono i migliori risultati”». Forse arginare gli errori del machine learning e migliorarne i risultati potrebbe aprire una strada verso la luce.