Elementi di probabilità per babbei

Penso mi si conosca come uno degli autori più diplomatici che scrivono su questo blog. Quindi di solito preferisco che il babbeo che non sa di cosa parla capisca da solo di esserlo quando se ne demoliscono le argomentazioni, senza bisogno che glielo si dica esplicitamente. Ma a volte l’errore è così grossolano e volgare che non dare del babbeo, o quanto meno del disinformato, a chi lo compie alla leggera, suona come semplice ipocrisia, specialmente se la persona che scrive certe castronerie vuol vantare conoscenze scientifiche. Questo intervento sarà breve e per molti risibile, ma non può che essere tale se si tratta di confutare affermazioni risibili e che tuttavia ci vengono spesso ripetute.
L’affermazione in questione sarebbe che, poiché la sperimentazione su animali è talora predittiva “solo” nel 33% dei casi, il lancio di una moneta sarebbe più affidabile.
Io vorrei chiedere a chi scrive cose del genere in quale scuola superiore (non università, scuola superiore) ha studiato, e quanto ha preso in matematica.

Quando si cita il dato del 33%, si parla di probabilità condizionata. Vale a dire, si prende in considerazione la probabilità che un determinato evento x si verifichi supponendo che un secondo evento y si sia già verificato. I risultati del lancio di una moneta sono eventi indipendenti, ovvero non influiscono gli uni sugli altri. Anche se hai appena ottenuto una testa con probabilità di ½, la probabilità che ne esca una seconda non è alterata, di per sé è ancora ½, e quella che i due eventi si verifichino insieme è uguale al loro prodotto, 1/4. Diverso è invece se parliamo di estrazioni della tombola: la probabilità dell’evento “esce il 45” è di 1/90, ma la probabilità condizionata che esca 45 se è già uscito il 46 invece è 1/89, e con ogni estrazione aumenta, perché i numeri fra cui scegliere sono sempre di meno. Se invece il 45 è già uscito, le probabilità che esca di nuovo equivalgono a 0, perché i numeri già estratti non tornano nel sacchetto. La probabilità che i due eventi si verifichino insieme stavolta non è il prodotto dei singoli eventi presi indipendentemente, perché bisogna considerare che uno dei due, se si è già verificato, influenza l’altro (la probabilità che esca 45 è 1/90, ma la probabilità che esca due volte 45 non è 1/90*1/90=1/8100, bensì 0)
Il dato del 33% vuol dire che, se hai già provato con successo un farmaco su un animale, hai il 33% di probabilità che abbia successo anche sull’uomo. Ma se non l’avevi provato, è chiaro che prendendo una semplice sostanza a caso le probabilità che abbia successo sono molto, ma molto più basse; visto il numero di sostanze enorme che possiamo immaginare, direi che saremo almeno una decina di ordini di grandezza più in basso, con beneficio d’inventario, o solo tre-quattro se almeno partivamo da una solida ricerca di base.
Il discorso potrebbe avere un qualche senso solo se la probabilità condizionata, nel nostro caso, fosse uguale o più bassa di quella che vedremmo per eventi indipendenti. Ad esempio supponendo che le probabilità che un farmaco abbia l’effetto desiderato su un animale e su un uomo presi indipendentemente siano ad esempio 1/100 (in realtà è molto più bassa), la probabilità di riscontrare una coincidenza dovrebbe essere di 1/10000. Se ci affidassimo al lancio di una moneta, avremmo quello che segue: supponendo una probabilità di 1/100 di avere un farmaco funzionante sull’uomo, e dovendo avere anche il responso positivo della moneta, le nostre probabilità scenderebbero comunque a 1/100*1/2=1/200. Ma il punto è che la probabilità di trovare un farmaco funzionante sull’uomo in entrambi questi esempi non cambia minimamente grazie ai nostri pre-test; è sempre 1/100. Potevamo non farli proprio. Invece se prima abbiamo sperimentato sull’animale, salgono addirittura ad 1/3. Insomma, invece di dover provare 100 (o 200, nel caso della moneta) sostanze direttamente sull’uomo prima di trovarne una che funziona, ne dobbiamo provare 300sugli animali, ma sull’uomo soltanto 3!

Il bello è che questo argomento probabilistico torna come un boomerang a colpire i nostri sprovveduti avversari: se davvero la predittività del modello animale fosse quasi nulla, come essi affermano, la probabilità di trovare un farmaco che funziona sia su una qualsiasi specie animale che sull’uomo dovrebbe essere infinitesima, 1/10000, o anche 1/1000000. Altro che 1/3…

Mi perdonino i lettori se gli sto dicendo qualcosa che può sembrare troppo elementare o se, viceversa, non sto riuscendo a trasmettere l’elementare semplicità del discorso, ma vi assicuro che è davvero disarmante, e che questo è il livello di argomentazione che ci tocca affrontare di solito.

Ministero dell’Istruzione, Università e Ricerca, ti prego, fa’ qualcosa …

POST SCRIPTUM:

Un lettore ci ha scritto una complessa “smentita” di questo articolo, alla quale preferiamo rispondere subito, prima che diventi un articolo dei “critici” o di qualche altro gruppo poco avvezzo alla statistica. Voglio riassumere brevemente le obiezioni rivolteci, che sono fondamentalmente tre. Due saranno confutate molto rapidamente, la terza richiederà un po’ di lavoro in più.
Le obiezioni sono:

1) La nostra proiezione sulle probabilità a priori di trovare un farmaco funzionante sarebbe sottostimata e non giustificata.
2) Confonderemmo il “potere predittivo” di un test con la probabilità condizionata
3) Il “potere predittivo” del lancio della moneta, calcolato secondo una determinata formula, risulterebbe più alto di quello del test su animali, indicandone dunque una maggiore validità.

Rispondiamo:

Punto 1)
Abbiamo stimato la probabilità di trovare per puro caso un farmaco funzionante su una specie qualsiasi come sicuramente inferiore a 1/100. Ovviamente non si può fare una stima del genere in maniera precisa e realistica, MA possiamo dire tranquillamente che 1/100 è di MOLTO superiore.
Di partenza, dobbiamo già supporre che ogni sostanza fortemente attiva farmacologicamente altera significativamente il milieu interno dell’organismo. “Tutte le famiglie felici si somigliano, ma ogni famiglia infelice lo è a modo suo”… Come dire, c’è un solo modo per far funzionare un sistema, ma ce ne sono migliaia per romperlo, o per non farlo funzionare. Noi ci aspettiamo logicamente già a priori che le sostanze che funzionano per uno scopo specifico siano una ristrettissima minoranza fra quelle che non sono efficaci oppure sono dannose. Ma anche l’esperienza conferma questa supposizione. In “The pharmacological basis of therapeutics” di Goodman e Gilman, 12esima edizione, Bibbia della farmacologia è riportato che, ogni 10000-25000 ipotetiche sostanze attive prodotte, sono 10-20 quelle che superano i test su animali. Dunque si suppone che, presa una specie qualsiasi, se sperimentiamo su di essa 1000 farmaci, ne funzioneranno uno o nessuno. Aggiungiamo che, purtroppo, gli studi preclinici su animali sono spesso assai meno rigorosi di quelli clinici, quindi possiamo supporre che in realtà una buona parte di quei 10-20 farmaci che funzionano negli animali siano già dei falsi allarmi. Potremmo quindi benissimo scendere a 1/2000, o 1/10000. E ancora, ricordiamo che la ricerca di base, che permette una preselezione di candidati interessanti, si basa spessissimo a sua volta su osservazioni fatte in modelli animali di malattia, che hanno permesso di ipotizzarne il meccanismo di azione, di progettarle e via discorrendo. Se dovessimo procedere completamente a caso, avremmo probabilità assai più scoraggianti …

Punto 2)
Questa è una grossa sciocchezza, perché i test farmacologici, non diversamente da quelli diagnostici, sono problemi di probabilità condizionata par excellence … il problema del test diagnostico si traduce tutto nel dover trovare un test il cui risultato influenzi la probabilità del risultato effettivo (presenza della malattia nel test diagnostico, funzionalità del farmaco nel test farmacologico). Inoltre, non esiste un parametro matematico utilizzabile per valutare la bontà di un test che si chiami “potere predittivo”. È il prossimo punto.

Punto 3)
E qui arriviamo al punto un po’ più complesso. Il nostro critico parla infatti di “potere predittivo”, che lui vorrebbe fosse un numero magico in grado di riassumere la bontà del test statistico. Identifica questo numero nel parametro noto come “accuratezza”, ovvero la percentuale dei casi in cui il responso del test corrisponde al dato che si vuole indagare, ovvero ancora la somma della sensibilità (percentuale dei casi in cui a responso positivo corrisponde evento positivo sul totale degli eventi positivi reali) e specificità (percentuale dei casi in cui a responso negativo corrisponde evento negativo sul totale degli eventi negativi reali) di un test.
Il primo errore è che non esiste un numero magico come quello. Un test si analizza secondo vari parametri, in funzione dei suoi scopi, e solo una matrice di confusione è in grado di riassumere tutte le informazioni che ci interessano.
Il secondo fatto è che esistono, in effetti, alcuni numeri che ci danno un’indicazione generale, seppur non completa, sulla bontà del test, per esempio l’F-score. Ma di sicuro l’accuratezza non è uno di quelli! Un’accuratezza del 100% indicherebbe un test perfetto, certo, ma questo è un caso che non esiste. In tutti gli altri casi, se le classi sono fortemente sbilanciate, o se è sbilanciato il nostro interesse verso una di esse, l’accuratezza diventa completamente insignificante. Sembra strano? In realtà non è difficile dimostrarlo: supponiamo di avere un campione di 99 persone sane e un solo malato. Ci serve un test che ci permetta di identificare quell’unico malato, e ci rivolgiamo ad un laboratorio di statistica. Al laboratorio ci suggeriscono di affidarci ad un test da loro progettato che ha un’accuratezza del 99%, e noi naturalmente accettiamo. Il risultato del test è il seguente: nel campione sono tutti sani. Il che significa che effettivamente il test in 99 casi su 100 ci ha azzeccato … ma ha sbagliato proprio nell’unico caso che ci interessava! I nostri statistici incompetenti ci hanno evidentemente propinato un test superspecifico laddove sarebbe stato consigliabile partire con un test sensibile e solo dopo intervenire sulla specificità. O forse ci hanno fatto uno scherzo, e il loro test superaccurato consisteva in effetti soltanto nel dire sempre “sano”. È gioco facile, usando l’accuratezza, dimostrare che anche la moneta, in effetti, nella metà dei casi ci azzecca … Ma vi dirò, avremmo preferito, a questo punto che ci azzeccasse magari nel 25%. Perché? Perché a quel punto basterebbe invertire la testa e la croce per avere un test che ci azzecca nel 75% dei casi. Che qualcosa forse ce la dirà, anche se non sappiamo, senza ulteriori informazioni, di cosa si tratti …
E l’esempio che ho fatto dei 99 sani contro 1 malato è esattamente analogo al nostro caso. Come mostravo nel punto 1, le nostre classi sono fortemente sbilanciate, la nostra priorità non è avere un test che ci azzecca nel 99,9% dei casi, ma un test in grado di individuare due categorie di sostanze: quelle che funzionano, perché vogliamo usarle, e quelle gravemente pericolose, perché vogliamo eliminarle. Sono due minoranze ristrette, e la prima è ristrettissima. Come se non bastasse, il profilo di azione di un farmaco è una cosa parecchio più complessa della semplice dicotomia funziona-non funziona … Funziona come? Quando? Su chi? A che dosi? Con che effetti collaterali? Insomma tutti quei dati che si trovano scritti sui bugiardini dei farmaci …

Ora, dopo aver messo tanto sforzo nell’evidenziare gli errori degli altri, è forse il caso di ammettere una nostra imprecisione: lo scopo del post era semplicemente spiegare il concetto di probabilità condizionata ai babbei che tirano fuori la storia della monetina, e la figura del 33-37% era funzionale allo scopo. Non avevamo tuttavia verificato l’origine del dato e abbiamo dato per scontato che si trattasse di un valore predittivo positivo, visto che solo i farmaci che hanno superato la sperimentazione animale sono messi alla prova sull’uomo, e tutto sommato non ci dispiaceva (e non ci dispiace) come numero, dal momento che la “prevalenza”, nella popolazione in analisi, è molto bassa. Ma quando si ha a che fare con i cosiddetti “antivivisezionisti”, bisogna essere pronti un po’ a tutto e non dare per scontato che applichino correttamente la statistica. Al momento non ci è ancora riuscito di trovare la fonte certa del dato originale, l’articolo di Lancet che è citato nella diapositiva di Equivita non è infatti la fonte primaria, e quella originale, ad una prima analisi non contiene affatto quei numeri; dunque non sappiamo cosa sia esattamente questo dato e cosa esprime dal punto di vista statistico. In questo senso, chiunque lo sappia o voglia dare una mano nelle ricerche è il benvenuto.

[OI]