Adatok segítségével valóban jó konklúziókra jutunk?

Mit gondolnánk arról, ha azt állítanám, hogy a Covid-19 hatására csökken a daganatos megbetegedésben elhunytak száma? Különféle médiumokat olvasgatva a neten, sok helyen azzal riogatnak, hogy koronavírus miatt mennyire megnőtt a halálesetek száma. Humán szakember lévén gyakran látom előnyét annak, hogy mérnökként végeztem a BME-n... Miért emelkedne a halálozások száma a vírus hatására?

A háborúkban se halt meg több ember, mint amennyi potenciálisan meghalhatott. Talán nehézségek nélkülözésével is könnyen belátható, hogy többen nem tudunk meghalni, mint amennyien vagyunk. 😉 Ilyen értelemben a halálozások száma nem tud nőni. Max. arról lehet beszélni, hogy egy adott időablakot önkényesen kijelölve többen halnak-e meg, mint egy másik időablakot választva. No, de nem erről filozofálgatnék, van ennek a logikának egy érdekesebb aspektusa is.

Megkérdeztem egyik orvos rokonomat arról, hogy ha mondjuk valaki most meghal, hogyan izolálják, hogy a koronavírus következtében halt meg vagy abban az alapbetegségben, amiben már korábban is szenvedett? Az volt a válasza, hogy ezt nem lehet pontosan izolálni, talán annyit lehet elmondani, hogy ha valaki pl. daganattal küzdött, tovább élhetett volna még pár évvel, ha nem kapja el a vírust. Vagy nem. Vagy ki tudja…

A “Mégis, mire számítottál”  könyvem utolsó fejezetében épp azzal foglalkozom, hogy nagyon divatos az a hiedelem, hogy adatokból jobb döntéseket hozunk. Azzal egyet is értek, hogy a vélemény alapú döntéshozatalnál jobb lehet az adatalapú. Ugyanakkor veszélyes féligazság ez mert jó adatokból, jó algoritmusok segítségével valóban jobb döntéseket hozhatunk.

A statisztika azt mutatja, hogy a házasság negatív korrelációban van a dohányzással, azaz, ha dohányos vagy, kevésbé valószínű, hogy megházasodsz. Egy leheletnyi változtatás, azonban teljesen más értelmet a mondatnak: ha dohányos lennél, kevésbé valószínű, hogy megházasodnál. Az első állítás adatok alapján leír egy helyzetet, korrelációt fejez ki a két esemény között. A második mondat viszont azt mondja, hogy mi történne akkor, ha az esemény bekövetkezne, azaz kauzalitást fejez ki. Az a tény tehát, hogy a dohányosok kevésbé gyakran házasodnak meg, mint mások, nem jelenti azt, hogy ha abbahagyod a dohányzást, azzal nő az esélyed a házasságra.

De kanyarodjunk vissza a mi kis vírusunkhoz: vegyünk egy daganatos beteget, aki tegnap meghalt és kimutatták a szervezetében a koronavírust. Ha ezt a szerencsétlent úgy rögzítik a klinikai szoftverben, hogy a halálozás oka: Covid-19, akkor azt tudjuk elmondani, hogy a vírus szaporán szedi az áldozatait. De vajon a halálozás oka mezőben meg lehet adni azt is, hogy ha nincs a vírus, akkor daganatban halt volna meg?

A fent emlegetett időablak miatt érdekes kérdés ez… Mert ha a halál oka a koronavírus, akkor a halál oka már nem lehet a daganat. Ez azt jelenti, hogy mondjuk egy éves időablakot véve, a daganatos halálozások száma csökkenni fog. De nem amiatt, mert egészségesebbek lennénk vagy ugrásszerűen javult volna az egészségügy, hanem amiatt, mert áprilisban valaki egy kórház billentyűzetén a koronavírust jelölte meg, a halál okának.

A példa alapján kb. azt mondhatjuk el, hogy várható élettartam csökkent és nem a halálozások száma nőtt.

Visszakanyarodva a humán szakmához, sajnos ezt a kognitív torzítást lépten-nyomon elkövetik. Az egyik legkérdésesebb számomra az, hogy mit lehet elmondani a munkatársak kiválasztásához használt tesztek hatékonyságáról? Valóban jobban beválnak azok, akiket ezek segítségével vesznek fel? Mennyit tesz hozzá a teszt a kiválasztáshoz? 10%-ot? 70-et?

More blog posts: