Korrelaatio ei ole kausaatio

 

Suuraineiston eli big datan aikakaudella tutkimuksessa usein kerätään jättimäinen aineisto, jota aletaan selvittää tietokoneella. Aineistolle esitetään kysymyksiä ja aineisto vastaa. Menetelmä nimi on tiedon tai aineiston louhinta.

Sen tuottama merkityksettömän tiedon tulva ohjaa informaatioajan ajattelua ja uskomuksia.

Koska aineistoa on paljon, miltei minkä tahansa kahden asian välille voi syntyä korrelaatio eli tilastollinen vastaavuus: asiat näyttävät liittyvän toisiinsa. Kesällä syödään runsaasti jäätelöä ja hukkumiskuolemia on paljon.

Korrelaatio ei kuitenkaan ole kausaatio, syyn ja seurauksen suhde. Jäätelön syöminen ei ole hukkumiskuoleman syy.

Yleensä korrelaation ja kausaation ero on paljon tuttua esimerkkiä hienoviritteisempi, vaikeammin havaittava. Sen näkemistä sekoittaa myös erityisesti ihmis- ja sosiaalitieteissä käytetty tilastollisen merkitsevyyden käsite. Se kertoo todennäköisyyden sille, että esitetty tulos on syntynyt sattumalta.

Käytäntönä on, että tuloksen tilastollisen merkitsevyyden on oltava pienempi kuin 0,05, jotta se voitaisiin julkaista. Tämä tarkoittaa, että tulos on syntynyt sattumalta todennäköisyydellä 1/20. Vain ne ylittävät julkaisukynnyksen.

Uuttera suuraineiston louhinta kuitenkin tuottaa satoja, tuhansia tai vielä enemmän korrelaatioita. Niistä 5, 50 tai vielä useampi täyttää sattumalta tilastollisen merkitsevyyden vaatimukset ja ne julkaistaan tieteellisinä tuloksina, ensin aikakauskirjoissa ja lopulta päivälehdissä.

Muutama esimerkki:

  • Kaksi kuppia kahvia päivässä pienentää haimasyövän riskiä huomattavasti.
  • Voimalinjojen lähellä asuminen aiheuttaa lapsissa syöpää.
  • Kun NFL-joukkue voittaa Super Bowlin, pörssikurssit nousevat miltei aina.
  • Kun valtionvelan ja BKT:n suhde on nousee yli 90 prosentin, valtio ajautuu miltei aina taantumaan.

Nämä ovat tieteellisiä tuloksia, joiden tilastollinen merkitsevyys on pienempi kuin 0,05. Osa näistä säilyy tieteellisinä totuuksina ennen kaikkea siksi, että niitä ei toisteta eri aineistoilla, jolloin sattumaan perustuvat merkityksettömät tulokset paljastuisivat.

Vuonna 2003 tilastotieteilijä John Ioannidis julkaisi tämän ongelman esitelleen artikkelin ”Miksi useimmat julkaistut tutkimustulokset ovat epätosia”. Se herätti valtavan keskustelun, mutta tieteen käytännöt muuttuvat hitaasti.

Kun Bayer Laboratories –lääkeyhtiö yritti toistaa aikaisemmat tuloksensa, kaksi kolmesta ei enää ylittänyt rimaa. Se ei kumonnut Ioannidisin tulosta. Ja tälläkin hetkellä sosiaalipsykologiassa velloo suuri keskustelu toistettavuudesta.

Ioannidisin mukaan vääriä päätelmiä voidaan välttää, jos halutaan. Tiedon louhinnassa on viisasta käyttää useampia aineistoja. Tuloksia kannattaa tarkastella arkijärjen valossa. Ei kannata heti uskoa, että väitetty tulos on tosi. Eikä tietokoneiden ”viisauteen” kannata luottaa.

Teksti: Kimmo Pietiläinen

Kuva: Rainbow Background by abcdoremi123

 

gratis Receptpligtig rabatkort 1apotekonline.com Nook color 8gb tablet

Kirjaudu

create an account

Tämä sivusto käyttää evästeitä (cookies). Käyttämällä palvelua hyväksyt evästeiden käytön. Lue lisää

Käytämme evästeitä sivuillamme toimivuuden parantamiseksi. Evästeet on mahdollista kytkeä pois käytöstä, mutta tällöin sivuston toimivuus heikentyy.

Sulje