• Home
  • Correlatie en causale verbanden uitgelegd met Nicolas Cage en zwembaden.

Correlatie en causale verbanden uitgelegd met Nicolas Cage en zwembaden.

In een datagedreven wereld kunnen we alles verklaren. Althans, dat proberen en denken we. Het is daarom belangrijk om je bewust te zijn van wat data daadwerkelijk zegt. Correlatie is een begrip wat vanuit de statistiek vaak voorkomt en iets zegt over de samenhang tussen twee verschijnselen. Als je zegt dat er een hoge correlatie is, dan bedoel je hiermee dat beide verschijnselen relatief vaak voorkomen, echter betekent dit niet dat het één met het ander te maken heeft. Lekker vaag? Geen probleem. In dit artikel worden correlatie en causale verbanden uitgelegd met Nicolas Cage en zwembaden.

Nicolas cage en zwembaden?

In dit artikel neem ik je mee door het begrip correlatie, geholpen door geniale voorbeelden van zaken die statistisch gezien totaal gerelateerd zijn.. maar.. tjah, oordeel zelf. We beginnen met de hoeveelheid mensen die verdronken zijn in een zwembad én de hoeveelheid films waarin Nicolas Cage speelde:

Correlatie & toeval

Geen twijfel mogelijk: als Nicolas Cage in een film speelt, verdrinken er meer mensen in een zwembad. Toch zie je op basis van deze informatie niet een verbod op Nicolas Cage films óf het gebruik van zwembaden. Ondanks dat je een sterke correlatie ziet tussen beiden, is er geen reden aan te nemen dat beiden ook maar iets met elkaar te maken hebben. Oftewel: het is toeval.

Van correlatie naar bewijs

Het effect van correlatie is echter erg groot voor de gemiddelde niet statistisch onderlegde persoon. Want het voorbeeld was vrij extreem, maar stel dat beiden dichter bij elkaar liggen. Effect van het versturen van marketing e-mails op bepaalde tijdstippen, kwaliteit van geleverde zorg op maandagochtend, noem maar op: er zijn veel praktische voorbeelden die we tegen komen waar er ogenschijnlijk een relatie is tussen het één en het ander. Dat heet een correlatie, tot je kunt bewijzen dat die twee dingen ook écht met elkaar te maken hebben. Daarom is data-science een vakgebied en vergt dat niet alleen veel kennis van data analyses, maar ook van de context van de data.

Correlatie én causatie

Oorzakelijkheid, of causale verbanden, is daarom de volgende stap. Als er een correlatie is tussen twee verschijnselen en je kunt ze aan elkaar relateren ontstaat er een causaal verband – een oorzaak en gevolg. Er is een oorzak (Nicolas Cage speelt in een film) en een gevolg (er verdrinken mensen in het zwembad, doordat Nicolas Cage in een film speelt). In ons voorbeeld is dit dus niet het geval, er is sprake van correlatie, maar geen causaal verband. De twee termen worden daarom ook veel gebruikt als het gaat om (wetenschappelijk) onderzoek, waarbij de onderzoeker zich elke keer moet afvragen of iets een correlatie is of dat een causatie aan te tonen is.

Covid-19 en 5G uitrol: correlatie of causatie?

Nog een voorbeeld van wat in mijn ogen nauwelijks een correlatie mag heten, maar voor genoeg mensen aanleiding is om in paniek te raken is de uitrol van 5G masten en de uitbraak van corona / COVID-19 wereldwijd. Hierin zie je ook een ander effect op het strijdtoneel verschijnen: selectief kiezen welke correlatie je voor waar aanneemt. Of het nu zwembad drenkelingen en Nicolas Cage films zijn of de uitrol van een 5G mast en het uitbreken van een virus: zonder bewijs dat het één met het ander te maken heeft zegt het helemaal niets over een onderlinge relatie.

Zoeken naar oorzaak en gevolg

Dus gaan mensen die overtuigd zijn van een causaal verband tussen de 5G uitrol en de COVID-19 uitbraak naarstig op zoek naar bewijs dat beiden verbonden zijn. Dit gebeurt doorgaans door zo ongeveer alle data te negeren, behalve dat kleine stukje wat de overtuiging dat beiden verbonden zijn ondersteunt. En dat brengt me terug bij waar we ons dagelijks mee bezig houden met onze klanten: correlatie vinden en vervolgens onderbouwen zodat een eventueel causaal verband aangetoond kan worden – of niet. In principe is dat exact wat al die extra vragen oplevert waar ik het in een vorig blog over had – wat is de oorzaak van wat we denken te zien?

Data Durven Doen en de drie V’s

Om jouw organisatie verder te helpen zijn we daarom niet alleen goed met ‘data’, maar ook met hoe je de data moet ‘lezen’. Ook helpen we je bij het organiseren van je data via onze drie V’s: Verzamel data, Verbind deze tot één geheel en Verbeter jouw bedrijf – datagedreven. Dat we dan ook helpen met het begrijpen en uitleggen van wat we zien: van correlatie tot causaal verband, staat buiten kijf.

En tenslotte nog een paar voorbeelden, omdat ze gewoon leuk zijn.

One Comment

    23 april 2020 REPLY

    Hi Nigel, een tof artikel! En inderdaad, data is het nieuw goud, maar dan moet je nog wel weten hoe je het goud moet zeven.

leave a comment

Deze website gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.

Stationsplein 99 - 235, 1703 WE Heerhugowaard info@bigdatahub.nl +31 (0) 20 26 20 227