Nederlandse samenvatting (Summary in Dutch)
Het belang van voorspellen: onderzoek naar de psyche en het brein in het tijdperk van machine learning
Onderzoek naar de psyche en brein is allang niet meer de kwalitatieve wetenschap van Sigmund Freud en William James. Introspectie van de geest heeft plaatsgemaakt voor een versie van de wetenschappelijke methode waarin gedrag, mentale processen, en de breinpatronen onderliggend hieraan kwantitatief geanalyseerd worden. De geobserveerde gedrags- of breindata worden gebruikt om de hypotheses van de psycholoog of (cognitief) neurowetenschapper te toetsen aan de hand van de bij studenten welbekende statistische testen zoals de t-test, ANOVA, en correlaties. Deze statistische testen geven een simpel, binair (ja/nee) antwoord op zijn of haar wetenschappelijke hypothese, die de onderliggende theorie kan ondersteunen of juist ontkrachten.
Deze methode heeft ons veel geleerd over menselijk gedrag en de werking van het brein. Dankzij deze manier van onderzoek doen weten we bijvoorbeeld dat we stimuli met conflicterende eigenschappen (zoals het woord “rood” in de kleur blauw) invloed heeft op onze reactietijd (het Stroop effect), dat we onszelf stelselmatig overschatten (het Dunning-Kruger effect), en dat negatieve informatie ons meer beïnvloedt dan positieve informatie (het negativity effect). In de introductie van dit proefschrift vraag ik me echter af of deze aanpak van het vaststellen van dergelijke effecten door middel van simpele, binaire hypotheses en statistische testen voldoende is om de immense complexiteit van de menselijke psyche en brein echt te doorgronden. Ik stel dat wij, als psychologen en cognitief neurowetenschappers, ons kunnen laten inspireren door de manier van onderzoek doen in de vakgebieden van kunstmatige intelligentie en specifiek machine learning.
In deze vakgebieden staat, in plaats van het vaststellen van effecten, het belang van voorspellen centraal. Met machine learning tracht men specifieke taken of problemen, zoals het herkennen van gezichten in foto’s, te automatiseren met complexe modellen. Belangrijk hierbij is om de taak te formuleren als een “voorspellingsprobleem”, waarbij het model probeert accurate voorspellingen te maken op basis van de data die het wordt gegeven, zoals de aan- of afwezigheid van een gezicht op basis van de collectie pixels in een foto. Machine learning modellen zijn vaak extreem krachtig en flexibel, waardoor ze in staat zijn complexe taken uit te voeren die de complexiteit van menselijk gedrag en het brein benadert.
In de afgelopen jaren zijn psychologen en met name cognitief neurowetenschappers dergelijke machine learning modellen meer en meer gaan gebruiken om gedrag en breinprocessen te modelleren. In deze context kunnen deze modellen worden geïnterpreteerd als hypotheses over het mechanisme onderliggend aan het bestudeerde gedrag, mentale capaciteit, of breinproces. Zo zijn bijvoorbeeld objectherkenning modellen uit de machine learning wereld succesvol gebruikt om de menselijke visuele cortex te modelleren. Deze en andere succesvolle toepassingen van machine learning in de psychologie en neurowetenschappen demonstreren dat het gebruik van voorspellende, complexe modellen potentie heeft om een alternatieve en complementaire wetenschappelijke methode te worden ten opzichte van de traditionele manier van onderzoek doen.
De toepassing van de onderzoeksmethodiek en modellen van machine learning in de psychologie en neurowetenschappen is verre van triviaal. Het vergt, onder andere, het (gedeeltelijk) loslaten van theorie en theorie-gedreven hypotheses en het omarmen van complexe modellen die niet altijd makkelijk interpreteerbaar zijn. Ook is de variatie en hoeveelheid van de data die wordt gebruikt voor de modellen een stuk belangrijker dan in de traditionele methode. De hoofdstukken in dit proefschrift behandelen verschillende facetten die komen kijken bij het toepassen van voorspellende modellen in psychologisch en cognitief neurowetenschappelijk onderzoek, zoals het toepassen van machine learning modellen op functionele MRI data (hoofdstuk 2) en gedragsdata (hoofdstuk 6 en 7), de interpretatie van dergelijke voorspellende modellen (hoofdstuk 3), het belang van openbare datasets (hoofdstuk 4), maar ook het nut en plaats van hypothese-gedreven onderzoek (hoofdstuk 5).
In hoofdstuk 2 onderzochten we of het ervaren van emoties (van jezelf) en het begrijpen van emoties (van anderen) dezelfde breinprocessen rekruteren door middel van een innovatieve toepassing van machine learning. Tijdens het meten van functionele MRI data lieten we proefpersonen twee taken doen: één waarbij ze specifieke emotie-gerelateerde acties, interoceptieve gevoelens, of situaties moesten inbeelden (de “zelf-taak”) en één waarbij ze zich moesten focussen op de emotie-gerelateerde acties, mogelijke interoceptieve gevoelens, of situaties van mensen afgebeeld in emotionele afbeeldingen (de “ander-taak”). We trainden vervolgens een machine learning model om de drie emotie-componenten (actie, interoceptie, en situatie) geobserveerd tijdens de zelf-taak te onderscheiden op basis van de onderliggende breinpatronen. Ditzelfde model pasten we vervolgens ook toe op de breinpatronen van de ander-taak. De accurate voorspelling van de emotie-componenten in de zelf-taak liet zien dat de drie emotie-componenten duidelijk spatieel gesegregeerd zijn in verschillende breinnetwerken. De accurate generalisatie van het model naar de data van de ander-taak toont verder aan dat deze breinnetwerken geassocieerd met het ervaren van je eigen emoties op eenzelfde manier gerekruteerd worden bij het begrijpen van andermans emoties. Naast het aantonen van de overlap in de neurale netwerken van zelf- en ander-georienteerde emotionele processen, demonstreert dit onderzoek ook de mogelijkheid om machine learning modellen in te zetten om de gedeelde informatie van twee (neurale) processen aan te tonen.
Een saillant nadeel van (complexe) machine learning modellen is dat het vaak niet direct duidelijk is welke aspecten van de data ze gebruiken voor hun voorspellingen. In hoofdstuk 3 onderzochten we hoe we ervoor kunnen zorgen dan machine learning modellen sommige aspecten van de data negeren. Op deze manier kunnen deze aspecten, waarnaar wij refereren als confounds, uitgesloten worden als “verklaring” voor de voorspellingen van een model. We vergeleken verschillende methodes uit de literatuur om te corrigeren voor confounds in machine learning modellen op basis van computersimulaties en empirische analyses van modellen die sekse voorspellen op basis van structurele MRI scans terwijl er voor de factor “hersengrootte” gecontroleerd wordt. Onze resultaten lieten zien dat bestaande methodes ofwel te optimistisch waren (ze controleerde niet goed genoeg voor de confounds) ofwel te pessimistisch waren (ze filterden teveel informatie uit de data). Als oplossing voor deze tekortkomingen stelden wij een nieuwe methode die, door elke stap in de machine learning pipeline correct te “cross-valideren”, op een juiste en efficiënte manier corrigeert voor confounds. De voorgestelde methode in dit onderzoek is een belangrijke stap in het beter leren begrijpen van de logica waarmee voorspellingen van machine learning modellen tot stand komen, wat een van de belangrijkste nadelen van dergelijke modellen ondervangt.
Door de complexiteit van moderne machine learning modellen, hebben ze grote hoeveelheden data nodig om accurate en robuuste associaties in de data te leren. De beschikbaarheid van grote en gevarieerde datasets is daarom cruciaal voor de ontwikkeling van machine learning modellen. In hoofdstuk 4 beschrijven wij onze bijdrage hieraan in de vorm van de Amsterdam Open MRI Collection (AOMIC), een dataset met structurele, functionele, en diffusie MRI data fysiologische data, en uitgebreide en goed geannoteerde gedragsdata en psychometrische gegevens. AOMIC is geformat aan de hand een algemeen geaccepteerde standaard (de Brain Imaging Data Structure) en bevat zowel ruwe als opgeschoonde data, zodat het zowel voor onderzoekers met en zonder MRI-ervaring gebruikt kan worden. Met AOMIC hopen wij zowel het gebruik van publieke data te stimuleren als anderen te inspireren om hun eigen (MRI) data publiek toegankelijk te maken.
De manier van onderzoeken in het machine learning veld heeft een sterk exploratief karakter. Hoewel ik denk dat deze manier van onderzoek doen duidelijke voordelen heeft, ben ik tegelijkertijd van mening dat er een plek is voor confirmatief onderzoek op basis van theoretische gemotiveerde hypotheses kenmerkend voor de traditionele onderzoeksmethode. Deze traditionele manier van hypothese testen is bij uitstek geschikt om belangrijke aannames in een bepaald onderzoeksdomein of theorie te testen. Hoofdstuk 5 is hier een voorbeeld van. Dit hoofdstuk beschrijft een functionele MRI studie die onderzoekt of de neurale correlaten van nieuwsgierigheid voor negatieve informatie, met de vooraf geregistreerde hypothese dat het expliciet kiezen voor negatieve informatie belonings-gerelateerde hersengebieden activeert. Deze hypothese betwist huidige theorieën over nieuwsgierigheid, want de meest duidelijke indicator van beloning — een prettige ervaring — mist in nieuwsgierigheid voor negatieve informatie. Onze resultaten toonden aan dat, in lijn met onze vooraf geregistreerde hypothese, belonings-gerelateerde hersengebieden zowel activeerden in reactie op zowel positief als negatieve informatie. Deze bevindingen nuanceren modellen van besluitvorming, waardering en nieuwsgierigheid, en zijn een belangrijk uitgangspunt bij het overwegen van de waarde van het actieve exploratie van negatieve informatie.
Hoofdstuk 6 beschrijft een studie over een nieuwe manier om verbale hypotheses te vertalen naar kwantitatieve, voorspellende modellen. Deze methode hebben we toegepast in de context van hypotheses over de relatie tussen de perceptie van categorische emoties (boosheid, walging, angst, blijdschap, verrassing, en verdriet) en de beweging van verschillende spieren in het gezicht (ook wel “action units”, AUs, genoemd). We vertaalden verschillende hypotheses uit de literatuur over deze emotie-AU relaties naar modellen en evalueerden hun voorspellende vermogen aan de hand van emotie-beoordelingen van gezichten met willekeurige combinaties van AUs door een groep proefpersonen. We vonden dat deze modellen een substantieel deel van de variatie in emotie-beoordelingen accuraat voorspelden, maar ook dat bijna alle modellen tekort schoten vanwege het missen van cruciale AUs of het includeren van overbodige AUs voor sommige emoties. Door systematische evaluatie van deze tekortkomingen konden we vervolgens nieuwe, meer accurate modellen creëren. Daarnaast lieten onze resultaten zien dat proefpersonen grote verschillen laten zien in de emotie die ze zien in dezelfde set met gezichten, wat betekent dat universele modellen van emotieperceptie op basis van gezichtsuitdrukkingen sterk gelimiteerd in hun accuratesse. Naast het ontwikkelen van een nieuwe methode, benadrukt deze studie ook het nut van kwantitatieve, voorspellende modellen voor het ontwikkelen en evalueren van wetenschappelijke hypotheses.
Hoofdstuk 7 gaat over een onderzoek waarin we modellen ontwikkelen om emotionele beoordelingen van gezichten met willekeurige uitdrukkingen te voorspellen. We onderzochten specifiek in hoeverre dynamische informatie (bewegingen van het gezicht) en statische informatie (morfologie van het gezicht) bijdragen aan de perceptie van emotionele informatie. We vonden dat dynamische en statische informatie allebei een substantieel en onafhankelijk deel van de variatie in emotionele beoordelingen verklaren. Daarnaast lieten reconstructies van emotionele gezichten op basis van de geschatte modellen zien dat statische en dynamische informatie zich verschillend uiten in de topologie van het gezicht, in tegenstelling tot wat vaak wordt verondersteld in de literatuur. Deze studie laat zien dat mensen niet alleen de gezichtsuitdrukking zelf (de dynamische informatie) verwerken bij het beoordelen van emotionele staat van anderen, maar ook het gezicht zelf (de statische informatie), wat belangrijke kanttekeningen plaatst bij het alomtegenwoordige gebruik van statische stimuli in emotieonderzoek en kunstmatige intelligentie-toepassingen.
De hoofdstukken uit dit proefschrift benadrukken dat het gebruik van voorspellende modellen meer omvat dan alleen een verandering van de analysetechniek. Als we deze methodologie (meer) willen integreren in de psychologie en cognitieve neurowetenschappen, dan moeten we beginnen bij het herevalueren een groot deel van de traditionele empirische cyclus. Als we kiezen voor een sterkere focus op voorspelling, dan moeten we andere vragen gaan stellen (over mechanismes, niet over effecten); dan moeten we de complexiteit van menselijke cognitie en gedrag omarmen en datasets en modellen creëren die deze complexiteit weerspiegelen; en dan moeten we wellicht interpreteerbaarheid van modellen opofferen voor voorspellend vermogen. In andere woorden, het is hoogst tijd om te profiteren van de mogelijkheden die tijdperk van machine learning ons te bieden hebben.