SiNAPSA, petek, 21. julij 2017

eSiNAPSA

Spletna revija za znanstvenike, strokovnjake
in nevroznanstvene navdušence

O lososih, funkcijski magnetni resonanci in izzivih statističnega testiranja

Grega Repovš

Leta 2009 je na konferenci Organization for Human Brain Mapping precej ironičnega navdušenja pritegnil poster z naslovom “Neural correlates of interspecies perspective taking in the post-mortem Atlantic Salmon: An argument for multiple comparisons correction”1, v katerem so avtorji s pomočjo funkcijske magnetne resonance (fMR) identificirali področje možganov, ki je bilo v mrtvem lososu “aktivno” pri izvedbi preizkušnje prepoznavanja čustvenih izrazov na slikah človeških obrazov. Rezultati so bili seveda nesmiselni, avtorji pa so želeli z njimi opozoriti na nekatere izzive veljavne izvedbe fMR študij.

Grega RepovšPoster je precej zanimanja požel tudi zunaj znanstvene skupnosti, ki uporablja slikovne tehnike preučevanja delovanja možganov in duševnosti ter postal internetni meme na katerega radi opozorijo tudi predstavniki laične javnosti, ko pogovor nanese na fMR. Rezultati, ki jih omogoča, so tako ali tako lari-fari, je pogost zaključek. Po počasnih začetkih se - ob pridobitvi raziskovanju posvečenega tomografa na Medicinski fakulteti Univerze v Ljubljani - na pot uporabe fMR v okviru kognitivne nevroznanosti odločneje podajamo tudi v Sloveniji. Ob tej priložnosti je smiselno nasloviti tudi kritike, ki jih bodisi neposredno podaja bodisi posredno odpira omenjeni prispevek.

fMR in problem multiplih primerjav

V svojem prispevku se avtorji osredotočajo predvsem na t.i. problem multiplih primerjav. Za njegovo razumevanje je treba podati kratke osnove uporabe fMR (nekoliko širšo, a vseeno dostopno predstavitev lahko najdete v več virih, npr. 1 ali 2). Kadar želimo ugotoviti katera področja možganov so aktivna pri izvedbi določene naloge, udeležence v raziskavi prosimo, da omenjeno nalogo izvajajo v točno opredeljenem času, med katerim hkrati s pomočjo fMR zajemamo niz slik možganov, na katerih je intenzivnost signala odvisna od stopnje oksigeniranosti hemoglobina v krvi. Tovrsten niz slik nam omogoča sledenje t.i. BOLD (Blood Oxygenation Level Dependent) signala, za katerega vemo, da se tekom izvedbe naloge spreminja. Kadar se aktivnost v določenem predelu možganov poveča, se z njo - zaradi povečanih energetskih potreb - poveča tudi poraba kisika. Krvno-žilni sistem se na povečano porabo kisika odzove z večjim pretokom krvi v relevantnem področju. Povečanje pretoka je venomer večje od potreb, zato pride do prehodnega povečanja količine oksigeniranega hemoglobina, kar se odraža v zajetem signalu. Ker zaradi podrobnega časovnega nadzora vemo, kdaj je prišlo do izvedbe naloge, lahko napovemo do kakšne spremembe signala bi moralo priti v področjih možganov, ki so vpleteni v izvajanje naloge. Tovrstna področja prepoznamo s pomočjo multiple regresije tako, da za vsako volumensko enoto slike (voksel) preverimo, ali lahko z napovedanim signalom pojasnimo pomemben del opazovanega signala. Če predvideni signal pomembno napove opazovani signal, lahko zaključimo, da je področje, od koder izvira opazovan signal, udeleženo v izvedbi naloge.

Losos
Losos, pri katerem je statistična analiza brez ustreznih popravkov pokazala 16 aktivnih vokslov od 8064 na ravni p < ,001 (Vir: prefrontal.org).

Ko presojamo pomembnost napovedi, se naslonimo na orodja statističnega testiranja. Logika statističnega testiranja je, poenostavljeno povedano, naslednja. S pomočjo statističnih testov lahko ocenimo verjetnost, da bi do opazovanega ali večjega učinka lahko prišlo po naključju. Če je ta verjetnost (največkrat označena kot vrednost p) zelo majhna, potem si upamo zaključiti, da opazovana velikost učinka ni naključna, temveč odraža dejanski pojav. Najpogosteje uporabljena mejna p vrednost v statističnem testiranju je 0,05. Z drugimi besedami, če je verjetnost, da je opazovani rezultat naključen manj kot petodstotna, smo pripravljeni zavreči možnost, da opazujemo le naključje in sprejmemo trditev, da je prišlo do statistično pomembnega vpliva preučevanega dejavnika. V primeru fMR bi sprejeli trditev, da sprememba ob izvajanju podane naloge v opazovanem BOLD-signalu ne odraža le šuma ali z nalogo nepovezanih aktivnosti, temveč gre pri tem za možgansko aktivnost.

Problem, ki ga poudarjajo avtorji je, da v omenjenem postopku statističnega testa ne izvedemo le enkrat, temveč ga izvajamo za vsak voksel posebej. Ker so verjetnosti naključnega preseganja zastavljenega merila (načeloma) neodvisne, se z večanjem števila testov povečuje tudi verjetnost, da bo mejna vrednost v kateremkoli izmed njih presežena po naključju. Za razumevanje problema bo na tem mestu morda dobrodošla analogija. Negativen učinek ionizirajočega sevanja ob rentgentskem slikanju je razmeroma dobro znan. Verjetnost, da bi zaradi posamičnega slikanja prišlo do razvoja rakavega obolenja je izredno majhna, s pogosto izpostavljenostjo pa se le-ta veča, zato se nepotrebnemu slikanju izogibamo. Enako je pri statističnem testiranju: verjetnost preseganja mejne vrednosti v posamičnem testu je razmeroma majhna, z večanjem števila testov pa se ta verjetnost povečuje. Pri uporabi mejne vrednosti 0.05, lahko pričakujemo, da bo pri izvedbi stotih testov rezultat po naključju presegel mejno vrednost pri petih izmed njih. Preneseno na fMR lahko pri testiranju 60.000 vokslov pričakujemo preseganje mejne vrednosti p < 0,05 pri 3.000 izmed njih. Na ta način lahko ugotovimo tudi pomembno odzivnost možganov mrtvega lososa v nalogi presojanja emocij.

Preučevanje korelatov duševne aktivnosti s pomočjo fMR seveda ni edino področje, ki je izpostavljeno problemu multiplih primerjav. V preiskovanju povezav med psihološkimi potezami in različnimi vedenjskimi lastnostmi posameznikov so raziskovalci ob odsotnosti uporabe ustreznih korektivnih postopkov lahko hitro soočeni z več deset do več sto korelacijami in posledično napačnim zaključkom. Podobno lahko v genetskih študijah opazujemo povezave med stotinami različnih genov ter osebnostnimi lastnostmi, inteligentnostjo, spolno usmerjenostjo ali tveganjem za različne bolezni in ni čudno, da časopisje vsake toliko poroča o odkritju gena za homoseksualnost, debelost ali inteligentnost, ki zaradi odsotnosti dodatnih potrditev kmalu pade v pozabo.

Korekcija kriterija za naslavljanje problema multiplih povezav

Eden izmed najbolj preprostih orodij v boju proti neveljavnim zaključkom zaradi problema multiplih povezav je uporaba ustreznih korekcijskih metod in postopkov. Najbolj preprost in strog je t.i. Bonfferonijev popravek. Ta temelji na železni logiki. Če želimo možnost, da bi katerikoli statistični test po naključju presegel mejno vrednost, ohraniti na želeni meji, potem je treba želeno mejno vrednost deliti s skupnim številom statističnih testov. Pri 100 testih je nova mejna vrednost 0,0005, pri 60,000 testih 0,00000083.

Medtem ko se z uporabo Bonfferonijevega popravka učinkovito izognemo napaki napačnih prepoznav učinka, smo pri njegovi uporabi soočeni s tako strogim merilom, da mu težko ustreza tudi najbolj robusten učinek - izpostavimo se velikemu deležu napačnih zavrnitev učinka. V fMR praksi se je tudi zato uveljavilo več alternativnih postopkov korekcije za multiple primerjave. Ob predpostavki, da je šum naključno razporejen preko zajetih slik možganov, lahko nekoliko strožje merilo kombiniramo z zahtevo, da se mora učinek pojaviti v več zveznih vokslih4. Koliko vokslov mora presegati mejno vrednost, lahko izračunamo analitično ali s pomočjo simulacij monte-carlo. Uporabimo lahko tudi nekoliko drugačen pristop h kontroli napačnih prepoznav, kot ga predstavlja na primer v izvirnem prispevku omenjeni FDR5 (False Discovery Rate), ali pa uporabimo moderne tehnike ponovnega vzorčenja6 (resampling, bootstrapping).

Naštete metode so pogosto del programskih paketov za fMR analize, ali pa so zajete v samostojnih programih. Ob njihovi smiselni uporabi in ozaveščenosti recenzentov znanstvenih revij je prepoznava aktivnosti v mrtvih lososovih možganih že več let le neposrečena parodija začetkov nove metode preučevanja možganov in njenih neveščih uporabnikov.

Povezave z vedenjskimi rezultati

Poleg neustreznega nadzora nad multiplimi povezavami gre študiji z lososom očitat še eno pomembno pomanjkljivost, ki je morda namenoma botrovala izbiri mrtvega udeleženca - v študiji je umanjkal vedenjski nadzor izvedbe naloge. Da lahko opazovani BOLD-signal povezujemo z izvedbo naloge, moramo biti prepričani, da je udeleženec nalogo zares izvajal. V dejanskih fMR študijah od udeležencev praviloma zahtevamo merljiv vedenjski odziv, ki nam omogoča oceniti, ali in kako dobro je udeleženec izvajal nalogo.

Spremljanje vedenjskih odzivov nam ne pomaga le, da se ubranimo pred napačnimi zaključki, temveč nam omogoča tudi večjo moč pri prepoznavanju relevantnih možganskih področij, saj smo lahko bolj natančni pri napovedi možganske aktivnosti, ter postavljanju podrobnejših vprašanj, na primer, kakšen vzorec možganske aktivnosti loči med uspešnim in neuspešnim kodiranjem informacij v spomin. In kar je morda najpomembnejše: ugotavljanje pomembne povezave med aktivnostjo določenega področja možganov in stopnje pravilnosti izvedbe naloge nam daje najbolj neposreden dokaz za relevantnost prepoznanega področja možganov za izvedbo izbrane naloge.

Multivariatna analiza vzorcev

Verjetno je najbolj učinkovito spoprijemanje z izzivom multiplih primerjav - izogibanje multiplim primerjavam. To je možno na dva načina. Prva možnost sloni na jasno zastavljeni teoriji in specifični domnevi, ki nam omogočata, da statistični test izvedemo le za signal iz jasno opredeljenega področja možganov namesto na tisočih vokslih preko celotnih možganov. Druga možnost pa temelji na uporabi skupka analitičnih metod s skupnim nazivom multivariatna analiza vzorca (ang. Multivariate Pattern Analysis - MVPA).

V okviru multivariatne analize vzorcev si ne zastavimo vprašanja, katera področja možganov pomembno korelirajo s predvidenim BOLD signalom, temveč skušamo ugotoviti, kakšen vzorec aktivnosti najbolje napoveduje, katero nalogo je izvajal (ali kakšnemu dražljaju je bil izpostavljen) udeleženec. Za prepoznavanje vzorcev lahko uporabimo katerega od več možnih postopkov, kot so na primer SVM (Support Vector Machine), ali ANN (Artificial Neural Networks), ki nam povedo, kakšen vzorec aktivnosti se povezuje s posamično nalogo, kot tudi, katera informacija (aktivnost v katerih vokslih) je najbolj diagnostična.

Z uporabo MVPA se izognemo neobvladljivemu številu statističnih testov, saj moramo preveriti le, ali prepoznan vzorec omogoča boljšo napoved kot bi je bili sposobni le po naključju, z metanjem kovanca. Hkrati rezultat podaja zelo uporabno dodatno informacijo in odpira popolnoma nove možnosti uporabe fMR. Ob vrednotenju prepoznanega vzorca ne izvemo le, ali je vzorec pomembno boljši od naključja, temveč tudi, kako dober je, v neposredno razumljivi in uporabni obliki. Vzorec, ki v izbiri med dvema možnostma podaja pravilno napoved v 55 % primerov, je, čeprav boljši od kovanca, vsekakor manj uporaben kot vzorec, ki pravilno kategorizira 90 % primerov. Stopnja uspešnosti vzorcev nam daje pomemben vpogled v kompleksnost preučevanih kognitivnih procesov in z njim povezanih mehanizmov kodiranja in procesiranja informacij v možganih. Uspešni vzorci pa obetajo uporabnost na različnih področjih, od “branja možganov” do podpore diagnostiki možganskih motenj in bolezni ter spremljanja učinkovitosti njihovega zdravljenja.

Seveda MVPA še zdaleč ni rešitev vseh težav in ne daje vseh odgovorov na izzive analize fMR podatkov. Tehnika s seboj prinaša svoje lastne izzive in težave ter je uporabna le za naslavljanje specifičnih vprašanj, zagotovo pa kaže, da je vrhunsko raziskovanje s pomočjo fMR daleč od rdečih peg v sliki možganov mrtvega lososa.

    ___
  1. Bennett, C.M., Baird, A.A., Miller, M.B., Wolford, G.L. (2009). Neural correlates of interspecies perspective talking in the post-mortem Atlantic Salmon: An argument for multiple comparison correction. 15th Annual Meeting of the Organization for Human Brain Mapping, San Francisco, CA, June 18-23, 2009. 

  2. Repovš, G. (2009). Slikanje možganov. V M. Polič (ured.) Podobe psihologije, str. 127-146. Ljubljana: Znanstvena založba Filozofske fakultete. 

  3. Friston, K.J., Holmes, A., Poline, J-B., Price, C.J., Frith, C.D. (1996), Detecting activations in PET and fMRI: Levels of inference and power. Neuroimage, 40, 223-235. 

  4. Genovese, R. C, Lazar, N. A. in Nichols, T. (2002). Thresholding of statistical maps in functional neuroimaging using the false discovery rate. Neuroimage, 15 (4), 870–878. 

  5. Nichols, T. E. in Holmes, A. P. (2001). Nonparametric permutation tests for functional neuroimaging: a primer with ex- amples. Human Brain Mapping, 15 (1), 1–25. 

prof. dr. Grega Repovš
Oddelek za psihologijo
Filozofska fakulteta
Univerza v Ljubljani