SiNAPSA, četrtek, 29. oktober 2020

eSiNAPSA

Spletna revija za znanstvenike, strokovnjake
in nevroznanstvene navdušence

Prevajati možgane: rekonstrukcija besedila na podlagi elektrokortikograma

Kristijan Armeni

Skokovit razvoj strojnega učenja in naprednih statističnih modelov pušča svoj odtis tudi v uporabni nevroznanosti in nevrotehnologijah. Nedavno smo v eSinapsi predstavili rabo strojnega učenja in tehnologije umetnih nevronskih mrež (angl. artificial neural networks, ANN), za analizo in napovedovanje posameznikove možganske aktivnosti na osnovi jezikovnih dražljajev in slišanega besedila. Tokrat si pogledamo primer zrcalnega pristopa: rekonstrukcija prebranega besedila na podlagi izmerjene možganske aktivnosti. V prispevku predstavimo nedavno študijo, kjer so s tehnologijo nevronskih mrež izboljšali točnost »prevoda« možganskega signala v besedilo.

Elektroencefalografija (angl. electroencephalography, EEG) v širšem pomenu se nanaša na metode merjenja električne aktivnosti možganov. V kognitivni nevroznanosti s človeškimi udeleženci je EEG najpogosteje zajet z elektrodami na lasišču 1. Takšne meritve so neinvazivne, saj za izvedbo ne zahtevajo nikakršnih operativnih postopkov. Kadar pa merjenje EEG poteka invazivno, tj. med operacijo neposredno na oz. v možganih, govorimo o intrakranialni elektroencefalografiji (angl. intracranial electroencephalography, iEEG) 2. Meritve iEEG se izvajajo na dva načina, bodisi na površju možganov s subduralnimi elektrodami (angl. subdural electrodes, slika 1)3 bodisi v možganih z globinskimi elektrodami (angl. depth electrodes). Ker so meritve iEEG bližje nevronskemu izvoru elektrofiziološke aktivnosti, je signal iEEG tipično kvalitetnejši in ima manj šuma kot EEG izmerjen na skalpu.

Študija, ki jo predstavimo v nadaljevanju, sodi v sklop širšega področja grajenja t. i. kodirnih oz. napovednih ter dekodirnih oz. klasifikacijskih modelov možganskega signala 4. Cilj napovednih modelov je na podlagi opisa dražljajev (npr. besedila, ki ga udeleženec bere) napovedati specifične značilnosti možganske aktivnosti, ko udeleženec procesira določen dražljaj, na primer intenziteto možganskega signala skozi čas). Pri klasifikacijskih modelih je narava naloge obrnjena: na podlagi značilnosti izmerjene možganske aktivnosti želimo ugotoviti, kateri dražljaji oz. njihove lastnosti so bili procesirani ob merjenju tega signala. S takšnim pristopom lahko kognitivni nevroznanstveniki sklepajo – ob upoštevanju znanih interpretacijskih čeri – o najverjetnejši kognitivni funkciji možganskih regij oz. nevronskih populacij 5. Če lahko, denimo, na podlagi meritev iz regije A z dovolj veliko uspešnostjo dekodiramo, ali je beseda samostalnik ali glagol, je možen zaključek, da je ena izmed kognitivnih funkcij regije A obdelava skladenjskih značilnosti besed. Povedano nekoliko drugače, meritve možganske aktivnosti v tej regiji vsebujejo določen signal, ki ga dekodirni algoritem lahko izkoristi za uspešno razvrščanje testnih besed med glagole in samostalnike.

Za mnoge raziskovalce je pomembnejša uporabna plat dekodirnih modelov. So namreč sestavni del pri gradnji vmesnikov možgani–računalnik (angl. brain-computer interface, BCI, oz. brain-machine interface, BMI) 6, 7, 8. Trenutno se BCI najpogosteje uporablja za nadomestitev gibalnih sposobnosti pri težko paraliziranih bolnikih. Uporabnik BCI si zamisli želeni gib oz. smer, iz možganskih meritev je moč dekodirati gibalni signal, ki se ga nato uporabi za nadzor in (omejeno) krmiljenje zunanje naprave – proteze. Poleg gibalnih sposobnosti se danes raba BCI razvija tudi na drugih področjih, denimo v nevropsihiatričnih kontekstih za izboljšanje posameznikovega čustvenega funkcioniranja 9. Pomemben sklop potencialne uporabe BCI, kar opisuje tu predstavljena študija, je tudi nadomestitev govornih oz. komunikacijskih sposobnosti 10, 11.

Makin in sodelavci 12 so pokazali, da nov pristop h grajenju dekodirnih modelov ECoG-signala z umetnimi nevronskimi mrežami izboljša točnost rekonstrukcije besedila glede na prejšnje raziskave. Povprečni odstotek napačno dekodiranih besed v stavkih (angl. word error rate, WER) na podlagi meritev ECoG »najboljšega« udeleženca je znašal 3 %, pri ostalih treh udeležencih pa se giblje med 10 in 20%. Kot izpostavljajo avtorji, je dosedanja najuspešnejša študija 13 poročala o 60-odstotni WER. Sprejemljive vrednosti WER v tehnoloških aplikacijah znašajo 20–25%, človeška uspešnost pa navadno niha okoli 5%. Kaj točno je torej novost, ki omogoča takšen skok v točnosti, resda na omejenem številu udeležencev in z uporabo preprostega besedila?

Težko je izpostaviti sen sam dejavnik. Na uspešnost dekodirnih modelov namreč vplivajo, med drugim, kvaliteta in količina podatkov za učenje algoritmov, optimalna izbira začetnih vrednosti parametrov algoritma in kompleksnost ciljnega besedila. Čeprav je njihov dekodirni model kompleksen in vključuje več komponent, so Makin in sodelavci pokazali, da so nevronske mreže ključne. Ko namreč dekodiranje ponovijo s predhodno uporabljenimi algoritmi, ki delujejo na osnovi fonetičnih značilnosti govora – ne pa celih besed in stavkov – WER poskoči na približno 33%. Pomembni so tudi drugi deli dekodirne verige. WER se denimo poslabša, če pred dekodiranjem omejijo količino podatkov ECoG (tj. uporabijo manj elektrod), če predhodno ne obdelajo signalov ali če dekodirnik nima informacije o akustičnih značilnostih prebranega stavka (tj. kot dodatne informacije, poleg besed).

Pri pristopu, ki so ga ubrali Makin in sodelavci, ne gre zgolj za analogijo z prevajanjem 14. Uporabili so namreč nevronske mreže s povratno zanko (angl. recurrent neural networks, RNNs) – algoritme strojnega učenja, ki so izredno uspešni pri procesiranju sekvenčnih podatkov, kot so tekstovna besedila. RNN dandanes poganjajo večino strojnih prevajalnikov in jezikovnih tehnologij 14. V študiji so uporabili dvodelno »kodirno-dekodirno« RNN (angl. encoder-decoder RNN) 15. Če poenostavimo sicer kompleksno analizo, kodirna RNN najprej zajame predhodno obdelan in s stavkom povezan) ECoG-signal in ga pretvori v vmesno obliko, imenovano »skrito stanje«. To je niz številčnih vrednosti, ki predstavlja aktivacije vseh procesnih enot oz. »nevronov« v mreži. Druga, dekodirna RNN pa je nato optimizirana tako, da na podlagi danega skritega stanja kodirne RNN in predhodne besede v stavku napove naslednjo besedo v stavku s čim manj napakami. Dekodirna RNN tako procesira vse besede, dokler ne doseže simbola za konec stavka. Rekonstruiran stavek se nato primerja z dejanskim stavkom. Med optimizacijo oz. učenjem se postopek ponavlja in nastavlja povezave med »nevroni« v mreži, dokler WER ni minimalna.

Pomembna novost takšnega pristopa je – poleg spodbudne končne uspešnosti – da raziskovalcu za učenje dekodirnika ni potrebno vnaprej pripraviti natančnega opisa (npr. fonetičnega, skladenjskega, pomenskega ipd.) jezikovnih dražljajev (npr. 13), ta del je namreč prepuščen kodirni RNN. Raziskovalec mora v tem primeru zgolj določiti ciljno nalogo (razvrščanje besed v stavke) in izbrati ustrezne parametre algoritma, ki je uporabljen za učenje RNN. Če dekodirna RNN uspešno rekonstruira besedilo, to med drugim pomeni, da je kodirna RNN v meritvah ECoG razbrala vzorce aktivnosti, ki jih nato dekodirna RNN lahko uporabi za razvrščanje besed. Pomembno pa je izpostaviti tudi t. i. učenje s prenosom (angl. transfer learning). Omenili smo že, da je zbiranje podatkov pri ECoG zaradi klinične narave omejeno. Makin in sodelavci pokažejo, da je mogoče dekodirnik pri udeležencih z malo podatki izboljšati s t. i. »predučenjem« (angl. pretraining). Dekodirnik se sprva nauči razvrščati na podlagi enega udeleženca, za katerega je na voljo več podatkov, nato pa je naučeni dekodirnik moč prenesti in uporabiti na (omejenih) podatkih ciljnega udeleženca, s čimer ga dodatno prilagodi. Izkaže se, da so Makin in sodelavci na ta način WER pri udeležencu z malo podatki v povprečju znižali za 17 %, pri drugem pa prenos ni deloval.

Izpostaviti velja, da so v študiji dekodirali besedila udeležencev z delujočim govornim aparatom, ki besedilo lahko preberejo na glas. Toda zakaj bi morali besedilo rekonstruirati na podlagi možganskega signala, ko pa je na voljo zvočni zapis dejansko izgovorjenega besedila? Študija predstavlja zgolj prve korake. Prava vrednost dekodirnika na podlagi ECoG bo, ko bo moč v realnem času dekodirati zamišljeni govor, tj. jezikovna sporočila, ki pa jih ne izgovorimo 10. Ena od možnih aplikacij je na bolnikih s t. i. sindromom popolne zaklenjenosti (angl. complete locked-in syndrome), ki izgubijo vsakršno zmožnost motoričnega odziva. V nekaterih raziskavah so pri rekonstrukciji fonetičnih značilnosti zamišljenega govora že dosegli določen uspeh 16. Ko bo rekonstrukcija zamišljenega govora mogoča, se dalje postavlja vprašanje hitrosti: lahko opisani dekodirnik deluje dovolj hitro za potrebe vsakdanjega življenja? Avtorji resda omenijo, da »dekodirnik deluje skoraj v realnem času«, a natančnejših meritev ne ponudijo. Do prave praktične vrednosti dekodirnika ECoG na osnovi nevronskih mrež, bo torej – kot že tolikokrat v znanosti in tehnologiji – treba še počakati.

Slika 1
Slika 1: Merjenje s subduralnimi elektrodami imenujemo elektrokortikografija (angl. electrocorticography, ECoG). ECoG se izvaja kot del predoperativnih postopkov, na primer za določitev anatomskega žarišča epileptične aktivnosti pred resekcijo 2,4. ECoG-elektrode so najpogosteje razvrščene v mrežo. Specifike, denimo število elektrod in njihova postavitev, pa so odvisne od potreb pri posamičnem kliničnem primeru 4. Vir: Blausen.com staff (2014). “Medical gallery of Blausen Medical 2014”. WikiJournal of Medicine 1 (2). DOI:10.15347/wjm/2014.010. ISSN 2002-4436 (prevod oznak K.A.).
    ___
  1. F. Lopes da Silva, „EEG and MEG: Relevance to neuroscience“, Neuron, let. 80, št. 5, str. 1112–1128, dec. 2013, doi: 10.1016/j.neuron.2013.10.017. 

  2. J. Parvizi in S. Kastner, „Promises and limitations of human intracranial electroencephalography“, Nature Neuroscience, let. 21, št. 4, str. 474–483, apr. 2018, doi: 10.1038/s41593-018-0108-2. 

  3. R. P. Lesser, N. E. Crone, in W. R. S. Webber, „Subdural electrodes“, Clinical Neurophysiology, let. 121, št. 9, str. 1376–1392, sep. 2010, doi: 10.1016/j.clinph.2010.04.037. 

  4. C. R. Holdgraf, J. W. Rieger, C. Micheli, S. Martin, R. T. Knight, in F. E. Theunissen, „Encoding and decoding models in cognitive electrophysiology“, Frontiers in Systems Neuroscience, let. 11, sep. 2017, doi: 10.3389/fnsys.2017.00061. 

  5. N. Kriegeskorte in P. K. Douglas, „Interpreting encoding and decoding models“, Current Opinion in Neurobiology, let. 55, str. 167–179, apr. 2019, doi: 10.1016/j.conb.2019.04.002. 

  6. M. van Gerven idr., „The brain–computer interface cycle“, Journal of Neural Engineering, let. 6, št. 4, str. 041001, avg. 2009, doi: 10.1088/1741-2560/6/4/041001. 

  7. M. A. Lebedev in M. A. L. Nicolelis, „Brain–machine interfaces: past, present and future“, Trends in Neurosciences, let. 29, št. 9, str. 536–546, sep. 2006, doi: 10.1016/j.tins.2006.07.004. 

  8. V. Logar in A. Belič, „A possible use of EEG signals in a brain-computer interface“, Slovenian Medical Journal, let. 80, št. 2, Art. št. 2, feb. 2011, Pridobljeno: jun. 18, 2020. [Na spletu]. Dostopno na: https://vestnik.szd.si/index.php/ZdravVest/article/view/111. 

  9. M. M. Shanechi, „Brain–machine interfaces from motor to mood“, Nature Neuroscience, let. 22, št. 10, str. 1554–1564, okt. 2019, doi: 10.1038/s41593-019-0488-y. 

  10. M. J. Vansteensel in B. Jarosiewicz, „Brain-computer interfaces for communication“, v Handbook of Clinical Neurology, let. 168, Elsevier, 2020, str. 67–85. 

  11. T. M. Vaughan, „Brain-computer interfaces for people with amyotrophic lateral sclerosis“, v Handbook of Clinical Neurology, let. 168, Elsevier, 2020, str. 33–38. 

  12. J. G. Makin, D. A. Moses, in E. F. Chang, „Machine translation of cortical activity to text with an encoder–decoder framework“, Nature Neuroscience, let. 23, št. 4, str. 575–582, apr. 2020, doi: 10.1038/s41593-020-0608-8. 

  13. C. Herff idr., „Brain-to-text: decoding spoken phrases from phone representations in the brain“, Frontiers in Neuroscience, let. 9, jun. 2015, doi: 10.3389/fnins.2015.00217. 

  14. G. B. Cogan, „Translating the brain“, Nature Neuroscience, let. 23, št. 4, str. 471–472, apr. 2020, doi: 10.1038/s41593-020-0616-8. 

  15. A. Graves, „Generating sequences with recurrent neural networks“, arXiv:1308.0850 [cs], jun. 2014, Pridobljeno: mar. 26, 2020. [Na spletu]. Dostopno na: http://arxiv.org/abs/1308.0850. 

  16. I. Sutskever, O. Vinyals, in Q. V. Le, „Sequence to sequence learning with neural networks“, v Proceedings of the 27th International Conference on Neural Information Processing Systems - Volume 2, 2014, str. 3104–3112, [Na spletu]. Dostopno na: http://dl.acm.org/citation.cfm?id=2969033.2969173. 

Kristijan Armeni, MSc in cognitive neuroscience,
doktorski raziskovalec na Inštitutu F.C. Dondersa za možgane, kognicijo in vedênje,
Nizozemska

Prejeto: 28.5.2020
Objavljeno: 14.7.2020