Societat 13/04/2024

La intel·ligència artificial aprèn què és la vida

Uns models d’IA han fet descobriments sorprenents a partir d’un munt de dades sobre gens i cèl·lules. Què ens podrien ensenyar en el futur?

Carl Zimmer

8 min

Cèl·lules i intel·ligència artificial. Getty images

El 1889 el metge francès Francois-Gilbert Viault va baixar d’una muntanya dels Andes, es va extreure sang del braç i la va analitzar al microscopi. Els glòbuls vermells –que transporten l’oxigen– li havien augmentat un 42%. Acabava de descobrir un misteriós poder del cos humà: quan en necessita més, és capaç de produir aquestes importants cèl·lules a la carta.

A principis del segle XX els científics tenien la teoria que això es devia a una hormona. A aquesta teòrica hormona li van donar el nom d’eritropoetina, o “productora de vermell” en grec. Set dècades més tard uns investigadors van trobar autèntica eritropoetina després de filtrar més de 2.500 litres d’orina.

I, al cap d’uns 50 anys, uns biòlegs israelians han anunciat que han trobat una estranya cèl·lula renal que produeix aquesta hormona quan l’oxigen baixa massa. En diuen cèl·lula Norn per les divinitats nòrdiques que, segons es creia, controlaven el destí dels humans.

Nosaltres hem tardat 134 anys a trobar les cèl·lules Norn. Però l’estiu passat uns ordinadors de Califòrnia les van descobrir pel seu compte en només sis setmanes.

Ordinadors que aprenen biologia

Aquest descobriment va tenir lloc quan uns investigadors de Stanford van programar els ordinadors perquè aprenguessin biologia per si sols. Els ordinadors van executar un programa d’intel·ligència artificial semblant al ChatGPT, el popular bot que domina el llenguatge després d’entrenar-se amb milers de milions de fragments de text procedents d’internet. Però els investigadors de Stanford van introduir als ordinadors dades sense tractar sobre milions de cèl·lules reals i la seva composició química i genètica.

Els científics no van indicar als ordinadors què significaven aquells mesuraments. No els van explicar que a cada tipus de cèl·lules li correspon un perfil bioquímic diferent. No van especificar, per exemple, quines cèl·lules capten la llum dins de l’ull ni quines produeixen anticossos.

Els ordinadors van desentranyar les dades per si sols i van crear un model de totes les cèl·lules basant-se en les seves respectives similituds en un enorme espai multidimensional. Quan les màquines van enllestir la feina, havien après una quantitat de coses sorprenent. Eren capaces de classificar una cèl·lula que no havien vist mai d’entre 1.000 tipus diferents. La cèl·lula Norn n’era una.

Com diu Jure Leskovec, un informàtic de Stanford que ha entrenat els ordinadors: “Crida l’atenció perquè ningú li ha dit mai al model que al ronyó hi ha una cèl·lula Norn”.

Aquest software és un dels nous programes basats en la intel·ligència artificial que es coneixen com a models fundacionals perquè se centren en els fonaments de la biologia. Aquests models no es limiten a endreçar la informació recopilada pels biòlegs, sinó que també fan descobriments sobre el funcionament dels gens i el desenvolupament de les cèl·lules.

Com que els models són cada vegada més grans perquè disposen de més dades de laboratori i potència de càlcul, els científics vaticinen que començaran a fer descobriments de més transcendència. Potser revelaran secrets sobre el càncer i altres malalties. Potser trobaran receptes per convertir un tipus de cèl·lula en un altre.

“Crec que en algun moment veurem un descobriment importantíssim en el camp de la biologia que els biòlegs no haurien trobat per si sols”, afirma Eric Topol, director de l’Scripps Research Translational Institute.

Fins on arribaran aquests models és objecte de debat. Mentre els escèptics pensen que estan destinats a estavellar-se, els més optimistes creuen que abordaran fins i tot el principal interrogant de la biologia: què diferencia la vida del que no és vida?

Cèl·lules cardíaques

Fa temps que els biòlegs volen entendre de quina manera les cèl·lules del nostre cos utilitzen els gens per fer la multitud de coses que ens mantenen vius.

Fa aproximadament una dècada els investigadors van començar a fer experiments a escala industrial per extreure fragments genètics de cèl·lules aïllades. Consignaven els seus descobriments en catàlegs, o “atles cel·lulars”, que anaven creixent amb milers de milions de dades.

Christina Theodoris, metge resident a l’Hospital Infantil de Boston, va llegir un article sobre un nou tipus de model d’IA per a les traduccions lingüístiques creat el 2017 pels enginyers de Google. Els investigadors van introduir en el model milions de frases en anglès, amb les corresponents traduccions a l’alemany i el francès. El model va desenvolupar la capacitat de traduir frases que no havia vist mai. Theodoris es va preguntar si un model semblant podria aprendre per si sol a interpretar les dades dels atles cel·lulars.

El 2021 no aconseguia trobar un laboratori que li deixés provar de construir-ne un. Com ella mateixa diu: “Hi havia molt escepticisme sobre els resultats d’aquesta proposta”.

Shirley Liu, biòloga computacional del Dana-Farber Cancer Institute de Boston, li va donar una oportunitat. Theodoris va extreure dades de 106 estudis publicats per humans, que entre tots incloïen 30 milions de cèl·lules, i les va introduir totes en un programa anomenat Geneformer.

El model va arribar a conèixer en profunditat el comportament dels nostres gens en diferents cèl·lules. Va predir, per exemple, que la desactivació d’un gen anomenat TEAD4 en un determinat tipus de cèl·lula cardíaca la deixaria greument alterada. Quan el seu equip va posar a prova la predicció en unes cèl·lules reals anomenades cardiomiòcits, el batec de les cèl·lules del cor es va debilitar.

En una altra prova, ella i els seus col·legues van mostrar a Geneformer cèl·lules cardíaques de pacients amb ritmes cardíacs defectuosos i també de persones sanes. Com explica Theodoris, que ara treballa a la Universitat de Califòrnia, a San Francisco: “Llavors li vam dir: «Ara digues quins canvis hem d’introduir en les cèl·lules malaltes per curar-les»”.

Geneformer els va recomanar que reduïssin l’activitat de quatre gens que mai havien sigut relacionats amb les malalties cardíaques. L’equip de la doctora Theodoris va seguir els consells del model i va eliminar els quatre gens. En dos dels quatre casos el tractament va millorar la contracció de les cèl·lules.

Una nova cèl·lula?

L’equip de Stanford va entrar en el món dels models fundacionals després d’ajudar a construir CellXGene, una de les principals bases de dades de cèl·lules del planeta. A partir de l’agost els investigadors van començar a entrenar els seus ordinadors amb els 33 milions de cèl·lules de la base de dades, centrant-se en un tipus d’informació genètica anomenada ARN missatger. També van introduir en el model les estructures tridimensionals de les proteïnes, que són el producte dels gens.

A partir d’aquestes dades, el model –conegut com a Integració Cel·lular Universal, o UCE per les seves sigles en anglès– va calcular la similitud entre cèl·lules i les va ajuntar en funció de com utilitzaven els seus gens per formar més de 1.000 grups. Aquests grups corresponien a diferents tipus de cèl·lules descoberts per diverses generacions de biòlegs.

L’UCE també ha après tot sol algunes coses importants sobre el desenvolupament de les cèl·lules a partir d’un sol òvul fecundat. Per exemple, ha descobert que totes les cèl·lules del cos es poden agrupar en funció de quina de les tres capes de l’embrió primerenc procedeixen.

Segons Stephen Quake, un biofísic de Stanford que ha ajudat a desenvolupar l’UCE: “Bàsicament, ha redescobert la biologia del desenvolupament”.

Quan l’UCE va descobrir les cèl·lules Norn, Leskovec i els seus col·legues van consultar la base de dades CellXGene per veure d’on procedien. Tot i que moltes s’havien extret dels ronyons, n’hi havia que procedien dels pulmons o d’altres òrgans. Els investigadors van conjecturar que possiblement hi havia cèl·lules Norn abans desconegudes escampades per tot el cos.

A Katalin Susztak, una metgessa i científica de la Universitat de Pensilvània que estudia les cèl·lules Norn, aquesta descoberta li ha despertat la curiositat: “Vull mirar-me aquestes cèl·lules”.

És escèptica sobre la possibilitat que el model hagi trobat autèntiques cèl·lules Norn fora dels ronyons perquè l’hormona eritropoetina no s’ha trobat enlloc més. Però potser les noves cèl·lules reaccionen com les Norn davant de l’oxigen.

En altres paraules, és possible que l’UCE hagi descobert un nou tipus de cèl·lula abans que els biòlegs.

Un “internet dedicat a les cèl·lules”

Igual que el ChatGPT, els models biològics de vegades s’equivoquen. Kasia Kedzierska –biòloga computacional de la Universitat d’Oxford– i els seus col·legues van sotmetre fa poc el Geneformer i un altre model fundacional, l’scGPT, a una bateria de proves. Van introduir en els models uns atles cel·lulars que no havien vist mai i els van demanar que fessin tasques com ara classificar les cèl·lules per tipus. Els models van obtenir bons resultats en algunes tasques, però en altres casos no se’n van sortir gaire bé en comparació amb programes informàtics més senzills.

Kedzierska diu que té grans esperances dipositades en els models, però que, de moment, “no s’han d’utilitzar de qualsevol manera sense ser ben conscients de les seves limitacions”.

Segons Jure Leskovec, els models milloren a mesura que els científics els van alimentant amb més dades. Però, en comparació amb l’entrenament del ChatGPT a partir de tot internet, la quantitat d’informació dels últims atles cel·lular és més aviat modesta. “M’agradaria tot un internet dedicat a les cèl·lules”, afirma.

Però hi anirem trobant més cèl·lules quan es publiquin en línia atles cel·lulars més grans. I els científics estan recopilant diferents tipus de dades de les cèl·lules d’aquests atles. Hi ha biòlegs que cataloguen les molècules que s’adhereixen als gens o que fotografien les cèl·lules per aclarir la ubicació exacta de les seves proteïnes. Amb tota aquesta informació els models fundacionals podran treure conclusions sobre què fa que les cèl·lules funcionin.

Segons els científics, amb prou dades i potència de càlcul aquests models podrien arribar a crear, amb el temps, la representació matemàtica completa d’una cèl·lula.

Per a Bo Wang, biòleg computacional de la Universitat de Toronto i creador de l’scGPT: “Serà una gran revolució en el camp de la biologia”. Creu que amb aquesta cèl·lula virtual es podria predir el comportament d’una cèl·lula real en qualsevol situació. Els científics podrien executar experiments sencers a l’ordinador en lloc de fer servir plaques de Petri.

Què és la vida

Stephen Quake sospita que els models fundacionals no adquiriran coneixements només sobre els tipus de cèl·lules que viuen actualment al nostre cos, sinó també sobre les que hi podrien viure. Té la teoria que només determinades combinacions de bioquímica són capaces de mantenir viva una cèl·lula. Quake somia amb utilitzar models fundacionals per fer un mapa que mostri l’àmbit de tot el que és possible, més enllà del qual la vida no pot existir: “Crec que aquests models ens ajudaran a conèixer en profunditat la cèl·lula, i això ens donarà una idea de què és en realitat la vida”.

Si disposéssim d’un mapa del que pot i no pot sustentar la vida, els científics potser podrien crear noves cèl·lules que encara no existeixen a la natura. El model fundacional seria així capaç d’inventar-se unes receptes químiques que transformin les cèl·lules normals en unes de noves i extraordinàries. Aquestes noves cèl·lules podrien devorar la placa dels vasos sanguinis o explorar un òrgan malalt per informar sobre el seu estat.

“Sembla tret de la pel·lícula Viatge fantàstic –admet Quake–, però qui sap què ens oferirà el futur”.