27/12/2019

Un ordinador ja guanya els humans en jocs d’estratègia

4 min
Un ordinador ja guanya els humans en jocs d’estratègia

La intel·ligència artificial ha passat, en poc temps, de ser terreny de la ciència-ficció a aparèixer pràcticament en qualsevol racó de la nostra vida. La idea és aconseguir que un ordinador raoni i prengui decisions d’una manera similar a com ho fem els humans. Un dels impactes d’aquesta tecnologia a curt termini podrien ser els cotxes sense conductor, que en les primeres proves sembla que estan funcionant bé.

Però perquè tot això sigui possible, cal que els científics aconsegueixin dissenyar un programari que pugui processar un munt d’informació complexa en mil·lisegons per prendre les decisions més encertades en cada situació. Un dels exercicis que se li fa fer a una computadora per comprovar les seves capacitats de “pensar” és jugar contra persones. Tot i que pot semblar trivial, els jocs requereixen una combinació de càlcul, anticipació i instint difícil de programar i que, en canvi, a nosaltres ens surt naturalment. Els jocs són, doncs, un bon test per calibrar els programes d’intel·ligència artificial.

Ja fa temps que les computadores han superat els humans en alguns jocs clàssics. Un dels primers reptes va ser ensenyar a una màquina a jugar a escacs. Es va començar per aquí perquè és relativament senzill: els escacs es basen en unes probabilitats limitades (tot i que nombroses) que deriven d’una informació que els dos jugadors poden veure sobre el tauler. Precisament, les computadores són molt millors que nosaltres a l’hora de processar grans quantitats de dades. Per això no és estrany que el 1997 un ordinador anomenat Deep Blue guanyés Garri Kaspàrov, que llavors era el campió del món. Una altra fita es va assolir el 2016, quan l’ordinador AlphaGo va guanyar Lee Sedol, el campió del món de go, un joc xinès d’estratègia. Però això seguia entrant dins la mateixa categoria d’activitats que es basen sobretot en escollir la millor de les moltes alternatives possibles, amb poc marge per a la creativitat o la intuïció.

El pòquer va ser un pas endavant respecte als escacs i el go perquè requereix sort, experiència i saber llegir els adversaris per predir quan ens estan enganyant, una habilitat que es considerava molt humana. A més, una part de la informació està amagada (no es veuen les cartes de l’adversari). Les apostes del pòquer són l’equivalent a la mena de decisions que es prenen sovint en la vida real, en què s’han de tenir en compte molts factors, no es tenen totes les dades i hi ha més d’una estratègia guanyadora. Per això molts experts creien que una màquina no ho podria fer mai bé.

Ordinadors estrategs

Els experts també s’equivoquen. Fa uns anys, un ordinador va guanyar un humà en una partida de Texas Hold’em, la versió més popular del pòquer. Però amb un sol contrincant les opcions encara eren força limitades. Una versió millorada d’aquell programa, de nom Pluribus, va derrotar el setembre passat sis persones, totes professionals del pòquer d’elit. Aquesta va ser la primera vegada que una màquina guanyava en un joc en què tenia més d’un adversari. Passar d’un a sis contrincants és un canvi molt important per a un programa, perquè ha de processar moltes més variables. Pluribus va aprendre a jugar fent bilions de partides contra ell mateix i seleccionant les estratègies que donaven més bon resultat. Ho va fer amb només dos processadors, mentre que l’ordinador que va guanyar al go en feia servir dos mil.

Però totes aquestes fites queden empetitides al costat dels resultats d’AlphaStar, el projecte de l’empresa d’intel·ligència artificial de Google, DeepMind, codirigit pel matemàtic català Oriol Vinyals, en un campionat de StarCraft II que es va jugar l’estiu passat. StarCraft II és un videojoc de ciència-ficció en línia en què tres races alienígenes lluiten entre elles. L’estratègia i la rapidesa a l’hora de prendre decisions hi és essencial, i és impossible predir els moviments de l’enemic. Per això els científics el van escollir com el següent repte, ja que requeria triar més de 300 accions cada minut entre les 1.026 opcions possibles.

Tal com s’explica en un estudi publicat recentment a la revista Nature, AlphaStar va quedar qualificat entre els 0,15% millors jugadors dels 90.000 que hi ha a la regió europea, on va competir. Va fer més punts que pràcticament tothom i va guanyar 61 de les 90 partides que va jugar contra els més ben classificats. Ho va aconseguir gràcies al que s’anomena una xarxa neural artificial, que li permet aprendre sol, com ho fem els humans, en lloc de seguir només instruccions, com solen fer els ordinadors. A més, li van limitar la velocitat de reflexos perquè no tingués un avantatge pel sol fet de poder clicar més ràpid, sinó que guanyés realment perquè la seva estratègia era millor.

A diferència del que va passar en els escacs o el go, AlphaStar no ha pogut guanyar contra el millor jugador del món. DeepMind considera que el que ha aconseguit ja és prou espectacular, però altres creuen que encara li queda molt per aprendre. Sigui com sigui, està clar que els ordinadors cada cop s’acosten més a reproduir el raonament humà, si més no en certes situacions.

stats