DeepMind ja és capaç de guanyar-nos també en els jocs multijugador

Els escacs i el go van ser un joc de nens. Ara la intel·ligència artificial ja ens guanya jugant a capturar la bandera. Podran les seves capacitats fer el salt al món real?

El famós joc de capturar la bandera és una activitat a la qual juga tant la canalla als espais oberts d’una casa de colònies com els professionals dels videojocs a través de títols famosos com Quake III i Overwatch. En tots dos casos, es tracta d’un joc d’equip. Cada equip custodia una bandera mentre trama com aconseguir la de l’adversari i portar-la a la seva pròpia base. Per guanyar, cal recórrer al treball en equip de tota la vida i assolir un equilibri coordinat entre la defensa i l’atac.

Altrament dit, el joc de capturar la bandera exigeix un conjunt d’aptituds que semblen d’allò més humanes. Tot i això, els investigadors d’un laboratori d’intel·ligència artificial de Londres han demostrat que les màquines també són capaces de dominar aquest joc, almenys al món virtual. En un article publicat el 30 de maig a la revista Science (i disponible anteriorment al lloc web arXiv.org abans de la revisió d’experts), els investigadors informen que han dissenyat “agents” automàtics que presenten un comportament equiparable a l’humà en partides disputades en el mode de joc “capturar la bandera” del conegut videojoc Quake III.

Agents automàtics que col·laboren

Aquests agents són capaços d’actuar en equip en enfrontaments contra jugadors humans, però també de col·laborar-hi al si d’un mateix equip, ajustant el seu comportament al que demani la situació. “Es poden adaptar a companys d’equip amb capacitats arbitràries”, explica Wojciech Czarnecki, que treballa com a investigador a DeepMind, un laboratori que és propietat de la mateixa empresa matriu que Google.

Durant milers d’hores de partides, els agents han adquirit destreses molt particulars, com per exemple dirigir-se a corre-cuita cap a la base de l’adversari quan un company d’equip està a punt de capturar una bandera; com saben els bons jugadors humans, en el moment en què la bandera rival arriba a la teva base, apareix una nova bandera a la base de l’adversari, que espera a ser capturada com més aviat millor. El projecte de DeepMind s’inscriu en un esforç més ampli per desenvolupar sistemes d’intel·ligència artificial capaços de jugar a videojocs tridimensionals d’una enorme complexitat com ara el Quake III, el Dota 2 o l’ StarCraft II. Molts investigadors creuen que l’èxit al món virtual acabarà traduint-se en sistemes automàtics amb més capacitats al món real.

A tall d’exemple, aquestes capacitats podrien resultar útils als robots de magatzem que treballen en grups per desplaçar mercaderies d’una banda a una altra, o també donar servei als cotxes autònoms a l’hora de moure’s en massa entre un trànsit dens. Greg Brockman, que dirigeix projectes de recerca semblants a OpenAI, un laboratori de San Francisco, explica que “els jocs sempre han estat un referent per a la intel·ligència artificial; si no pots resoldre els jocs, no pots esperar resoldre gaires coses més”.

Un salt recent

Fins fa poc semblava impossible dissenyar un sistema capaç d’igualar els jugadors humans en un joc com el Quake III. Tanmateix, els últims anys, DeepMind, OpenAI i altres laboratoris han fet progressos substancials gràcies a una tècnica matemàtica anomenada aprenentatge per reforç. Aquesta tècnica permet a les màquines aprendre a acomplir tasques portant a l’extrem el mètode d’assaig i error. A base de jugar una vegada i una altra a un joc, l’agent automàtic aprèn quines estratègies condueixen a l’èxit i quines no. Si, de manera sistemàtica, un agent guanya més punts dirigint-se cap a la base rival quan un company d’equip està a punt de capturar-ne la bandera, afegirà aquesta tàctica al seu arsenal de trucs.

El 2016, investigadors de DeepMind van dissenyar, gràcies a la mateixa tècnica bàsica, un sistema capaç d’imposar-se als millors jugadors del món de go, un joc ancestral que es podria considerar la versió oriental dels escacs. Atesa l’enorme complexitat del joc, molts experts creien que aquesta fita no s’assoliria fins un decenni més tard.

Els videojocs en primera persona són exponencialment més complexos, en particular quan exigeixen que diversos integrants d’un equip es coordinin. Els agents autònoms de DeepMind van aprendre a capturar la bandera jugant-hi unes 450.000 partides, en què es concentraven uns quatre anys d’experiència de joc, en tot just unes setmanes d’entrenament. En un principi, els agents fracassaven estrepitosament. Però de mica en mica van anar copsant els matisos del joc, com ara en quins moments convé seguir els companys d’equip quan assalten una base rival.

Màquines estrategues

Des que van enllestir aquest projecte, els investigadors de DeepMind també han dissenyat un sistema capaç de superar la perícia de jugadors professionals de l’ StarCraft II, un joc d’estratègia que està ambientat a l’espai. Els investigadors d’OpenAI, per la seva banda, han desenvolupat un sistema que domina el Dota 2, un joc equiparable a una versió retocada de capturar la bandera. Al mes d’abril, un equip de cinc agents autònoms va aconseguir guanyar un equip de cinc dels millors jugadors humans del món.

L’any passat, William Lee, un jugador professional i comentarista del Dota 2 a qui es coneix com a Blitz, va enfrontar-se a una versió primerenca de la tecnologia capaç de jugar només un contra un, en lloc de com a integrant d’un equip. Lee en va sortir indiferent. Ara bé, els agents van continuar aprenent a jugar i, quan s’hi va enfrontar com a equip, el jugador va quedar impressionat per la seva destresa. “Vaig pensar que la màquina no seria capaç de jugar cinc contra cinc i, per descomptat, tampoc de guanyar. Em va deixar bocabadat”, reconeix.

Malgrat l’impacte que aquesta tecnologia ha tingut entre els jugadors, molts experts en intel·ligència artificial dubten que s’acabi traslladant a la resolució de problemes al món real. En realitat, els agents de DeepMind no col·laboren, afirma Mark Riedl, professor de la Facultat d’Informàtica de l’Institut Tecnològic de Georgia especialista en intel·ligència artificial. Simplement es limiten a respondre al que passa al joc en lloc d’intercanviar missatges els uns amb els altres, tal com fan els jugadors humans (fins i tot les formigues són capaces de col·laborar mitjançant l’intercanvi de senyals químics).

La col·laboració i el salt al món real

Per bé que el resultat tingui l’aparença de col·laboració, els agents l’assoleixen perquè individualment tenen una comprensió molt completa de tot el que està passant al joc. “No vull entrar en el tema de la definició de treball en equip”, comenta Max Jaderberg, un altre investigador de DeepMind que ha treballat en el projecte. “Però un agent es quedarà a la base del rival esperant que aparegui la bandera, la qual cosa només és possible si compta amb el suport dels seus companys d’equip”.

Aquesta mena de jocs ni tan sols s’acosten en complexitat al món real. “Els entorns en 3D estan dissenyats per facilitar-hi l’orientació -explica el Dr. Riedl-. L’estratègia i la coordinació al Quake són força senzilles”. L’aprenentatge per reforç és ideal per a aquest tipus de jocs. En un videojoc, a més, és fàcil identificar l’indicador de l’èxit: tenir més punts (al capturar la bandera, els jugadors obtenen punts en funció de la quantitat de banderes capturades). Tanmateix, al món real, ningú no assigna les puntuacions. Per tant, els investigadors haurien de definir l’èxit d’una manera diferent.

Fer-ho és possible, almenys en relació amb tasques senzilles. Investigadors d’OpenAI han entrenat una mà robòtica perquè manipuli cubs amb les lletres de l’abecedari com ho faria un infant. Si dius a la mà que t’ensenyi la lletra A, t’ensenyarà la lletra A.

En un laboratori de robòtica de Google, els investigadors han demostrat que les màquines poden aprendre a agafar objectes aleatoris, com ara pilotes de tenis taula i plàtans de plàstic, i llençar-los a una paperera situada a uns quants pams de distància. Aquesta mena de tecnologia podria ajudar a seleccionar elements situats en contenidors de magatzems i centres de distribució gegantins regentats per Amazon, FedEx i altres empreses. Avui dia, aquestes tasques encara les assumeixen treballadors humans.

El cost de l’aprenentatge

Per afrontar problemes de més envergadura, laboratoris com DeepMind i OpenAI podrien començar a necessitar una capacitat de computació totalment desorbitada. Quan el sistema d’OpenAI va aprendre a jugar al Dota 2 durant uns quants mesos -més de 45.000 anys de partides-, va acabar necessitant desenes de milers de xips. Obtenir accés a tots aquests xips va costar milions de dòlars al laboratori, explica Brockman.

DeepMind i OpenAI, que està finançada per diversos peixos grossos de Silicon Valley, entre els quals hi ha Khosla Ventures i l’arximilionari de la tecnologia Reid Hoffman, es poden permetre pagar tota aquesta capacitat de computació, però els laboratoris universitaris i altres centres de petites dimensions no ho poden fer, com comenta Devendra Chaplot, investigador en intel·ligència artificial de la Universitat Carnegie Mellon. A alguns experts els amoïna que uns pocs laboratoris amb bon finançament dominin el futur de la intel·ligència artificial.

Això no obstant, és possible que ni tan sols els grans laboratoris disposin de la capacitat necessària per transposar aquestes tècniques a les complexitats del món real, per la qual cosa podrien ser necessàries formes més potents d’intel·ligència artificial que puguin aprendre encara més de pressa. Encara que les màquines ja siguin capaces de guanyar una partida de capturar la bandera en un món virtual, encara no tenen cap opció de victòria en els espais oberts d’una casa de colònies… i, pel que sembla, no en tindran cap en una bona temporada.

Traducció d’Ignasi Vancells

EDICIÓ PAPER 16/11/2019

Consultar aquesta edició en PDF