Mèdia 16/01/2022

La memòria d’internet

La Wayback Machine conserva per a la posteritat una còpia de centenars de milions de pàgines web en previsió de la seva desaparició

5 min
Servidors de l'Internet Archive

BarcelonaEl 1995, tres anys abans que Google entrés en servei, vaig posar en marxa a Flash FM (encara no es deia Flaix) un dels primers espais setmanals dedicats a la tecnologia en una emissora catalana de ràdio generalista, i el primer a disposar d’una pàgina web actualitzada puntualment amb enllaços que recollien, complementaven i ampliaven el contingut emès per antena. No hi havia àudio a la carta –ni de bon tros en directe, amb l’incipient format RealAudio– perquè la velocitat de les connexions i el cost de l’amplada de banda de l’època ho feien inviable, però aquelles modestes pàgines web fetes a mà haurien servit ara com a crònica de la popularització d’internet... si encara fos possible consultar-les. Però no és així: van desaparèixer de la xarxa quan l’empresa d’internet que ens cedia l’espai web sota una carpeta del seu domini principal va plegar.

El 2003, tres anys abans que Facebook obrís al públic i set anys abans que ho fes Instagram, vaig engegar un blog fotogràfic que documentava els comportaments incívics al meu poble: cotxes aparcats sobre la vorera, deixalles fora del contenidor, mobiliari urbà maltractat... Per comoditat i per la immediatesa del format, basat en una imatge amb un comentari breu, el vaig penjar a TextAmerica, una de les primeres plataformes de moblogs, o blogs publicats des de telèfons mòbils. L’experiment va tenir certa repercussió, i alguna revista internacional el va arribar a ressenyar com una de les primeres experiències de periodisme ciutadà fet amb mòbil. Com ja deveu suposar, aquell fotoblog també s’ha esfumat: TextAmerica va tancar i es va emportar amb ella tot el contingut dels usuaris.

Són només dues anècdotes personals que em van bé per desmentir la percepció freqüent que a internet ho trobes tot. En realitat no és així: hi trobes allò que està disponible en cada moment, però l’accés al contingut digital és terriblement efímer. Algunes estimacions indiquen que la mitjana de disponibilitat d’una pàgina web no supera els 100 dies. Més enllà, és molt probable que l’enllaç web que teníeu us porti a un error 404 (pàgina no trobada).

Un projecte monumental de preservació

Contra aquest fenomen lluita la Wayback Machine, un servei que conté 648.000 milions de pàgines web, arxivades mitjançant visites periòdiques des de l’any 2005. Al seu repositori trobareu còpies del contingut de milions de webs, tant d'actives –s’hi pot resseguir, per exemple, com ha anat canviant amb el temps l’aspecte d’una pàgina corporativa o d’un diari digital– com de desaparegudes: hi he pogut recuperar algunes edicions del meu vell programa de ràdio i moltes de les meves imatges comentades de denúncia ciutadana.

La Wayback Machine és només un dels serveis que ofereix l’Internet Archive, sens dubte, i al costat de la Wikipedia, un dels projectes més monumentals de preservació i lliure accés a la informació per mitjans digitals. L’Internet Archive és un invent de l’informàtic Brewster Kahle (Nova York, 1960), que després de participar en el desenvolupament de la Connection Machine, un dels primers supercomputadors comercials, va crear el sistema WAIS de cerca i recuperació de documents per internet, precursor de la WWW. Posteriorment, també va fundar l’empresa Alexa Internet de catalogació i classificació de llocs web. Amb els diners que va obtenir venent el WAIS a AOL i Alexa a Amazon, Kahle va crear l’any 1996 l’Internet Archive, una biblioteca digital amb l’ambició declarada d’oferir accés públic i de franc a tot el coneixement disponible.

A més del repositori històric de pàgines web consultable amb la Wayback Machine, que cada dia en captura 750 milions més, a l’Internet Archive hi ha 34 milions de llibres, revistes i altres documents; 7,5 milions de vídeos; 14 milions de documents sonors, inclosos 200.000 discos de 78 rpm i 220.000 concerts de música en directe; 2,3 milions d’informatius de TV, que es poden buscar pel text dels subtítols; 4 milions d’imatges, moltes d’elles històriques i tot l’arxiu de la NASA, i 800.000 títols de software. En aquest últim capítol hi ha versions antigues de productes comercials com els sistemes operatius de Microsoft, però també més de 15.000 videojocs clàssics per a PC, que en alguns casos es poden descarregar si es disposa d’un ordinador de la mateixa època, però en d’altres resulta més pràctic jugar-hi amb el navegador web gràcies a l’emulador que ofereix el mateix Archive. Per exemple, cal fer-ho per accedir a les aplicacions creades en llenguatge Flash, ja retirat per Adobe.

Digitalitzar llibres en paper

Una de les tasques principals de l’Internet Archive és la ingesta de llibres impresos: cada dia en digitalitzen 3.500 en 30 centres repartits pel món, cosa que ho converteix en un dels projectes d’aquesta mena més importants que hi ha al món. L’Archive manté acords amb gairebé 300 organitzacions, com el que té amb la Wikipedia per evitar els enllaços trencats en els articles de l’enciclopèdia: si la pàgina enllaçada no existeix, s’ofereix la còpia arxivada a la Wayback Machine. Aquest sistema també es pot afegir en forma d’extensió a molts navegadors web; Brave, el meu navegador habitual, fins i tot porta aquesta funció incorporada de sèrie.

Moment de digitalització d'un llibre a l'Internet Archive.

Com és de suposar, la funció de preservació de l’Internet Archive ha provocat conflictes de propietat intel·lectual al llarg de la seva història. Tot i que té categoria oficial de biblioteca pública –durant la pandèmia es va disparar l’ús del servei de préstec de llibres, en les mateixes condicions que qualsevol altra biblioteca–, són freqüents les reclamacions de retirada de determinat contingut. Per exemple, quan John Perry Barlow, promotor de l’Electronic Frontier Foundation i exlletrista del grup de rock Grateful Dead, va facilitar la càrrega a l’Archive de milers d’hores de concerts en directe del seu antic grup, altres exmembres van exigir que els àudios fossin eliminats. Finalment es va arribar a un acord i ara només hi ha els enregistraments fets pel públic dels concerts, però no els captats directament del mesclador de so. En canvi, hi ha artistes més generosos: el fill del cantautor Warren Zevon va cedir a l’Archive tota la producció sonora del seu pare.

Els conflictes, esclar, són menys habituals com més antics són els documents originals. A l’Archive hi ha còpies de publicacions a partir del segle XVIII, procedents de biblioteques que li han encomanat la preservació digital. La seu de l’Internet Archive es troba actualment en una antiga església de San Francisco, on hi ha la infraestructura principal d’emmagatzematge i processament. Aquesta es complementa amb una rèplica parcial als Països Baixos i una altra de completa al Canadà, la qual Kahle es va afanyar a activar poc abans que Donald Trump assumís la presidència dels EUA.

stats