Economia 16/03/2019

'Scraping', l’art més sofisticat de ‘tallar i aferrar’

L’expert en noves tecnologies Jorge Morell adverteix que cedir a la temptació d’agafar dades d’una pàgina web de manera indiscriminada i per a usos no autoritzats pot tenir conseqüències legals

Enric Culat

6 min

Internet conviu rodejat d’ingents quantitats de dades que, en un moment o altre, tal vegada siguin d’interès d’algú per a una finalitat econòmica, social o fins i tot política. El web scraping o data scraping consisteix en el procés de recopilar informació d’una web aliena, sigui de manera manual o automatitzada. Implica un conjunt de tècniques i el software necessari per capturar dades de webs amb l’objectiu de ser analitzades posteriorment per a un determinat propòsit: comparació de preus en botigues i restaurants, monitoritzar dades relacionades amb el clima, detectar canvis en pàgines web o simplement la integració de dades en un altre lloc. La majoria de termes i condicions de les plataformes prohibeixen aquesta pràctica i per això agafar dades de manera indiscriminada pot tenir conseqüències legals. Tot i així, hi ha moltes empreses que habitualment capten les dades alienes per realitzar anàlisis de mercat o anàlisis de la competència.

És legal emprar un software per extreure de manera automatitzada dades d’un lloc web simulant la navegació d’un humà? Els experts expliquen que la tecnologia en si mateixa és legal, però cal parar atenció a l’ús personal i comercial de les dades extretes. Scraping suposa la transformació de les dades no estructurades d’una pàgina web, generalment en format HTML, en dades estructurades que poden ser emmagatzemades i analitzades. Cedir a la temptació d’agafar dades d’una pàgina web per a determinats usos no autoritzats pot tenir conseqüències jurídiques i per això convé llegir-se detingudament les condicions legals de cada pàgina web. En la majoria dels casos, emprar aquestes dades no suposarà cap incompliment contractual, però convé assegurar-se’n abans, especialment si es tracta de dades procedents d’una xarxa social i, per descomptat, si aquestes dades són de caire personal.

UNA BASE DE dades, en funció del temps i els esforços que hàgim destinat a construir-la, pot ser jurídicament protegida com una propietat intel·lectual. Una dada personal no implica únicament el nom i la fotografia d’aquesta persona, també ho és la seva geolocalització o una simple indicació respecte del lloc on aquesta persona es va fer una fotografia. ‘Escrapejar’ dades públiques sense autorització pot tenir més conseqüències penals que fer-ho respecte de les dades personals. Des del punt de vista tècnic, copiar dades de manera massiva pot sobrecarregar els equipaments i disparar-ne el consum, especialment si es tracta d’un gran volum de documents.

Dels aspectes legals de les tecnologies de la informació i la comunicació i el data scraping se’n va parlar aquesta setmana a l’espai Emprenbit del Parc Bit en el transcurs de la conferència que sobre aquests temes va pronunciar Jorge Morell, advocat especialitzat en noves tecnologies i gerent de l’empresa mallorquina Términos y Condiciones. L’activitat formà part del programa ‘Parc Bit Inspira’, que inclou diferents jornades i tallers perquè les empreses i els professionals de les Balears puguin donar a conèixer les seves ‘habilitats’ tecnològiques a la comunitat empresarial, a altres professionals i despertar vocacions tecnològiques.

Generalment, una empresa turística coneix les nostres dades més bàsiques: el nom, el correu electrònic i la nostra edat. Però aquesta empresa podria decidir pel seu compte, sense el nostre consentiment, fer scraping del nom o de l’email per tractar de trobar-nos a les xarxes socials i així poder associar més informació per obtenir un perfil molt més definit, se suposa que amb una finalitat comercial. “Poc o molt, totes les empreses dedicades al Big Data en el camp del turisme fan scraping -explicà Morell- i una dada personal es pot aconseguir de moltes maneres, no cal anar a Twitter o a Facebook per extreure-la allà expressament”. Tot i així, aquest expert indicà que algunes tècniques d’ scraping permeten a les empreses “complementar” la informació que capten per una via ‘normal’ amb la informació trobada en els perfils socials. “Això suposa entrar en un terreny legal complex que preocupa les agències de protecció de dades -afegí sobre aquest punt-, ja que implica recórrer a fonts externes de tercers per complementar les dades que sobre nosaltres tenen les empreses”.

En aquest sentit, Morell recordà el cas de l’empresa IBM, que s’ha dedicat a ‘escrapejar’ quasi un milió de fotografies de la web de Flickr només per ‘entrenar’ el seu sistema de reconeixement facial. El problema és que la multinacional ho ha fet sense demanar permís a ningú, segons va publicar dimarts la cadena NBC. “En realitat, IBM no va fer res que no facin altres empreses, que obtenen dades de diversos racons d’internet per alimentar els algoritmes d’aprenentatge automàtic, que sempre requereixen molta informació només per poder ‘entrenar’ una gran quantitat de dades”, argumentà Morell. Pel que fa a aquesta qüestió, aquest expert es demana si el que ha fet IBM no ho han estat fent també Facebook o Instagram. Les fotos obtingudes a les xarxes socials són una font habitual de configuració de bases de dades d’imatges, i els hashtags faciliten enormement la generació de dades etiquetades. “Fa deu anys, la gent no es feia fotos a tothora com passa ara; poder dir a un software que aquesta és la mateixa persona però que han transcorregut deu anys representa molta informació de qualitat per a determinades empreses”, suggerí Morell.

El gerent de Términos y Condiciones insistí que agafar dades per a un ús personal o no comercial no genera especials problemes, malgrat que s’han d’estudiar tots els casos concrets i les possibles conseqüències generades respecte de la persona a la qual això li hagi pogut suposar un perjudici. Quan les dades són comercials, en canvi, convé posar molta atenció en els termes legals de cada pàgina web. Crear un bot o programa informàtic automàtic “no equival, de facto, al dret d’admissió digital”, puntualitzà Morell. De quina manera el sistema es pot protegir i convertir un scraping en vulneració? El conferenciant explicà que només hi ha dues opcions: adoptant les mesures tecnològiques apropiades per impedir-ho, és a dir, xifrant les dades; o, si no, exigint l’acceptació d’unes condicions legals per poder accedir a un lloc web o unes dades.

Davant una suposada vulneració del dret de la propietat intel·lectual, caldrà veure el caràcter “substancial” o no de la utilització de les dades ‘escrapejades’. Morell opina que la consideració de propietat intel·lectual d’una pàgina web pot ser discutible. En tot cas, dependrà dels drets d’autor dels continguts, dels drets sui generis sobre les bases de dades i de si aquestes dades es fonamenten en fotografies, vídeos o textos. A la conferència, l’expert va posar diversos exemples de casos d’‘scraping’ que han creat jurisprudència, com el de les empreses Ryanair, Football Dataco i Yahoo UK.

L’empresa Términos y Condiciones va néixer com un blog sobre temes jurídics i digitals que el 2014 va guanyar el premi Derecho en Red al millor blog en dret jurídic a escala estatal. Des de llavors, la seva difusió ha anat a més, tant a Espanya com a l’estranger, especialment en els països llatinoamericans. L’abril de 2016 es va convertir en una start-up prestadora de serveis legals, especialitzada en noves tecnologies i cultura digital. La tasca que desenvolupa Términos y Condiciones és molt innovadora, ja que no es limita només al vessant comercial de captació de clients -principalment desenvolupadors i empreses especialitzades en el disseny de webs i softwares-, sinó que també es preocupa de reciclar-se constantment en el coneixement de noves tecnologies i conèixer l’ecosistema tecnològic de les Balears i les novetats legals vinculades a la tecnologia, tant de les Illes com de fora. Términos y Condiciones ha desenvolupat un departament d’R+D per estudiar tecnologies innovadores que s’anomena Legal Techies, una línia per fer consultoria per a despatxos d’advocats i departaments jurídics, sempre amb matèria de tecnologia legal.

EL PROGRAMA ‘PARC Bit Inspira’ continuarà el proper 10 d’abril amb un taller de l’empresa Wireless DNA sobre visualització de dades. El 26 d’abril se celebrarà el Dia del llibre al Parc Bit amb activitats encaminades a despertar vocacions tecnològiques i un club de lectura d’un llibre que tractarà sobre l’impacte tecnològic. Al llarg del mes de maig, el Centre Bit Menorca acollirà una jornada sobre intel·ligència artificial amb la participació de les empreses Mabrian, Damavis, SAS, APSL i IBM. Finalment, el 17 de maig, Dia d’internet, tant al Parc Bit de Mallorca com al Centre Bit Menorca s’organitzarà un speeddating amb l’objectiu que els estudiants de 4t d’ESO i primer de Batxillerat entrin en contacte amb professionals de la programació de diferents empreses.