Cyberlaw

 

Excepția “text and data mining” sau inteligență artificială pe pâine

Pe lângă filtrul de upload și drepturile acordate publisher-ilor, Reforma Copyright la nivel european elaborează o nouă excepție denumită text and data mining, obligatoriu de implementat la nivelul statelor membre și considerată a acoperi un necesar în industria de cercetare.

În urma modernizării cadrului de excepții și limitări, cercetătorii vor beneficia de un spațiu juridic mai clar pentru utilizarea unor instrumente inovatoare de extragere a textului și a datelor în scopuri de cercetare.

art.3 “Statele membre prevăd o excepție de la drepturile prevăzute la articolul 2 din Directiva 2001/29/CE, la articolul 5 litera (a) și articolul 7 alineatul (1) din Directiva 96/9/CE și la articolul 11 alineatul (1) din prezenta directivă pentru reproducerile și extragerile efectuate de organismele de cercetare pentru a realiza extragerea textului și a datelor din opere sau alte obiecte la care au acces legal în scopuri de cercetare științifică.”

“Member States shall provide for an exception to the rights provided for in Article 2 of Directive 2001/29/EC, Articles 5(a) and 7(1) of Directive 96/9/EC and Article 11(1) of this Directive for reproductions and extractions made by research organisations in order to carry out text and data mining of works or other subjectmatter to which they have lawful access for the purposes of scientific research.”

Am redat inclusiv varianta în engleză a art.3 alin.(1) din DSM, pentru a observa că, spre diferență de traducerea românească, textul directivei vorbește, într-adevăr, de extragere, dar doar ca o componentă a activității specifice de text and data mining. Atât extragerea cât și reproducerea vor fi permise în contextul realizării text and data mining-ului.

Ce înseamnă de fapt text and data mining? Varianta în română, care amintește exclusiv de extragerea textului și a datelor sună destul de nepotrivit, un cunoscător al legii copyright făcând, cel mai probabil, conexiune cu multele dintre dispozițiile care permit folosirea unor extrase sau scurte fragmente din opere fără autorizarea autorului/titularului de drept. DAcă ne limităm la această variantă a art.3 din DSM, cu siguranță vom pierde din vedere multe dintre efectele acestui articol, neînțelegând că “mining”-ul nu înseamnă o simplă extragere ci un proces mult mai laborios, mai aproape de analiză și statistică decât de preluarea/extragerea efectivă. 

Fără a se identifica în expres ca definiție a sintagmei “text and data mining”, recitalul 8 din propunerea de directivă, face trimitere la „analiza numerică automatizată a informațiilor în formă digitală, cum ar fi texte, sunete, imagini sau alte date” și doar având în vedere inclusiv acest paragraf putem încerca o interpretare cât mai aproape de ceea ce a dorit legiuitorul prin redactarea art.3.

Când am citit despre excepția extragerii textului și a datelor, recunosc că am fost atrasă, în primul rând, de fraza în sine “text and data mining”, mult prea tehnică și total nerelevantă în contextul unor simple extrageri de text. Nu înțelegem de ce justificarea elaborării unei astfel de norme se făcea întotdeauna cu trimitere la excepțiile deja existente în legislația copyright care, într-adevăr neunitar, puteau confirma totuși existența unui drept de utilizare a extraselor și a scurtelor fragemente de text. Fără a mai vorbi de domeniul cercetării științifice care deja beneficia de dispoziții destul de permisive, nelimitate la preluări de scurte fragmente.

Am găsit câteva argumente în expunerea de motive a propunerii de directivă, dar nici unul nu explica în clar că text and data mining reprezintă o tehnică avansată de analiză computerizată, atât de avansată cât poate permite știința la un anumit moment, prin care sunt căutate și verificate/ procesate date de tip text, imagine, video, din orice fel de colecții, inclusiv din întregul World Wide Web, pentru a răspunde anumitor cerințe multiple de tipul categorisire, identificare, chiar profiling, etc.

„Data mining-ul” este procesul de calcul al descoperirii pattern-urilor în cantități mari de informații, prin metode aflate la intersecția dintre learning machine, statistici și sistemele de baze de date. Scopul general al procesului de extragere a datelor este de a extrage informații dintr-un set de date și de a le transforma într-o structură inteligibilă pentru o utilizare ulterioară. Pe de altă parte, „text mining”, denumită într-adevăr și “extragerea de date text”, aproximativ echivalentă cu analiza textului, este procesul de obținere a informațiilor de înaltă calitate din date de tip text. Extragerea de date text implică, de obicei, procesul de structurare a modelelor de derivare a textului de intrare în cadrul datelor structurate și, în final, evaluarea și interpretarea rezultatelor. “Înaltă calitate” în acest context se referă, de obicei, la o combinație de relevanță, noutate și interes. Printre sarcinile tipice de exploatare a textului se numără clasificarea textului, clusteringul, extracția conceptului /entității, rezumarea documentelor și modelarea relațiilor dintre entități (adică relațiile de învățare între entități numite).

Toate astea sunt culese rapid de pe wiki. Probabil sunt mulți cei pentru care toate explicațiile de mai sus nu înseamnă mare lucru și sincer, nici eu nu sunt familiară cu întreaga terminologie, dar când aud de learning machine și/sau text analytics nu pot să nu mă gândesc la AI (artificial intelligence). Există diferențe, într-adevăr, între „data mining”, “artificial intelligence”, and “machine learning” dar nimeni nu poate contesta că, de obicei, aceastea play together.

Să fie așadar excepția “data and text mining” nimic altceva decât prima reglementare a utilizării inteligenței artificiale în context copyright? 

Aș încerca și o interpretare: art.3 din DSM va permite cercetătorilor să acceseze mari cantități de date, protejate sau nu de drepturile de autor (precum texte, date, sunete, imagini) în cadrul unei procesări automatizate, realizate în scopul extragerii, interpretării, analizei.  SCopul cercetării sau al analizei nu este limitat. Cu luarea în considerare a art.7(1) din Directiva 96/9, față de care art.3 din DSM funcționează ca excepție, procesarea automatizată a datelor va fi integrală întrucât cercetătorii vor avea dreptul de a reproduce și a extrage chiar și întreg conținutul unei baze de date dacă această extragere va fi necesară procesului de text and data mining. Toate acestea cu singura condiție a existenței unui acces legal acordat acestor organisme în scop exclusiv de cercetare. Dar ce înseamnă acces legal? Cu siguranță intenția legiuitorului a fost de a limita posibilitatea accesării unor date în contextul lipsei unei autorizări exprese, dar această condiție este aplicabilă doar în situația în care accesul la respectivele baze de date se realizează pe baza unei autorizări. Pentru celelalte date și informații disponibile în mod public prin însăși voința proprietarului, orice acces va fi considerat legal întrucât însăși disponibilizarea publică acestora poate echivala cu existența unei autorizări implicite. Și aceasta interpretare cu atât mai mult poate fi acceptată în contextul în care proprietarul avea posibilitatea aplicării anumitor măsuri care ar fi limitat sau restricționat accesul publicului la informațiile în cauză.

Dar de ce vorbim de baze de date, de colecții publice, de informații ce poartă sau nu drepturi de autor, când putem să identificăm în concret o platformă de tipul Facebook, ce conține informații despre fiecare dintre noi, unele publice, altele nu, în funcție de setările personale și de termenii și condițiile FB aplicabile, toate și oricare dintre acestea devenite accesibile unor cercetări fără restricții și care nu vor putea fi preîntâmpinate ori limitate, așa cum indică alin.(2) al aceluiași art.3 din DSM.

Dispozițiile contractuale care nu respectă excepția prevăzută la alineatul (1) sunt inaplicabile.”

Încerc să înțeleg în acest context și interesul public, declarat a fi, în contextul acestei excepții, cercetarea și inovarea în toate domeniile științei. Așadar pentru a descoperi “new knowledge or insights” vor fi folosite, cel mai probabil, datele noastre, ale tuturor, disponibile online inclusiv pe facebook, instagram, twitter, precum fotografii personale sau ale familiei, texte corespunzătoare diverselor expuneri prin posturi sau commenturi, etc, pe care aceste platforme le stochează în mod automat sau ca urmare a activității noastre (inclusiv data location). Utilizarea va însemna procesarea lor de așa manieră încât să ofere rezultate relevante unor cercetări științifice care pot sau nu să privească interesul uman/al individului.

Și dacă acestea nu ar fi fost îndeajuns de multe cât pentru a marca o amenințare clară la adresa interesului userului online, textul art.3 al DSM a fost larg criticat pentru natura sa restrictivă, majoritatea organizațiilor (de interes public, culmea!) zbătându-se să demonstreze că textul ar fi trebuit, dimpotrivă, să NU impună restricții în ceea ce privește legalitatea accesului sau a tipului de beneficiar, impunându-se ca ORICE entitate privată să poată accesa orice tip de date în vederea procesării și analizei acestora în cadrul activității de text and date mining. De ce ar fi nevoie de atâta birocrație a autorizării în cercetare (a se vedea și art.2 din DSM), când hățurile data mining-ului ar putea fi ținute de oricine în orice scop?

NU știu ce demersuri de interes public mai pot fi susținute sau dacă mai sunt de luat în considerare, în contextul în care se insistă în a se crea cadrul corespunzător pentru ca o companie ce deține date biologice, de exemplu, să poate întreprinde o cercetare (privată) pentru a interpreta anumite date relevante de pe facebook. Și asta in the name of science.

 

 

Monica Lupașcu Romanian Lawyer since 2005 with LL.M. in Intellectual Property Law. She currently activates as European Trademark Attorney and internet and technology legal practitioner.   monica.lupascu@nullcyberlaw.ro

Răspunde și tu