Cyberlaw

 

Text and Data Mining – interesul public și privat

Text and Data Mining – interesul public și privat.

Dacă ați citit articolul anterior, poate ați înțeles că ”mining”-ul nu înseamnă „extragere de texte” ci analiză calificată condusă prin sisteme automatizate pentru a descoperi noi cunoștințe și perspective. Aceste noi cunoștințe și perspective sunt rezultate reale care depind de performanța mining-ului dar, mai ales, de tipurile de date asupra cărora se realizează această procesare.  Sursele de text și date minate sunt diverse, de la baze de date private și publice până la rețele sociale și website-uri.

Excepția de data mining introdusă prin noua propunere de directivă înseamnă pe scurt acordarea unor drepturi de reproducere și copiere organismelor de cercetare și doar acestora. Limitarea categoriilor de beneficiari a condus la numeroase obiecțiuni, susținându-se că dreptul la mining ar trebui să fie al nostru, al tuturor, fără nicio diferențiere “the right to read is the right to mine”. Nu știm, într-adevăr, nici măcar dacă este oportun ca dreptul la mining să fie reglementat în cadrul dispozițiilor corespunzătoare dreptului de autor și, stricto sensu, obiectul art.3 din DSM vizează dreptul de reproducere și copiere și nu activitatea propriu zisă de „text and data mining”. Dar, chiar și așa, o apreciere a categoriilor de beneficiari și a oportunității limitării acestora nu se poate face în absența înțelegerii corecte a activității de mining. Pentru că, înainte de a decide că dacă este incorect ca doar organismele de cercetare să beneficieze de dreptul la data mining, ar trebui putem înțelege de ce ar fi “nepotrivit” ca oricine să poată mina orice fel de date.

1.Ce fel de date pot fi minate”? Doar publicațiile științifice, așa cum am fi tentați să credem?

Citeam un articol recent, pe aceeași temă a folosirii inadecvate a tehnologiilor, în care se susținea că este foarte posibil ca consumatorii să nu înțeleagă sau să fie conștienți de felul în care sunt/pot fi folosite datele lor. Și într-adevăr, lipsa unei înțelegeri adecvate explică inclusiv trecerea neobservată a unor măsuri de reglementare a data mining-ului precum și preluarea nediferențiată a argumentelor unor grupuri de interese pentru a susține o poziție prin care pot fi încălcate drepturi fundamentale într-un mod imposibil de controlat. Asta dacă acceptăm că data mining-ul implică inclusiv folosirea propriilor nostre date într-un mod contrar intereselor și drepturilor fundamentale.

Am amintit ca surse ale data mining-ului rețelele sociale și website-urile pentru că într-adevăr, datele minate, de care vorbește textul art.3 din DSM și care se doresc a fi cercetate, pot fi date care ne aparțin, de la propria înfățișare disponibilă în sutele de selfie-uri până la locurile în care am dat check-in, like-urile din ultimii ani și cumpărăturile online, toate și oricare dintre acestea înmagazinate în bine cunoscuta rețea socială Facebook, în care uploadăm în mod voluntar sute, dacă nu chiar mii fotografii, comentarii, care se traduc în tot atâtea mii de date și informații. NU discutăm măsura în care acestea sunt date protejate de dreptul de autor, în primul rând pentru că textul art.3 din DSM nu face nici o diferențiere. Menționez doar că data mining-ul poate fi folosit pentru a analiza toate aceste date, chiar fără știrea noastră și a le compara cu date ale milioanelor de alți utilizatori internet, totul ca parte a unui sistem de supraveghere și profiling pentru diverse interese corporatiste, guvernamentale, etc. Dacă Api-ul de mining este dotat cu un learning machine de capacitate, rezultatele pot fi din cele mai surprinzătoare, putându-se ajunge inclusiv la previzionarea anumitor comportamente umane, adică în concret, la a spune exact ce va cumpăra și de unde va cumpăra o anumită persoană, dacă aceasta are sau nu capacitatea de a se conforma unui anumit sistem corporatist, care sunt preferințele sexuale și chiar căror idei este cel mai probabil să se afilieze.

Dau exemplul sistemului de recunoaștere facială (facial recognition, citiți ultimele știri AICI sau AICI), de care, mai nou, Facebook se va folosi pentru a aduna milioane de imagini cu portrete clare, acordate cu propiul nostru consimțământ, sub motivația securității pentru eventualele atacuri sau pierderi ale contului personal.

Colectarea de astfel de imagini (adică, în concret datele de care face vorbire textul art.3) este foarte importantă pentru Facebook, transformându-l într-un proprietar al unei uriașe baze de date biometrice, care pot fi folosite în orice mod și oricum, în primul rând pentru că, indiferent de declarațiile oficiale ale reprezentanților FB, nici un user nu ar putea, decât, poate, cu un uriaș efort material, să solicite probe clare privind modalitatea în care imaginea sa a fost sau nu stocată și pentru câtă vreme. Dar, înainte de a discuta de modalitatea în care datele din rețelele sociale pot fi folosite în realitate, ne putem întoarce la ceea ce legea permite sau ar putea permite pe viitor. Față de exemplul colectării de imagini ale userilor, punerea în aplicare a art.3 din DSM ar însemna acordarea unui drept de reproducere sau copiere organismelor de cercetare care ar desfășura activități de data mining asupra anumitor componente a bazei de date facebook.

Facebook as a Research Tool for the Social Science” este un studiu publicat de Michael Kosinski, un psiholog afiliat universității Standford, în care puteți găsi numeroase indicații ale modalității în care datele stocate de facebook pot fi folosite, într-un mod eficient și subordonat, evident, cercetării științifice.

“Facebook is rapidly gaining recognition as a powerful research tool for the social sciences. It constitutes a large and diverse pool of participants, who can be selectively recruited for both online and offline studies. Additionally, it facilitates data collection by storing detailed records of its users’ demographic profiles, social interactions, and behaviors.”

“At the time of writing, the following categories of information can be recorded with users’ permission:

  1. Demographic profile, comprising a unique user ID, full name, profile picture, age, gender, relationship status, romantic interests, geographical location, place of origin, work and education history, biography, link to personal Web site, time zone, polit- ical and religious views, general interests, and lists of favorite music, movies, TV shows, books, quotes, and sports.
  2. User-generated content consisting of status up- dates, photos, videos, comments on other people’s content or pages, links, and notes published by users or their friends. Each piece of content also contains metadata, such as the positions of people present in the picture, date of publication, list of people who liked it, its privacy settings, and so forth.
  3. Social network structure containing a list of friends and the type of users’ connections. Connection types include friendships, family links (e.g., spouse, siblings, parents, or children), and follow ers.
  4. User preferences and activities comprising their likes, group memberships, attended events, in- stalled applications, and tags in photos or posts.
  5. Information about users’ friends, such as demo graphic details and friends’ activities that are visible to a given user. 6. Private messages between users, usually written and sent through the instant messenger feature.”

The full list of accessible variables is available at http://developers.facebook.com/docs/graph-api/reference.  

Am redat mai sus câteva dintre paragrafele care identifică tipurile de date care puteau fi folosite în cercetare la data elaborării studiului. Adăugarea datelor biometrice, prin noua captare facial recognition îmbunățățește considerabil tipul de informații făcând în primul rând o departajare evidentă între date reale și cele aferente așa numitelor fake accounts sau sub pseudonim.

2. Cum funcționează acest facial recognition. Câteva detalii

“Un sistem de recunoaștere facială este o aplicație software capabilă să identifice și să verifice o persoană dintr-o imagine digitală sau dintr-un cadru al unui fișier video. O modalitate prin care se poate realiza aceasta este prin compararea anumitor trăsături selectate ale imaginii cu imaginile existente într-o bază de date.”

„Unii algoritmi de recunoaștere a feței identifică caracteristicile faciale extragând repere sau caracteristici dintr-o imagine a feței subiectului. De exemplu, un algoritm poate analiza poziția relativă, dimensiunea și sau forma ochilor, nasului, pomeților și maxilarului. Aceste caracteristici sunt apoi utilizate pentru a căuta alte imagini cu caracteristici asemănătoare, evident, dintr-o bază de date cu cât mai multe informații de acest tip. Alți algoritmi normalizează o galerie de imagini cu fața și apoi comprimă datele de pe față, salvând doar datele din imagine care sunt utile pentru recunoașterea feței. Unul dintre cele mai vechi sisteme de succes se bazează pe tehnicile de potrivire a șabloanelor aplicate unui set de caracteristici faciale speciale, care oferă un fel de reprezentare a feței comprimate.”

Comparată cu alte tehnologii de identificare, recunoașterea facială are avantajul de a putea fi folosită fără să necesite cooperare subiectului, fiind, în mod uzual instalată în aeroporturi și alte spații publice pentru a putea identifica anumiți indivizi dintr-o mulțime fără ca trecătorii să fie conștienți de sistem. Evident, recunoașterea realizată de facebook se realizează cu acceptul deținătorului, dar nimic nu împiedică folosirea acestor rezultate, adică a imaginilor stocate, în asociere cu alte sistemele de colectare de date biometrice (amprente de ex).

Ce am redat mai sus, nu este rocket sciece, sau poate fi J,dar, înainte de toate, este un exemplu concret de data mining.

3. Cine poate folosi aceste date? Există vreun interes privat în stocarea și deținerea unor astfel de informații? Oare acest interes privat este susținut printr-o cercetare științifică?

Pe lângă instituțiile de aplicare a legii, folosirea sistemului de recunoaștere facială a interesat inclusiv entitățile private, folosirea în prezent a acestor tipuri de date neoprindu-se la autentificările de acces intern sau de la nivelul anumitor platforme online, existând în prezent numeroase companii care oferă o paletă întreagă de servicii, de la simple și cunoscute soluții de marketing până la cele care implică o reală analiză psihologică, toate bazate pe mining-ul de tip recunoaștere facială.

Eu am găsit câteva companii, cu siguranță sunt și altele și fiind era start-up-urilor, de mâine pot apărea o mie, fiecare dintre acestea oferind servicii bazate pe cercetare științifică și oricare dintre ele având un interes clar în a accesa baze de date biometrice de tipul celor colectate de facebook și nu numai.

a) Faception – este o companie din Israel, un start-up, mai precis, cu un interes și obiect de activate destul de particular, numit “facial personality profiling”.

Informațiile de mai jos sunt culese de pe Medium, Linkedin și Science of People.

“They are a team of world-class experts in the field of computer vision, facial analysis, machine learning, psychology,  technology and marketing. With their technology, one would be able to identify: A professional poker player, Academic researcher, Introvert or extrovert

Pedophiles, and even white collar-criminals.

Facial mapping has been a popular study of interest to researchers for over a thousand years and has reached a new high with Faception. Just watch what their technology can do.

Faception offers their technology to companies and allows them to embed the software to into their applications-> the application then runs on a cloud server-> local machine, video camera or any other scalable/ real-time device-> then conducts the image quality/ filter and analyzes the images-> once analyzed, the software provides a score and confidence level for various personality traits & types.”

“Bonus: Social Media Picture Hacks for Personalities

In addition to use facial mapping to determine profession or likelihood to commit a crime, researchers and regular people alike are analyzing faces in social media pictures to determine someone’s personality characteristics.”

b) Mathersight

Mattersight Issued New Patent for Predictive Video 

Newest Personality Software Invention Offers Deep Insights From Video Communications

CHICAGO, IL–(Marketwired – May 17, 2016) – Personality-based SaaS software pioneer Mattersight Corporation has received its first video analytics patent, which combines facial expression analysis with Mattersight’s innovative speech analytics tools to predict behavior based on the emotional state and personality style of any person in a video. 

Predictive Video Analytics System & Method, known as Predictive Video, is a first-of-its-kind customer experience solution. With it, brands can now mine the personality data of a single user by analyzing video data publicly available online via social media channels — data which they can then use to improve the customer experience.

4. Cine ar profita într-adevăr de pe urma măririi sferei de beneficiari?

Art.3 din DSM limitează într-adevăr posibilitatea de mina texte și date fără a ține cont de drepturile producătorului de baze de date și ale altor titulari. Nu oricine și nu oricum se pot reproduce și copia texte ori informații disponibile în baze de date, textul de directivă impunând așadar anumite limite permisiilor conferite, limite care vizează în principal beneficiarii și tipul de acces.

Statele membre prevăd o excepție de la drepturile prevăzute la articolul 2 din Directiva 2001/29/CE, la articolul 5 litera (a) și articolul 7 alineatul (1) din Directiva 96/9/CE și la articolul 11 alineatul (1) din prezenta directivă pentru reproducerile și extragerile efectuate de organismele de cercetare pentru (a realiza activități de text și data mining asupra) datelor din opere sau alte obiecte la care au acces legal în scopuri de cercetare științifică.”

Mi-am permis să redau varianta în română așa cum, în opinia mea, ar fi trebuit să fie tradusă, pentru a nu se confunda extragerea de texte cu însăși activitatea de minig. Pentru a identifica corect categoria de beneficiari, art.3 trebuie interpretat în coroborare cu art.2, respectiv cu recitalul 10 și 11 din DSM, în care găsim precizări detaliate, începând cu definițiile clare ale noțiunii de “organism de cercetare” (art.2) și până la informațiile privind aplicabilitatea excepției inclusiv parteneriatelor public-private (recital 10).

În plus recitalul 11 face o importantă precizare, așa cum nota și CEIPI, privind trăsătura comună și cea mai importantă a organismelor care vor beneficia de excepția art.3, și anume scopul nelucrativ și misiunea de interes public. Același paragraf identifică o condiție în plus față de scopul nelucrativ și misiunea de interes public ca fiind nesubordonarea față de entități private.

“În ciuda diferitelor forme și structuri juridice, organismele de cercetare din toate statele membre au, în general, în comun faptul că acțiunile lor se înscriu fie într-un cadru fără scop lucrativ, fie în contextul unei misiuni de interes public care este recunoscută de stat. O astfel de misiune de interes public poate fi reflectată, de exemplu, prin finanțare publică sau prin dispoziții din dreptul intern sau din contracte publice.

În același timp, organismele asupra cărora societățile comerciale au o influență decisivă, întrucât situațiile structurale, cum ar fi calitatea de acționari sau membri, le permit să exercite controlul, ceea ce ar putea determina accesul preferențial al acestora la rezultatele cercetării, nu ar trebui să fie considerate organisme de cercetare în sensul prezentei directive.”

Interpretând per a contrario toată această serie de limitări în categoria de beneficiari, descoperim că entitățile excluse de la aplicabilitate sunt în fapt și cele care ar beneficia de pe urmă măririi sferei de beneficiari. Dacă excepția se va aplica doar orgnismelor de cercetare FĂRĂ scop lucrativ și celor cu misiuni de interes public, o mărire a sferei de beneficiari ar însemna în mod clar ca beneficiile unui mining for free să fie culese inclusiv de organismele de cercetare CU SCOP lucrartiv și care nu au misiuni de interes public, eventual și de cele subordonate diverselor companii private, prin multiplele forme prin care această subordonare poate fi vizibilă.

Deși a studiat în detaliu toate paragrafele corespunzoare, The Centre for International Intellectual Property Studies (CEIPI), al cărui studiu l-am amintit anterior, se numără printre oponenții noului format al art.3 criticând în mod special limitarea categoriei de beneficiari cu aceleași argumente lipsite de valoare juridică și total desprinse de realitate:

“limiting beneficiaries would undermine a widespread assumption that the “right to read should be the right to mine”.

“The Impact Assessment does not assess the possibility of extending the exception to some other defined categories of beneficiaries. For example, using automated analytical techniques in journalistic research to their fullest extent may contribute to solving some of modern media troubles (e.g., costs optimization, “fake news” phenomenon)”

Evident, text and data mining are o multitudine de aplicabilități, foarte multe safe și total îndreptățite de interesul public al informării și răspândirii știrilor, dar nu trebuie să ne ascundem după fenomenul de fake news pentru a masca prezentul interes în mining pe care îl au entități private ori organisme finanțate de acestea, cu scopuri nu tocmai de interes public sau mai degrabă spus, total contrar acestuia.

Studiul de impact emis de Comisia Europeană privind reforma Copyright (Impact Assessment), la care face și CEIPI face referire, precizează, în clar, că piața relevă un interes crescut al companiile de cercetare medicală și tehnologică, cu departamente de cercetare internă.

“In addition to researchers in public interest organisations such as universities, TDM is increasingly used by companies, notably life – science and technology companies, in the context of their “in house” research. TDM or similar data analysis tools, such as web – scraping, are also used by businesses at a wider scale, as part of or basis for their commercial activities going beyond scientific research (marketing, mining of customers’ data, etc).”

Mult mai interesant decât non argumentul celor de la CEIPI par a fi înscrierile din acest Impact Assessment (partea 1, pag 104/117), studiu care, deși notează interesul privat în data mining, consideră că intervenția la nivel EU nu ar afecta entitățile din acest sector care deja fructifică mining-ul print-un sistem de licențiere B2B.

“Corporate users, notably life-science companies benefit today from a functioning licensing market for TDM of scientific publications and they have not requested any intervention at EU level. TDM is often licensed to these users as part of a wider licensing agreement with rightholders including several uses and services that go well beyond what the exception would allow them to get for TDM purposes. (…)”

Cu greu putem înțelege de ce argumentele eliberării barierelor de licențiere ar fi justificat doar interesele organismelor de cercetare și nu și cele companiilor private și cu atât mai interesant pare efortul de a masca interesul privat cu același arsenal de non- argumente:

“This option is not expected to have a significant indirect impact on these players (corporate research users) as their needs in relation to TDM are generally different than those of universities and other public interest research organisations.”

Deci, cine ar profita de pe urma măririi sferei de beneficiari?

Monica Lupașcu Romanian Lawyer since 2005 with LL.M. in Intellectual Property Law. She currently activates as European Trademark Attorney and internet and technology legal practitioner.   monica.lupascu@nullcyberlaw.ro

Răspunde și tu