Os desafios jurídicos do web scraping

Alisson Possa

O LinkedIn, que já foi forçado a retirar quaisquer barreiras técnicas contra as práticas de scraping até a resolução do caso, pode voltar a bloquear acessos de empresas que utilizam algoritmos para essa finalidade e ganha força para levar à justiça os responsáveis.

8/12/2022

Recentemente a vice-presidente da área legal do LinkedIn, Sarah Wight¹ anunciou vitória da empresa contra a hiQ Labs em processo que corre há mais de seis anos na Corte de Justiça da Califórnia (hiQ Labs, Inc. v. LinkedIn Corp., No. 17-3301) sobre a ilegalidade de scraping de dados dos usuários da plataforma.

O caso, que já esteve na Suprema Corte dos Estados Unidos e voltou à jurisdição estadual², aborda a legalidade da prática de scraping de dados tornados públicos pelos próprios indivíduos perante a Computer Fraud and Abuse Act (CFFA) e os Termos de Uso do próprio LinkedIn.

Ocorre que a prática é utilizada por muitas empresas atualmente e não só em redes sociais, mas também em plataformas abertas de Governos. O próprio SERPRO, no Brasil, já se pronunciou sobre alguns riscos de utilização dessa prática³.

O assunto é complexo e demanda análises sob várias perspectivas legais, uma vez que diferentes elementos atraem legislações e regulações diferentes, como, por exemplo, o tipo de dado pode atrair a Lei Geral de Proteção de Dados ou proteções à propriedade intelectual e segredo industrial corporativo, a natureza da plataforma pode atrair legislações e regulações de transparência de entes públicos (Portal de Transparência, Processo Judicial eletrônico - PJe, etc) assim como também existem casos que legislações de outros países podem ser aplicadas (a situação aqui pode ser a coleta e utilização de dados pessoais de titulares de dados na União Europeia que atrai a aplicação do sistema normativo europeu), entre outros.

O presente artigo se propõe a analisar diferentes perspectivas que podem ser levantadas no Brasil sobre o tema.

Inicialmente, cabe descrever, em síntese, o que é a prática scraping e alguns de seus empregos no mercado tecnológico atual. O nome diz respeito à extração de dados da internet que pode ser usada para a combinação de informações. Nesse processo, um software imita a interação de navegação entre os servidores da Web e um ser humano, agindo como se fosse uma navegação de usuário real. O robô acessa quantos sites forem necessários, analisa seu conteúdo para encontrar e extrair dados de interesse e estrutura esses conteúdos conforme desejado⁴.

Atualmente, esse processo é utilizado para a formação de grandes bases de dados que podem ser utilizadas de diferentes maneiras, como para auxiliar na tomada de decisões internas de uma empresa a fim de melhorar a eficiência de seu negócio, ou, então, para a disponibilização de serviços baseadas em bases de dados específicas à outras empresas. Considerando a grande possibilidade de utilização de dados coletados por esse processo, muitas empresas acabam dependendo dele para a tomada de decisões ou até mesmo a continuidade de produtos e serviços.

Entretanto, considerando a ampla variedade de agentes que podem ser envolvidos no procedimento, a legalidade da prática passou a ser questionada sob várias óticas.

A primeira diz respeito a conflitos entre agentes privados, como o caso do LinkedIn citado acima. Na economia contemporânea a concentração de dados está ligada diretamente com ganhos econômicos, motivando a rede social a iniciar uma cruzada processual que já conta com mais de 5 anos contra a prática de scraping de dados que são disponibilizados pelos seus usuários. Essa relação entre controle de dados e valores econômicos chamou atenção quando a Meta estimou em 10 bilhões de dólares a perda em decorrência da mudança que a Apple passou a implementar em 2021 que possibilita ao usuário escolher sobre a possibilidade de rastreamento de dados entre aplicativos⁵.

O processo judicial do LinkedIn, apesar de ter como objeto a utilização de dados pessoais, está sendo discutida sob a ótica de relações contratuais estabelecidas através de Termos de Uso entre a plataforma e seus usuários, assim como a utilização da CFFA para a defesa do entendimento de violação de sistemas informáticos privados.

A prática de scraping por uma empresa privada em bases de dados públicas também suscita discussões sobre a possibilidade de informações que são disponibilizadas para a garantia da transparência do Estado como um direito constitucional dos cidadãos nas democracias contemporâneas serem utilizadas para ganhos financeiros de agentes privados.

Em 2019 a França proibiu, através da LOI Nº 2019-222, que reformou o sistema da Justiça francesa, a prática de scraping e análise automatizada de dados de decisões judiciais com base em princípios de igualdade de acesso à justiça e paridade de armas. As razões completas podem ser encontradas na Decision of the Council 2019 - 778⁶.

No Brasil, a prática foi citada pelo próprio SERPRO no pronunciamento acima citado, desestimulando a prática por terceiros com argumentos relacionados à falhas de coleta, indisponibilidades dos sistemas, entre outros, para reforçar a venda de serviços de scraping da própria empresa pública.

Além de questões envolvendo possíveis ilegalidades referentes à quebra de limitações estabelecidas nas legislações que regem as plataformas de transparência pública, a questão é de grande repercussão perante a perspectiva de utilização de dados pessoais para finalidades secundárias.

O ponto em comum que talvez mais desafia a prática podem ser as construções jurídicas decorrentes da proteção de dados pessoais, tanto para os casos envolvendo bases de dados de entes públicos quanto de empresas privadas.

A Lei Geral de Proteção de Dados do Brasil - LGPD segue o padrão internacional que decorre da Regulação Geral de Proteção de Dados da União Europeia e que está sendo adotado em outros países. Essas legislações têm como limitações para o tratamento de dados pessoais a indicação de finalidades específicas e prévias para a coleta desses dados, obrigações envolvendo a manutenção do consentimento, quando essa é a base legal elencada, na cadeia de compartilhamento dos dados entre diferentes agentes de tratamento, além de outros mecanismos que impõem grandes dificuldades para defender a legalidade da prática.

A Autoridade de Proteção de Dados da França (CNIL), publicou em 2020 um guia sobre scraping de dados pessoais para o setor de marketing⁷ que elenca vários dos requisitos que deveriam ser observados para a utilização de dados pessoais que são originados por esse método e deixa claro o desafio que é demonstrar o cumprimento total das condições legais.

Além disso, quando os dados pessoais são originados de bases de dados que são públicas por força legal e para a transparência do Estado, e não estão sob uma possível exceção de dado tornado público pelo próprio titular (Art. 7º, §4º da LGPD), os desafios são maiores.

Plataformas como o Portal da Transparência podem ser utilizadas para finalidades que podem causar danos aos titulares de dados que lá têm informações pessoais disponibilizadas por força legal, que os titulares possuam ao seu dispor meios efetivos para evitar esses dados ou mitigar seus efeitos.

O debate normalmente é tratado no Brasil na perspectiva de utilização para finalidades secundárias dentro da própria administração pública, podendo ser citado, como exemplo, o artigo "Limites e possibilidades para o uso secundário de dados pessoais no poder público: lições da pandemia" da Dra. Miriam Wimmer⁸, que trata sobre a dificuldade de enquadrar diferentes finalidades para dados pessoais nesse contexto.

Aqui, o seguinte questionamento se impõe: quando os dados disponibilizados para a transparência são utilizados para finalidades econômicas de agentes privados como consequência do acesso amplo que as plataformas públicas permitem, além do desafio da legalidade do tratamento, qual a responsabilidade do próprio Estado?

Os pontos levantados até aqui demonstram como a prática de scraping, um suporte de muitos modelos de negócios no Brasil e no mundo, encontra resistências legais cada vez maiores e demanda discussões gerais e setoriais para trazer segurança jurídica aos agentes econômicos que dependem dela, sob pena de, futuramente, setores inteiros da economia sofrerem com entendimentos superficiais.

__________

1 Disponível aqui.

2 O resumo completo do caso é explicado na seguinte matéria.

3 Disponível aqui.

4 GLEZ-PEÑA, Daniel et al. Web scraping technologies in an API world. Briefings in bioinformatics, v. 15, n. 5, p. 788-797, 2014. Disponível aqui.

5 Disponível aqui.

6 Disponível aqui.

7 Disponível aqui.

8 WIMMER, Miriam. Limites e possibilidade para o uso secundário de dados pessoais no poder público: lições da pandemia. Revista Brasileira de Políticas Públicas, v. 11, n. 1, 2021.

Colunistas

Alisson Possa Advogado. Mestre em Direito Constitucional. Doutorando em Direito. Professor do IBMEC e IDP. Membro da Comissão de Proteção de Dados da Corregedoria do CNJ.

Fabrício da Mota Alves é advogado e professor. Sócio do Serur Advogados na área de Direito Digital. Presidente do Conselho Consultivo da ANATEL e vice-presidente da Comissão de Direito Digital da OAB. Coordenador-adjunto do Observatório Nacional de Cibersegurança, IA e Proteção de Dados. Ex-conselheiro do CNPD/ANPD e membro da Comissão de Juristas de IA no Senado. Certificado como DPO (ECPC-B) e Lead Implementer (ISO 27701).

Rodrigo Borges Valadão é procurador do Estado do Rio de Janeiro. Membro Conselho Nacional de Proteção de Dados e da Privacidade (CNPD). Fundador, ex-presidente e conselheiro da Associação Brasileira de Governança Pública de Dados Pessoais (govDADOS). Especialista em Advocacia Pública pela FGV/RJ. Mestre em "Privacy, Cybersecurity, Data Management, and Leadership" pela Universidade de Maastricht (Países Baixos). Mestre em Teoria do Estado e Direito Constitucional pela PUC/RJ. Doutor em Direito Público pela Albert-Ludwigs-Universität Freiburg (Alemanha). Doutor em Direito Público pela Universidade de São Paulo (USP). Instagram: @rodrigobvaladao