COLUNAS

  1. Home >
  2. Colunas >
  3. Impressões Digitais >
  4. A efetividade da anonimização de dados pessoais

A efetividade da anonimização de dados pessoais

sexta-feira, 31 de janeiro de 2020

Atualizado às 10:00

Nesta importante semana, de comemoração do dia internacional da proteção de dados pessoais, cuja proposta é justamente aumentar a consciência das pessoas em torno da relevância da privacidade, trazemos para reflexão o tema da anonimização.

Na última década, a capacidade de coletar e armazenar dados pessoais alcançou patamares nunca antes imaginados. Com 2/3 da população mundial tendo acesso à internet1, a difusão de prontuários médicos eletrônicos e a ascensão da Internet das Coisas2, a tendência é de que esse crescimento continue.

Embora tenha diversos efeitos positivos, guiando, por exemplo, avanços na medicina e na ciência social, o tratamento de dados individuais em larga escala faz despertar uma legítima preocupação em torno da privacidade. As repercussões negativas do compartilhamento de dados médicos entre NHS3 e Deepmind Technologies4 e com a venda de dados pelo Facebook para a Cambridge Analitica5, colocam em evidência o fato de que as pessoas estão incomodadas com confidencialidade, privacidade e uso ético de seus dados.

Boa parte dessa preocupação está no comércio digital, que também cresce de maneira exponencial com base na exploração de dados anonimizados. Na era do big data6 o grau de anonimato que se pode esperar de plataformas de comércio virtual vem diminuindo rapidamente, lançando dúvidas acerca dos limites da privacidade na internet.

O artigo 5o, inciso XI, da lei 13.709/2018, a denominada Lei Geral de Proteção de Dados ("LGPD"), define como anonimização a utilização de meios técnicos razoáveis e disponíveis no momento do tratamento, por meio dos quais um dado pessoal perde a possibilidade de associação, direta ou indireta, com o seu titular.

O artigo 18, IV, da LGPD, por sua vez, fixa como direito do titular dos dados pessoais a obtenção, junto ao controlador, da anonimização de dados desnecessários ou excessivos.

Finalmente, o artigo 12 da LGPD estabelece que os dados anonimizados não serão considerados dados pessoais, salvo quando o processo de anonimização ao qual foram submetidos for revertido, utilizando exclusivamente meios próprios, ou quando, com esforços razoáveis, puder ser revertido.

O problema surge justamente com a possibilidade de reversão da anonimização por terceiros, mediante "esforços razoáveis", cuja determinação, nos termos do § 1o do próprio artigo 12, deve levar em consideração fatores objetivos, tais como custo e tempo necessários, de acordo com as tecnologias disponíveis.

Nessa linha de ideias, estudos realizados por universidades renomadas comprovaram cientificamente a relativa facilidade com que essa reversão pode ser feita.

No primeiro desses estudos, denominado "Unique in the crowd: the privacy bounds of human mobility"7, realizado em 2013 pelas universidades de Harvard, nos Estados Unidos, e Louvain, na Bélgica, bem como pelo Massachusetts Institute of Technology, também nos Estados Unidos, e publicado na Scientific Reports8, chegou-se à conclusão de que pessoas podem ser rastreadas e identificadas a partir de bancos de dados contendo informações em princípio consideradas anonimizadas.

A pesquisa, realizada por 15 meses com base em dados de telefones móveis de cerca de 1,5 milhão de indivíduos, demonstrou que, quando a informação do indivíduo foi disponibilizada em base horária pelas antenas de celulares, apenas quatro pontos de dados foram necessários para reidentificar a pessoa. Isso se mostrou verdade em 95% dos casos, tendo levado à conclusão de que os movimentos de seres humanos são altamente idiossincrásicos, apresentando traços únicos que podem ser analisados com precisão.

Um segundo estudo, este mais recente, de 2019, denominado "Estimating the success of re-identifications in incomplete datasets using generative models"9, realizado mais uma vez pela Universidade de Louvain, em conjunto com a Imperial College of Science, Technology and Medicine, em Londres, publicado na Nature Communications10, estimou, com a ajuda de machine learning11, a probabilidade de um indivíduo específico ser reidentificado a partir de bancos de dados anonimizados, ainda que incompletos.

Nesta pesquisa, chegou-se à conclusão de que 99,98% dos americanos podem ser corretamente reidentificados a partir de qualquer banco de dados, utilizando 15 atributos demográficos - idade, gênero, estado civil etc. - sugerindo que técnicas tradicionais de anonimização como adding noise12 e sampling13 podem não ser suficientes para manter-se aderente às regras de privacidade de dados de normas como a General Data Protection Regulation - a Lei Geral de Proteção de Dados da Comunidade Europeia ("GDPR") ou a Consumer Privacy Act - o Ato de Privacidade do Consumidor da Califórnia ("CCPA").

A preocupação certamente se estende ao Brasil, já que a LGPD, amplamente inspirada na GDPR, traz dispositivos semelhantes de tutela da anonimização.

Diante disso, é bastante provável que, conforme autoriza o § 3o do artigo 12 da LGPD, a Autoridade Nacional de Proteção de Dados ("ANPD"), em conjunto com o Conselho Nacional de Proteção de Dados Pessoais, venha a editar regulamento dispondo sobre os padrões e técnicas a serem empregados em processos de anonimização.

Seja como for, independentemente de qualquer regulamentação pela ANPD, levando em consideração o ritmo atual de evolução tecnológica, parece certo que teremos cada vez mais dificuldade em garantir a efetiva anonimização de dados pessoais, exigindo, a nosso ver, que essa anonimização seja feita por empresa independente (e não internamente pelo controlador) e mediante a utilização continuada de técnicas de última geração, que sejam constantemente atualizadas, mantendo o estado da arte.

Somente assim será possível realizar uma anonimização segura capaz de evitar que os dados, mesmo anonimizados, sejam considerados dados pessoais à luz do artigo 12 da LGPD.

__________


1 Pew Research Center.

2 Interconexão digital de objetos cotidianos com a internet, formando uma rede de objetos físicos capaz de reunir e de transmitir dados.

3 Serviço nacional de saúde do Reino Unido.

4 Empresa britânica com foco em pesquisas e desenvolvimento de máquinas de inteligência artificial.

5 Empresa especializada na combinação de mineração e análise de dados com comunicação estratégica para o processo eleitoral.

6 Análise algorítmica de volumes massivos de informações.

7 Em tradução livre, "único na multidão: os limites da privacidade na mobilidade humana".

8 O Scientific Reports é um jornal científico on-line publicado pelo Nature Publishing Group, cobrindo todas as áreas das ciências naturais e analisando a validade científica dos artigos enviados - www.nature.com/srep.

9 Em tradução livre, "estimando o sucesso da reidentificação em bases de dados incompletas utilizando modelos generativos".

10 A Nature Communications é uma revista científica on-line publicada pelo Nature Publishing Group - www.nature.com/ncomms.

11 Em português, aprendizagem de máquina, ramo da engenharia e da ciência da computação que evoluiu do estudo de reconhecimento de padrões e da teoria do aprendizado computacional em inteligência artificial, e que permite aos computadores aprenderem sem serem explicitamente programados.

12 Em tradução livre, "adicionar distorções", técnica consistente em incluir propositadamente informações imprecisas aos dados. Por exemplo, ao publicar os dados de uma pessoa de 55 anos, sua idade apareceria apenas como na faixa dos 50 a 59 anos.

13 Em tradução livre, "amostragem de dados" técnica estatística consistente em selecionar um subconjunto de indivíduos de uma população para estimar as características de toda essa população.