Dados pessoais e IA: problemas e soluções

Mafalda Miranda Barbosa

Professora Mafalda Miranda Barbosa faz uma análise sobre os riscos pontenciais que os softwares inteligentes apresentam à proteção de dados pessoais, como o risco à privacidade, à igualdade, à liberdade, à integridade psíquica, à honra e à imagem.

21/6/2024

A utilização de sistemas de inteligência artificial coloca especiais problemas em relação aos dados pessoais. Sendo os dados, em geral, e os dados pessoais, em particular, a matéria-prima que alimenta o software inteligente, garantindo a sua aprendizagem, não se podem ignorar os riscos que, neste horizonte, emergem.

Entre tais riscos, e no tocante à ligação entre a IA e a utilização de dados pessoais, conta-se o risco de invasão à privacidade, pelo potencial intrusivo que o processamento de certos dados comporta, permitindo, em alguns casos, a sequenciação dos movimentos do titular daqueles ao longo de toda a sua vida; o risco de violação da igualdade, pelo perigo de discriminação que pode resultar da análise dos dados pessoais, tendo em conta as correlações estatísticas operadas pelos sistemas de inteligência artificial que, incapazes de aceder à dimensão semântica dos signos que mobilizam, podem gerar enviesamentos, e tendo em conta os próprios enviesamentos induzidos ao algoritmo; o risco de perturbação da liberdade, pelo fomento de fenômenos como o boxing, que tem expressão em termos comerciais e em termos políticos e ideológicos, abrindo-se as portas a formas de manipulação informativa, agravada pelas hipóteses de difusão de falsidades geradas pelos algoritmos generativos; o risco de perturbação da integridade psíquica do sujeito, como consequência de uma eventual manipulação emocional, resultante da criação de um espaço de interação pretensamente subjetiva que encerra o sujeito sobre si mesmo; o risco de violação da honra e do direito à identidade e verdade pessoal, pela produção de fake news e deep fake news a partir dos dados pessoais que são computados.

A tudo isto acresce o potencial de distorção dos próprios resultados a que os sistemas, em geral, podem chegar, se e quando alimentados por dados de segunda geração (isto é, dados gerados por sistemas autónomos) corrompidos. Na verdade, tendo os algoritmos potencial para gerar novos dados a partir dos que foram inicialmente transmitidos, coloca-se o problema de saber se o fundamento que licitude do tratamento que deles seja feito é suficiente ou não para abarcar esta segunda geração de dados. Por outro lado, o modo de funcionamento da máquina, baseado no estabelecimento de correlações estatísticas – que estão muito longe de representar relações de causalidade –, pode estar na base de corrupção de dados que, posterior e sequencialmente, poderão ser utilizados como matéria prima para a aprendizagem algorítmica. Quer isto dizer que, para além do potencial de discriminação que os algoritmos encerram, eles exponenciam a possibilidade de se chegar a soluções erradas, eventualmente lesivas de direitos alheios, agravando-se, assim, um problema atinente aos vieses de programação que possam já existir. Acresce a tudo isto que nem sempre é fácil, atenta a autonomia e a opacidade dos sistemas, perceber quais os conjuntos de dados efetivamente utilizados na aprendizagem algorítmica.

Num outro plano, as dificuldades comunicam-se à eventual concretização de uma pretensão indemnizatória. Na verdade, ainda que no tocante aos dados pessoais se parta, nos termos do artigo 82º RGPD, de uma presunção de culpa, esta poder ser facilmente ilidida pela prova do cumprimento de todas as regras decorrentes do regulamento. Lidando com sistemas autónomos, as lesões podem ser causadas pela corrupção de dados provocada pelo funcionamento algorítmico. E, nessa medida, as lesões deixam de poder ser imputadas ao controller, mesmo tendo em conta que ele pode responder pelos atos do processor, exceto se convocarmos, para fundamentar a responsabilidade, um regime diverso daquele que assenta no RGPD ou na disciplina privatística do Código Civil. É este um dos principais problemas da existência de dados de segunda geração que podem ou não ser dados pessoais, atenta a possível anonimização que deles venha a ser feita, a suscitar problemas atinentes não só à culpa como à causalidade.

Mas o problema pode também ser causado com base nos dados de primeira geração: ou porque com base neles se podem criar deep fake news, ou porque podem conduzir a hipóteses de discriminação, ou porque podem gerar situações de manipulação (ideológica ou emocional), suscitando-se o problema de saber a quem pode ser imputada a lesão.

Dir-se-ia, quanto à relação entre os dados pessoais usados ou gerados pela inteligência artificial e a responsabilidade civil, que as dificuldades são de dois tipos: em primeiro lugar, os dados que permitem o funcionamento da inteligência artificial podem sofrer uma corrupção, podendo não ser viável descobrir-se a sua origem ou não sendo o utilizador, distribuidor ou fabricante responsável por eles; em segundo lugar, os dados gerados pelo sistema autónomo, podendo eles próprios não ser fiáveis, podem resultar dos processos automáticos de autoaprendizagem.

Os problemas em torno da proteção de dados pessoais parecem, contudo, agravar-se quando lidamos com algoritmos generativos, capazes de, por si próprios, a partir da análise de biliões de dados, gerar textos, obras de arte, responder a questionários, compreender e reproduzir imagens, gerar códigos de programação, etc.

Em primeiro lugar, questionam os autores acerca da qualidade e atualização dos dados que são utilizados para os treinar, no âmbito de uma aprendizagem supervisionada. Na verdade, baseando-se a sua aprendizagem no deep learning, são utilizadas para os treinar técnicas de aprendizagem supervisionada e por reforço¹, o que determina que os resultados possam ser mais fidedignos, mas, ao mesmo tempo, que os dados inseridos têm de ser constantemente atualizados.

Por outro lado, servindo os dados utilizados para treinar o algoritmo para gerar respostas no que respeita aos mais diversos domínios e destinando-se o algoritmo generativo a ser integrado noutros sistemas de inteligência artificial (isto é, tratando-se de um sistema de inteligência artificial de finalidade geral), somos necessariamente confrontados com um problema de não pequena monta: qual a base jurídica que justifica a recolha em massa dos dados que são utilizados?

Nos termos do artigo 6º RGPD, a licitude do tratamento fica dependente da existência do consentimento do seu titular ou, em alternativa, da verificação de uma das situações nele previstas: se o tratamento for necessário para a execução de um contrato no qual o titular dos dados é parte, ou para diligências pré-contratuais a pedido do titular dos dados; se o tratamento for necessário para o cumprimento de uma obrigação jurídica a que o responsável pelo tratamento esteja sujeito; se o tratamento for necessário para a defesa de interesses vitais do titular dos dados ou de outra pessoa singular; se o tratamento for necessário ao exercício de funções de interesse público ou ao exercício da autoridade pública de que está investido o responsável pelo tratamento; se o tratamento for necessário para efeito dos interesses legítimos prosseguidos pelo responsável pelo tratamento ou por terceiros, exceto se prevalecerem os interesses ou direitos e liberdades fundamentais do titular que exijam a proteção dos dados pessoais, em especial se o titular for uma criança.

Por seu turno, tratando-se de categorias especiais de dados (dados que revelem a origem racial ou étnica, as opiniões políticas, as convicções religiosas ou filosóficas, a filiação sindical, dados genéticos, dados biométricos que identifiquem uma pessoa de forma inequívoca, dados relativos à saúde, dados relativos à vida sexual ou orientação sexual), as condições de licitude do tratamento tornam-se mais rigorosas.

Ainda que o titular dos dados autorize, nos termos da relação firmada com a OpenIA para utilização do ChatGPT, o tratamento de dados, devendo o consentimento ser específico (isto é, orientado para as finalidades a que o responsável se propõe, nos termos dos artigos 12º e seguintes RGPD), sob pena de invalidade, e devendo o referido tratamento respeitar o princípio da limitação de finalidades, tornam-se percetíveis as dificuldades.

Dito de outro modo, o consentimento deve ser prestado para um específico tratamento ao qual preside uma específica finalidade, o que está de acordo com o princípio da limitação das finalidades, nos termos do qual os dados pessoais são recolhidos para finalidades determinadas, explícitas e legítimas, não podendo ser tratados posteriormente de uma forma incompatível com as mesmas. Este princípio da limitação das finalidades é, contudo, mais amplo, não derramando a sua eficácia apenas no que toca à especificidade do consentimento. Na verdade, o referido princípio determina uma ligação incindível entre o fundamento que se invoca para o tratamento de dados e as concretas atividades que posteriormente podem ser legitimadas. Nos termos do artigo 13º/1 c) e do artigo 14º/1 c) RGPD, o responsável pelo tratamento de dados deve informar o titular dos dados acerca do fundamento desse tratamento, antes de ele iniciar e relativamente a uma finalidade específica. Admitem-se, é certo, tratamentos de dados posteriores, que não sejam considerados incompatíveis com as finalidades iniciais. Assim, os fins de arquivo de interesse público, os fins de investigação científica ou histórica e os fins estatísticos estão salvaguardados. A questão que se coloca é a de saber se o tratamento de dados posterior que seja feito, por exemplo, pela OpenIA ou por terceiros a quem sejam divulgados os dados – sejam estes dados originários ou dados gerados pelo algoritmo – é ou não compatível com este princípio.

Além disso, os dados recolhidos devem ser adequados, pertinentes e limitados ao que é necessário relativamente às finalidades para as quais são tratados (princípio da minimização de dados). Assim, qualquer que seja o fundamento invocado, ele não legitima o tratamento de dados para além do que se revele essencial às finalidades invocadas. Há que estabelecer-se, portanto, um juízo ponderativo de exigibilidade no que respeita às diversas categorias de dados recolhidos. O problema com que lidamos, ao confrontarmo-nos com algoritmos generativos, é, porém, o de saber se este princípio pode ser cumprido atenta a falta de limitação de finalidades.

Em causa pode estar, também, o princípio da exatidão. Os dados pessoais devem ser exatos e atualizados sempre que necessário, devendo-se adotar todas as medidas adequadas para que, em caso de inexatidão, sejam apagados ou retificados sem demora. Na verdade, nos termos do artigo 16º RGPD, o titular dos dados tem direito a obter, sem demora injustificada, do responsável pelo tratamento a retificação dos dados pessoais que lhe digam respeito e que sejam inexatos, ou que sejam completados os dados incompletos. O certo é que, por força da incapacidade de aceder a uma dimensão semântica, um sistema como o ChatGPT produz inúmeras vezes conteúdos que, podendo contender com dados pessoais, não são exatos. E ainda que haja direito a uma retificação, sendo esses dados transmitidos a terceiros que podem ser desconhecidos, coloca-se a questão de saber como pode ser operacionalizado o direito à retificação por parte do titular dos dados.

Igualmente problemático pode ser o princípio da integridade e confidencialidade. Ausente do elenco de condições a que devem obedecer os dados pessoais de acordo com a lei 67/98, é explicitamente introduzido pelo RGPD, comunicando-nos que os referidos dados devem der tratados de uma forma que garanta a sua segurança, incluindo a proteção contra o seu tratamento não autorizado ou ilícito e contra a sua perda, destruição ou danificação acidental, adotando as medidas técnicas ou organizativas adequadas. Ora, há a possibilidade de os dados tratados por um sistema como o ChatGPT virem a ser expostos ou perdidos, faltando em muitos casos a transparência necessária para se compreender o processo.

Parece, portanto, que os algoritmos generativos colocam, do ponto de vista normativo, muitas dificuldades no que respeita à compatibilização com a intencionalidade do RGPD. Além disso, se tivermos em conta que os princípios e deveres impostos pelo RGPD visam salvaguardar os titulares dos dados pessoais, mantendo-os incólumes nos direitos que, numa relação de interioridade constitutiva, subjazem ao direito à proteção de dados pessoais, haveremos de ter em conta que estes algoritmos generativos, como quaisquer outros, mas de forma incrementada, potenciam os riscos a que aludimos ab initio.

Torna-se, por isso, fundamental ter em conta o Regulamento do Parlamento Europeu e do Conselho relativo à IA. A disciplina estabelecida pelo Regulamento estrutura-se em função de diversos níveis de risco, resultado da combinação da probabilidade de ocorrência de danos com a gravidade desses danos. Desde logo, há determinados sistemas que são considerados de risco inaceitável, sendo absolutamente proibidos. Por seu turno, os sistemas de IA de risco elevado são os sistemas destinados a ser usados como um componente de um produto ou os sistemas que sejam produtos e que estejam previstos no anexo I; os produtos cujo componente de segurança seja um sistema de IA ou os sistemas que sejam sujeitos a uma avaliação de conformidade por terceiros com vista à sua colocação em serviço, nos termos dos atos enumerados no anexo I; os sistemas constantes do anexo III, desde que cumpram as especificações previstas no regulamento. Este elenco não é fixo, podendo ser alargado ou diminuído, segundo os critérios do artigo 7º.

Assim, um sistema de IA a que se refere o Anexo III não pode ser considerado de risco elevado se não representar um risco significativo de danos para a saúde, a segurança ou os direitos fundamentais das pessoas singulares, nomeadamente se não influenciarem de forma significativa o resultado da tomada de decisões. Mas, os sistemas de IA a que se refere o anexo III devem ser sempre considerados de risco elevado nos casos em que executarem a definição de perfis de pessoas singulares.

Prevê-se, ainda, que a qualquer momento a comissão possa atualizar a listagem do anexo III. Para tanto, é necessário que se preencham determinados requisitos: os sistemas de IA destinem-se a ser utilizados em qualquer um dos domínios enumerados no anexo III; e os sistemas de IA representem um risco de danos para a saúde e a segurança ou de repercussões negativas nos direitos fundamentais, e esse risco seja equivalente ou superior ao risco de danos ou repercussões negativas representado pelos sistemas de IA de risco elevado já referidos no anexo III, estabelecendo-se diversos critérios para o efeito. Para além do risco elevado, prevê-se a existência de sistemas de risco moderado e limitado.

São, ademais, tratados de forma específica os sistemas de inteligência artificial de finalidade geral, isto é, aqueles que têm capacidade para servir para diversas finalidades, tanto para utilização direta, como para integração noutros sistemas de IA. Quanto a estes há que estabelecer uma linha divisória entre os que importam risco sistémico e os que não envolvem. Os primeiros são os que apresentam capacidades de alto impacto, avaliadas com base em ferramentas e metodologias técnicas apropriadas, incluindo indicadores e referências, ou que, com base em uma decisão da Comissão, ex officio ou após um alerta qualificado pelo painel científico, sejam vistos como modelos de IA que tenham capacidades ou impacto equivalentes àqueles. Esta linha divisória será fundamental para se determinarem os deveres que vinculam os prestadores destes modelos.

Aos sistemas de risco elevado está associado um conjunto mais exigente de deveres: deveres de conceção e de desenvolvimento, assumindo particular importância, para o tema que tratamos, a obrigação resultante do artigo 10º, passando a exigir-se que os dados que sirvam para treino e aprendizagem da máquina cumpram diversos critérios de qualidade ali previstos; e deveres dos prestadores de serviços (os prestadores de sistemas de IA de risco elevado devem assegurar que os seus sistemas de IA de risco elevado cumpram os requisitos previstos no regulamento; indicar no sistema de IA de risco elevado ou, se tal não for possível, na embalagem ou na documentação que o acompanha, consoante o caso, o seu nome, o nome comercial registado ou a marca registada e o endereço no qual podem ser contactados; dispor de um sistema de gestão da qualidade que cumpra o disposto no artigo 17º; conservar a documentação nos termos do artigo 18º; quando tal esteja sob o seu controlo, manter os registos gerados automaticamente pelos sistemas de IA de risco elevado que disponibilizam, conforme previsto no artigo 19º; assegurar que o sistema de IA de risco elevado seja sujeito ao procedimento de avaliação da conformidade aplicável, tal como previsto no artigo 43º, antes da colocação no mercado ou da colocação em serviço; elaborar uma declaração UE de conformidade, nos termos do artigo 47º; apor a marcação CE no sistema de IA de risco elevado ou, se tal não for possível, na embalagem ou na documentação que o acompanha, para indicar a conformidade com o regulamento; respeitar as obrigações de registo a que se refere o artigo 49º; adotar as medidas corretivas necessárias e prestar as informações, tal como estabelecido no artigo 20º; mediante pedido fundamentado de uma autoridade nacional competente, demonstrar a conformidade do sistema de IA de risco elevado com os requisitos estabelecidos pelo regulamento); deveres dos responsáveis pela implantação (dever de adotar medidas técnicas e organizativas adequadas para garantir que utilizam esses sistemas de acordo com as instruções de utilização que os acompanham; dever de atribuir a supervisão humana a pessoas singulares que possuam as competências, a formação e a autoridade necessárias, bem como o apoio necessário; nas hipóteses em que exerça controlo sobre os dados de entrada, dever de assegurar que os dados de entrada sejam pertinentes e suficientemente representativos tendo em vista a finalidade prevista do sistema de IA de risco elevado; dever de controlar o funcionamento do sistema de IA de risco elevado com base nas instruções de utilização; dever de manter os registos gerados automaticamente pelo sistema de IA de risco elevado, desde que esses registos estejam sob o seu controlo, por um período adequado à finalidade prevista do sistema de IA de risco elevado; dever de realizar uma avaliação de impacto sobre a proteção de dados; tratando-se de sistemas de risco elevado previstos no anexo III, que tomam decisões ou ajudam a tomar decisões relacionadas com pessoas singulares, dever de informar as pessoas singulares de que estão sujeitas à utilização do sistema de IA; dever de cooperar com as autoridades competentes em todas as medidas que essas autoridades tomarem em relação a um sistema de IA de risco elevado).

Estabelecem-se, igualmente, especiais deveres de transparência relativamente a certos sistemas, nos termos do artigo 50º, bem como para os sistemas de finalidade geral, deveres esses que, neste último caso, divergirão consoante o sistema apresente risco sistémico ou não.

Fundamental será, portanto, articular de forma compatibilizadora as regras resultantes do Regulamento IA com o regime instituído pelo RGPD. Os desafios, contudo, são muitos. E mais serão se pensarmos que uma eventual tutela ressarcitória não está ainda, sempre que se lide com a IA, totalmente assegurada, atentas as dificuldades que a esse nível se enfrentam.

1 Pedro Nunes, Um sistema de inteligência artificial nas bocas do mundo, Observatório Almedina, 2023.

Coordenação

Cintia Rosa Pereira de Lima , professora de Direito Civil da Faculdade de Direito da USP Ribeirão Preto – FDRP. Doutora em Direito Civil pela Faculdade de Direito da USP com estágio na Ottawa University (Canadá) com bolsa CAPES - PDEE - Doutorado Sanduíche e livre-docente em Direito Civil Existencial e Patrimonial pela Faculdade de Direito de Ribeirão Preto (USP). Pó-doutora em Direito Civil na Università degli Studi di Camerino (Itália) com fomento FAPESP e CAPES. Líder e Coordenadora dos Grupos de Pesquisa "Tutela Jurídica dos Dados Pessoais dos Usuários da Internet" e "Observatório do Marco Civil da Internet", cadastrados no Diretório de Grupos de Pesquisa do CNPq e do Grupo de Pesquisa "Tech Law" do Instituto de Estudos Avançados (IEA/USP). Presidente do Instituto Avançado de Proteção de Dados – IAPD - www.iapd.org.br. Associada Titular do IBERC - Instituto Brasileiro de Responsabilidade Civil. Membro fundador do IBDCONT - Instituto Brasileiro de Direito Contratual. Advogada.

Cristina Godoy Bernardo de Oliveira , professora doutora da Faculdade de Direito de Ribeirão Preto – Universidade de São Paulo desde 2011. Academic Visitor da Faculty of Law of the University of Oxford (2015-2016). Pós-doutora pela Université Paris I Panthéon-Sorbonne (2014-2015). Doutora em Filosofia do Direito pela Faculdade de Direito da USP (2011). Graduada pela Faculdade de Direito da USP (2006). Líder do Grupo de Pesquisa Direito, Ética e Inteligência Artificial da USP – CNPq. Coordenadora do Grupo de Pesquisa "Tech Law" do Instituto de Estudos Avançados (IEA/USP). Membro fundador do Instituto Avançado de Proteção de Dados – IAPD. Coordenadora do MBA em Direito e Tecnologia, oferecido pelo Centro de Inteligência Artificial e Aprendizado de Máquina (CIAAM+) da USP. https://ciaamplus.com.

Evandro Eduardo Seron Ruiz , professor Associado do Departamento de Computação e Matemática, FFCLRP - USP, onde é docente em dedicação exclusiva. Atua também como orientador no Programa de Pós-graduação em Computação Aplicada do DCM-USP. Bacharel em Ciências de Computação pela USP, mestre pela Faculdade de Engenharia Elétrica da UNICAMP, Ph.D. em Electronic Engineering pela University of Kent at Canterbury, Grã-Bretanha, professor lLivre-docente pela USP e pós-Doc pela Columbia University, NYC. Coordenador do Grupo de Pesquisa "Tech Law" do Instituto de Estudos Avançados (IEA/USP). Membro fundador do Instituto Avançado de Proteção de Dados – IAPD.

Nelson Rosenvald é advogado e parecerista. Professor do corpo permanente do Doutorado e Mestrado do IDP/DF. Pós-Doutor em Direito Civil na Università Roma Tre. Pós-Doutor em Direito Societário na Universidade de Coimbra. Visiting Academic na Oxford University. Professor Visitante na Universidade Carlos III, Madrid. Doutor e Mestre em Direito Civil pela Pontifícia Universidade Católica de São Paulo – PUC/SP. Presidente do Instituto Brasileiro de Estudos de Responsabilidade Civil – IBERC. Foi Procurador de Justiça do Ministério Público de Minas Gerais.

Newton De Lucca , professor Titular da Faculdade de Direito da USP. Desembargador Federal, presidente do Tribunal Regional Federal da 3ª Região (biênio 2012/2014). Membro da Academia Paulista de Direito. Membro da Academia Paulista de Letras Jurídicas. Membro da Academia Paulista dos Magistrados. Vice-presidente do Instituto Avançado de Proteção de Dados.