O ChatGPT é realmente uma pequena maravilha do mundo da Inteligência Artificial (IA), no entanto, é uma máquina movida às expensas de todos os dados disponíveis na web, ou seja, os meus, os seus e os nossos. Vamos chamar o var?
Introdução
O ChatGPT é uma máquina de IA que ganhou 1M de usuários na primeira semana após seu lançamento em 30 de novembro de 2022. Com esta marca, o ChatGPT estabeleceu um recorde como o software cuja a base de usuários teve o crescimento mais rápido na história da Computação. São mais de 100M de usuários que fazem mais de 10M de consultas a este serviço diariamente1. Recordo que esta máquina já foi tema de alguns artigos deste periódico2-3 e, inclusive, já a entrevistamos em primeira mão no Brasil4.
Brevemente, o ChatGPT é uma máquina de IA que foi treinada sobre uma enorme quantidade de dados. Estima-se que tenha processado, ou seja, aprendido sobre o conhecimento expresso em 300 bilhões de palavras, conhecimento hoje que está armazenado em 570GB de memória. Estima-se que esta máquina tenha analisado toda a web, todos os livros abertos e toda a Wikipedia. Não é para menos que esse hit do momento esteja preocupando uma série de profissionais, inclusive os profissionais de Direito5. Para além de um serviço de conversação, ou seja, um chatbot, o ChatGPT tem sido procurado para responder a todo tipo de questão, desde de respostas a questões simples, até solicitações para gerar códigos de computador e petições de forma automática.
Meu objetivo aqui é suscitar algumas questões que julgo serem relevantes à proteção de dados individuais frente a essa massiva acumulação e processamento de dados, aliada a capacidade de produção textual muito semelhante (e as vezes superior) a capacidade de produção de uma grande parcela dos humanos. Assim, abordarei dois temas importantes e basilares, que são: a) o modelo evolucionário de captação, processamento e geração de dados que rompe com os modelos tradicionais de indexação e de perguntas e respostas à um serviço de busca (e.g.: Google), e; b) uma análise da exposição de dados promovidas pelo ChatGPT sob a ótica da privacidade como integridade contextual6.
Os dados que alimentam o ChatGPT
As máquinas de indexação e busca, a exemplo do Google e do Bing, são softwares projetados para indexar e procurar por palavras-chave em imensas bases de dados. Todos estamos acostumados a fazer buscas por páginas web que respondem com um conteúdo que pode explicar as nossas dúvidas. Mesmo assim, esses indexadores e buscadores apenas indicam as fontes de referência e, até o momento, para muitas perguntas complexas, não geram respostas objetivas, apenas um apanhado de texto que devemos ler e procurar pela resposta.
Os primeiros modelos de sistemas que respondem a perguntas foram baseados no sistema "ELIZA"7. Este sistema foi criado em 1966 pelo cientista da computação Joseph Weizenbaum, do MIT (Instituto de Tecnologia de Massachusetts). ELIZA foi desenvolvida para imitar a conversa (chat) com um terapeuta e trabalhava principalmente por meio de regras de substituição de padrões. Funcionava relativamente bem para casos simples que podem ser resumidos a um pequeno conjunto de regras.
Os demais modelos de resposta sempre foram baseados em busca por dados estruturados, ou seja, dados organizados geralmente na forma de tabelas cujos relacionametos entre os dados são, de certa forma, auto-explicados. Por exemplo, uma tabela de clientes de um comércio digital pode conter seus dados demográficos, uma lista de produtos que eventualmente tenham se interessado, além de uma relação de compras já realizadas. Deste modo, é relativamente fácil responder questõe como: quais os produtos mais vendidos na época natalina, qual é a preferência dos jovens para presentear no Dia da Mães, entre outras. Reparem que nestes casos o processamento é sempre realizado sobre dados tipificados, estruturados (tabela), ou seja, nos locais de armazenamento de endereço, telefone, email, são armazenados dados destes tipos respectivos.
Por outro lado, as máquinas de busca tradicionais indexam palavras contidas em documentos, as páginas web. Elas indexam palavras que são importantes para aquele tema e casam esta indexação com o perfil do usuário. Este perfil é conhecido do buscador pois esse mesmo usuário já realizou pesquisas anteriores. Neste tipo de indexação sobre textos livres (não tabelados, não estruturados) o usuário deve ler o texto para encontrar a resposta desejada.
O ChatGPT veio para alterar todo este sistema de respostas a perguntas de várias maneiras. Vejamos:
- O ChatGPT processa textos livres. Notem que a grande maioria das informações na web está descrita em texto livre, texto corrido, e não na forma de tabelas ou fórmulas. Alguém pode argumentar que o Google também processa textos livres já que tipicamente este é o tipo de informação retornada, ou seja, textual. A resposta é sim, as máquinas de busca processam texto livre, mas apenas indexam as palavras e não fazem relacionamentos entre elas. O ChatGPT, ao processar textos livres, estabelece valores às palavras e as relaciona.
- O ChatGPT é capaz de estabelecer relacionamentos contextualizados entre palavras e partes do texto, ou seja, esta máquina é capaz de distinguir e estabelecer “valores” para as palavras. Ela relaciona palavras e entidades pois é capaz de distinguir palavras ordinárias de nomes próprios, localizações geográficas, endereços, nome de doenças, entre outras. Notem que é comum que textos jornalísticos, textos de diários oficiais e outros documentos legais relatem dados pessoais como endereço e números de documentos. Para o ChatGPT não é necessário que estes dados estejam tabelados, tipificados, essa máquina pode reconhecer este tipo de dado pois ela executa um processamento contextual, ela aprende que determinado tipo de sequência numérica, por exemplo, é um número de CPF;
- O ChatGPT gera respostas e as escreve de modo que um humano pode entender. Diferentemente dos mecanismos de busca que retornam ao usuário um hiperlink para uma página web, o ChatGPT pode gerar respostas a perguntas, pode gerar textos críticos, pode gerar cartas, poemas, letras de música e pode até gerar códigos computacionais. Caso o usuário não aprove o texto, o usuário pode pedir para a máquina reescreve-lo que ela gera um novo texto semelhante ao anterior.
Cabe reforçar que, embora o ChatGPT possa ter tido contato com uma grande quantidade de dados pessoais, aparentemente foram implementados filtros que evitam que essa máquina revele dados pessoais tais como identificadores diretos (e.g: número de documentos, endereços, telefones, etc.). No entanto, dados pessoais mais sutís que eventualmente auxiliam na composição de um perfil pessoal, podem ser revelados. Um exemplo de aplicação de um modelo de linguagem que capta e gera estilos de escrita é o serviço character.ai. Este serviço gera mensagens como expressão de pessoas famosas, tais como Elon Musk, Albert Einstein, Mark Zuckerberg, entre outros. Esse é um exemplo de aplicação que capta dados sutis da forma de expressão de uma pessoa e é capaz de gerar textos não originais, mas semelhantes aos produzidos por ela.
O ChatGPT é um modelo de linguagem, ou seja, é uma máquina projetada para reconhecer e gerar textos com um encadeamento de palavras que ocorrem frequentemente. Deste modo, esta máquina analisa, para cada palavra, quais são as palavras que ocorrem junto a esta mais frequentemente e é por isso que os textos gerados são similares aos escritos por humanos. Ela gera textos que são uma mescla de outros textos produzidos. Daí o nome GPT (Generative Pre-trained Transformer). Embora a explicação técnica sobre esta tecnologia esteja longe da simplicidade, alguns textos oferecem um caminho suave para seu entendimento8.
Todavia, é sempre bom lembrar que, embora estejamos tratando o ChatGPT como uma solução para respostas a todo tipo de pergunta, o seu propósito sempre foi ser um chatbot, ou seja, um software que tenta simular um ser humano na conversação com as pessoas.
Sobre a exposição dos dados
Daniel Falcão e Kelvin Peroli, em artigo neste periódico, recordam o conceito de integridade contextual que é uma teoria da privacidade desenvolvida por Helen Nissenbaum9.
Este conceito compreende quatro reivindicações descritivas essenciais, que são:
- A privacidade é fornecida por fluxos apropriados de informações;
- Fluxos de informações apropriados são aqueles que estão em conformidade com as normas de informações contextuais;
- As normas informacionais contextuais referem-se a cinco parâmetros independentes: titular dos dados, remetente, destinatário, tipo de informação e princípio de transmissão; e
- As concepções de privacidade são baseadas em preocupações éticas que evoluem com o tempo.
Nesta acepção, convém rever que os dados usados para o treinamento do ChatGPT foram usados a revelia, ou melhor, não nos parece que os autores dos textos usados para o treinamento desta máquina foram perguntados e consentiram que seus textos fossem usados para esta finalidade. Mesmo que esses dados sejam considerados como dados públicos, me parece ser um princípio fundamental nas discussões sobre privacidade que as informações dos indivíduos não sejam reveladas fora do contexto em que foram originalmente produzidas.
Outro ponto a ser observado é que não é oferecido às pessoas acesso as informações individuais eventualmente armazenadas pela empresa proprietária do ChatGPT que é a OpenAI, tampouco é oferecido um meio de corrigir as informações geradas por ela.
Por exemplo, ao perguntar para o ChatGPT sobre quem era o autor que aqui escreve, esta foi a resposta:
"Segundo seu currículo Lattes, Evandro Eduardo Seron Ruiz possui doutorado em Engenharia Elétrica pela Universidade Estadual de Campinas (UNICAMP) e tem experiência na área de Engenharia de Computação, com ênfase em Sistemas Embarcados, Sistemas Operacionais e Sistemas Distribuídos. Ele também atua como coordenador do Laboratório de Sistemas Embarcados e Distribuídos (LSE) da USP."
Ou seja, pesquisou uma fonte segura e confiável, mas gerou dados totalmente errados a meu respeito.
Isso sem dizer que como o ChatGPT não é uma forma de inteligência pois, além de outros atributos faltantes, não é capaz de fazer inferências ou deduções próprias, ela apenas gera conteúdo baseado no conteúdo colocado por milhões de usuários da web, milhares de escritores e produtores de conteúdo os quais não receberam nenhum centavo ou nehuma ação pela sua participaçao nesta empresa recentemente avaliada em US$ 29 bilhões.
Enquanto isso, a OpenAI continua crescendo tanto que, há dez dias, lançou a versão 4 do GPT10. Como este, espera-se que outros modelos de linguagem deverão surgir para nichos específicos de atuação nos mais diversos setores. Vamos aguardar para que os organismos reguladores que devem responder pela garantia de privacidade de nossos dados analisem, à luz da lei, máquinas como esta.
__________
1 73Important ChatGPT Statistics & Facts for March 2023 (Gpt-4 Update). Disponível aqui. Último acesso em 21 de março de 2023.
2 Especialista explica como ChatGPT pode ajudar advogados nas petições. Disponível no Migalhas. Último acesso em 21 de março de 2023.
3 CHATGPT: O que é. Disponível no Migalhas. Último acesso em 21 de março de 2023.
4 ChatGPT e Filhos Advogados Associados. Disponível no Migalhas. Último acesso em 21 de março de 2023.
5 AI chatbots passing major professional exams in U.S. Disponível aqui. Último acesso em 21 de março de 2023.
6 As novas abordagens da privacidade: contextos, tipos e dimensões. Disponível no Migalhas. Último acesso em 21 de março de 2023.
7 WEIZENBAUM, Joseph. ELIZA — a computer program for the study of natural language communication between man and machine. Communications of the ACM, v. 9, n. 1, p. 36-45, 1966.
8 ChatGPT: Como usar, para que serve e como funciona. Disponível aqui. Último acesso em 21 de março de 2023.
9 DOYLE, Tony. Helen Nissenbaum, Privacy in Context: Technology, Policy, and the Integrity of Social Life: Stanford Law Books, 2010, xiv+ 288 pages, ISBN 978-0-8047-5237-4.
10 Microsoft's $10 Billion Investment in OpenAI: How it Could Impact the AI Industry and Stock Value. Disponível aqui. Último acesso em 21 de março de 2023.