A nossa IA é tamanho único, sirva-se! - Parte 1

Migalhas de IA e Proteção de Dados

Os novos brasileiros que nascerão em 2025 irão nascer num país divido. Segundo o ranking do saneamento deste ano, hoje 32 milhões de brasileiros não têm acesso à água potável e 90 milhões de pessoas não desfrutam de moradias com coleta de esgoto¹. Se recursos básicos faltam a uma parte considerável dos 212 milhões de brasileiros, o mesmo acontece com os recursos tecnológicos que hoje são fundamentais para exercer a cidadania por completo. Segundo estudos do Banco Mundial "Em toda a América Latina, a divisão digital não é apenas uma questão tecnológica, mas um reflexo evidente da desigualdade de renda. O Brasil não é exceção. O acesso à internet, uma porta de entrada crucial para a educação, oportunidades de emprego e serviços essenciais, continua a ser distribuído de forma desigual." ²

Em agosto deste ano, a OIT - Organização Internacional do Trabalho, e o Escritório do Enviado do Secretário-Geral da ONU para a tecnologia publicaram um alerta conjunto afirmando que, sem uma ação internacional, a revolução da IA pode aumentar a diferença entre países de alta e baixa renda³. Ou seja, nós cidadãos brasileiros, as empresas aqui instaladas e os serviços públicos nacionais, poderemos todos sermos alcançados também pelo chamado "AI divide", ou seja, veremos uma grande divisão entre os países que usam racionalmente a Inteligência Artificial para promover o seu desenvolvimento e o desenvolvimento de sua sociedade e aqueles países que não usam ou nem ao menos têm acesso a IA.

Em abril deste ano, publiquei neste periódico um artigo sobre os riscos de não termos uma IA a estilo do ChatGPT⁴, ou seja, um grande modelo de linguagem (Large Language Model - LLM), uma IA generativa, que fosse constituída primariamente de textos em português. A prevalência e superioridade das IAs generativas escritas majoritariamente em inglês podem sim afetar a nossa língua, pois estas IAs são tão úteis e capazes quantos os dados que são fornecidos a elas. O que fazer então se estas IAs são alimentadas primariamente com dados estrangeiros escritos na língua inglesa? Como estas IAs podem atender plenamente nossas necessidades como brasileiros? O que sabem sobre a nossa história, nossa cultura, nosso cotidiano, nossa língua? Podemos usar estas IAs como ferramentas nas nossas escolas e nos nossos escritórios?

Questões como estas acima não nos levam a um brasilianismo exacerbado, não conduzem a um documento sugerindo uma nova edição da Semana de Arte Moderna de 1922, ou um levante pela antropofagia computacional. Longe disso. A questão é que alguns países já têm respostas a estas perguntas e, devido a estas respostas, estes países criaram seus próprios modelos de linguagem. Estes são alguns deles:

Suécia: Três empresas, a AI Sweden, juntamente com a RISE e a WASP WARA Media & Language, desenvolveram um modelo de linguagem generativo em larga escala para as línguas nórdicas, principalmente o sueco. Chama-se GPT-SW3. Como um serviço aberto, qualquer indivíduo, empresa, agência governamental ou organização pode aproveitar o poder do GPT-SW3 para desenvolver produtos e serviços com esta IA generativa;
Japão: Com a união do Tokyo Institute of Technology, da Tohoku University, Fujitsu, RIKEN, Nagoya University, CyberAgent, e Kotoba Technologies, formou-se uma equipe de pesquisadores que lançou o Fugaku-LLM, um grande modelo de linguagem (LLM) com capacidade aprimorada para a língua japonesa e destinado para uso comercial, utilizando o supercomputador Fugaku da RIKEN;
China: Certamente a China não poderia se deixar "invadir" por IAs estrangeiras e desde o ano passado já havia lançado mais de 70 LLMs distintos. Hoje a China discute a evolução destes modelos de linguagem⁵;
Índia: A Índia, o país mais populoso do mundo com 1,45 bilhões de pessoas e o país com maior variedade linguística (121 línguas) lançou em outubro deste ano o BharatGen, o primeiro modelo de linguagem indiano feito com apoio governamental. Como afirma o governo indiano o "BharatGen, é uma iniciativa pioneira em IA generativa projetada para revolucionar a prestação de serviços públicos e aumentar o engajamento dos cidadãos por meio do desenvolvimento de um conjunto de modelos fundamentais em linguagem, fala e visão computacional." ⁶
Brasil: Sim, já temos o sabiá-2, um modelo de linguagem "Made in Brazil" criado pela Maritaca AI, uma startup de Campinas, SP. Este modelo de linguagem foi lançado março deste ano 2024 e foi é tido como o primeiro LLM especializado em português. Temos também o Amazonia IA. O modelo Amazônia IA é capaz de oferecer um contexto mais detalhado sobre temas relacionados à "cultura brasileira". Por exemplo, perguntas como "quais são as festas regionais mais populares do Brasil?" ou "quais são os hábitos alimentares dos brasileiros?" podem ser feitas à IA. Além disso, os usuários podem acessar informações sobre legislação, obras literárias, cultura brasileira, pesquisas científicas locais, entre outros assuntos nacionais⁷.

E o Brasil não para nestes dois modelos, neste artigo recente⁷, a mesma equipe que lançou o Sabiá, a Maritaca AI de Rodrigo Nogueira, docente voluntário na Unicamp, especializou o modelo Sabiá-2 para a área jurídica criando o Juru, um modelo de linguagem especializado com 1,9 bilhão de tokens únicos de fontes jurídicas brasileiras conceituadas. Neste mesmo artigo, os autores demonstram as capacidades do modelo avaliando-o em exames de conhecimento geral e jurídico⁸.

Considerando as iniciativas acima citadas, além dos já conhecidos modelos, tais como o ChatGPT da Open AI, o Copilot da Microsoft; o Llama da Meta (Instagram, Facebook e WhatsApp) e os modelos Bard e Gemini da Alphabet (Google), uma das primeiras questões que podem surgir é: Será que o Brasil, como um país independente, deveria ter seu próprio modelo de linguagem desenvolvido com textos na nossa língua portuguesa (almanaques, livros, revistas, jornais e outros periódicos) e com nossos conteúdos artísticos (certamente sem infração de copyright)?

Só falar português não basta

Percebam que, além do que muitos pensavam antes que bastava ter uma IA generativa que falava nossa língua portuguesa para podermos manter uma identidade nacional, essa ideia, atualmente, já se foi, já era. Vide os modelos Amazonia IA e Juru acima citados. Eles abarcam uma identidade nacional que vai além da língua, mas que versa sobre a cultura nacional como um todo. Nesta IA são incorporados elementos da nossa literatura, gastronomia, tema locais, sistemas jurídicos nacionais, entre outras 'brasilianices'.

Portugal também já percebeu a importância desse viés nacionalista, porém não antropofágico. GlórIA é o novo modelo de linguagem de grande escala em português, desenvolvido pelo Grupo de Sistemas Multimodais da NOVA LINCS. GlórIA é um LLM de alto desempenho em PT-PT, ou seja, gerado para "falar" português e elaborado com fontes portuguesas, textos portugueses. O GlórIA é um LLM capaz de gerar textos de alta qualidade sobre uma variedade de tópicos, como história, meio ambiente, culinária, entre muitos outros. Liderada pelo Prof. David Semedo, a equipe da NOVA LINCS lançou o GlórIA, o primeiro modelo generativo treinado em um extenso corpus em português de alta qualidade com mais de 35 bilhões de tokens, abrangendo um conjunto altamente diversificado de fontes de dados [9].

Sabendo tudo isso, ainda fica a questão: "Quais são as vantagens e motivações para se investir num grande modelo de linguagem estritamente nacional?"

Motivos para termos um modelo de linguagem nacional

Soberania e Segurança Nacional: Países desenvolvem seus próprios LLMs para manter a soberania e a segurança nacional, já que o controle de dados é vital. Lembrem-se, esses modelos de linguagem usam a estratégia de aprendizado por reforço, ou seja, as suas perguntas e os dados que você posta no modelo servem como "alimento" para esta IA generativa. A dependência de LLMs estrangeiros pode colocar em risco a segurança de dados e, eventualmente, deixar brechas para permitir alguma forma de influência externa. LLMs locais ajudam a evitar espionagem e ataques cibernéticos;
Relevância Cultural e Linguística: A linguagem é parte fundamental da identidade cultural de um país. LLMs de grandes empresas estrangeiras de tecnologia podem não capturar a diversidade linguística de cada região. Modelos nacionais ajudam a preservar e promover línguas locais, auxiliando na educação e comunicação digital;
Privacidade e Ética: Com preocupações crescentes sobre privacidade de dados, LLMs locais garantem conformidade com leis e padrões éticos do país em que são desenvolvidas, podendo ser projetados para mitigar preconceitos presentes em conjuntos de dados estrangeiros;
Crescimento Econômico e Avanço Tecnológico: Desenvolver LLMs próprios pode impulsionar o crescimento econômico e o progresso tecnológico, fomentando inovação e criando empregos. Eles podem otimizar operações em várias áreas de aplicação, como educação, segurança, saúde e finanças; e, não menos;
Autonomia Estratégica e Competitividade Global: Ter autonomia em capacidades de IA é crucial para competitividade global. LLMs domésticos têm o potencial de permitir que países conduzam suas agendas de IA e participem do cenário global em condições de igualdade.

Como quase tudo nesta vida, a construção de um grande modelo nacional de linguagem não é uma tarefa que só permite a visão das vantagens envolvidas. Existem também as desvantagens e, entre elas, o alto custo de desenvolvimento e manutenção destas IAs. No entanto, deixaremos esta discussão sobre as desvantagens na construção de um modelo nacional de IA generativa para o próximo artigo para o qual também abordaremos as diferenças entre um eventual desenvolvimento governamental e as iniciativas particulares.

________

1 Um cenário que não muda: no Brasil, 90 milhões de pessoas não têm acesso à coleta de esgoto. Revista Exame. Disponível aqui. Último acesso em 3 de novembro de 2024.

2 Bridging Brazil's digital divide: How internet inequality mirrors income gaps. World Bank Blogs. Disponível aqui. Último acesso em 3 de novembro de 2024.

3 Mind the Gap: Bridging the AI divide will ensure an equitable future for all. Disponível aqui. Último acesso em 3 de novembro de 2024.

4 A nossa Língua Portuguesa está em risco de extinção? Migalhas. Disponível aqui. Último acesso em 3 de novembro de 2024.

5 The Evolution of Chinese Large Language Models (LLMs). Disponível aqui. Último acesso em 3 de setembro de 2024.

6 Launch of BharatGen: The first Government supported Multimodal Large Language Model Initiative. Disponível aqui. Último acesso em 3 de setembro de 2024.

7 Conhecendo as IAs brasileiras, Sabiá-2 e Amazônia IA. Disponível aqui. Último acesso em 2 de setembro de 2024.

8 Juru: Legal Brazilian Large Language Model from Reputable Sources. ArXvi. Disponível aqui. Último acesso em 2 de setembro de 2024.

9 GlórIA: the new Portuguese-European Large Language Model. Disponível aqui. Último acesso em 2 de setembro de 2024.

COORDENAÇÃO

Cintia Rosa Pereira de Lima , professora de Direito Civil da Faculdade de Direito da USP Ribeirão Preto - FDRP. Doutora em Direito Civil pela Faculdade de Direito da USP com estágio na Ottawa University (Canadá) com bolsa CAPES - PDEE - Doutorado Sanduíche e livre-docente em Direito Civil Existencial e Patrimonial pela Faculdade de Direito de Ribeirão Preto (USP). Pó-doutora em Direito Civil na Università degli Studi di Camerino (Itália) com fomento FAPESP e CAPES. Líder e Coordenadora dos Grupos de Pesquisa "Tutela Jurídica dos Dados Pessoais dos Usuários da Internet" e "Observatório do Marco Civil da Internet", cadastrados no Diretório de Grupos de Pesquisa do CNPq e do Grupo de Pesquisa "Tech Law" do Instituto de Estudos Avançados (IEA/USP). Presidente do Instituto Avançado de Proteção de Dados - IAPD - www.iapd.org.br. Associada Titular do IBERC - Instituto Brasileiro de Responsabilidade Civil. Membro fundador do IBDCONT - Instituto Brasileiro de Direito Contratual. Advogada.

Cristina Godoy Bernardo de Oliveira , professora doutora da Faculdade de Direito de Ribeirão Preto - Universidade de São Paulo desde 2011. Academic Visitor da Faculty of Law of the University of Oxford (2015-2016). Pós-doutora pela Université Paris I Panthéon-Sorbonne (2014-2015). Doutora em Filosofia do Direito pela Faculdade de Direito da USP (2011). Graduada pela Faculdade de Direito da USP (2006). Líder do Grupo de Pesquisa Direito, Ética e Inteligência Artificial da USP - CNPq. Coordenadora do Grupo de Pesquisa "Tech Law" do Instituto de Estudos Avançados (IEA/USP). Membro fundador do Instituto Avançado de Proteção de Dados - IAPD. Coordenadora do MBA em Direito e Tecnologia, oferecido pelo Centro de Inteligência Artificial e Aprendizado de Máquina (CIAAM+) da USP. https://ciaamplus.com.

Evandro Eduardo Seron Ruiz , professor Associado do Departamento de Computação e Matemática, FFCLRP - USP, onde é docente em dedicação exclusiva. Atua também como orientador no Programa de Pós-graduação em Computação Aplicada do DCM-USP. Bacharel em Ciências de Computação pela USP, mestre pela Faculdade de Engenharia Elétrica da UNICAMP, Ph.D. em Electronic Engineering pela University of Kent at Canterbury, Grã-Bretanha, professor lLivre-docente pela USP e pós-Doc pela Columbia University, NYC. Coordenador do Grupo de Pesquisa "Tech Law" do Instituto de Estudos Avançados (IEA/USP). Membro fundador do Instituto Avançado de Proteção de Dados - IAPD.

Nelson Rosenvald é advogado e parecerista. Professor do corpo permanente do Doutorado e Mestrado do IDP/DF. Pós-Doutor em Direito Civil na Università Roma Tre. Pós-Doutor em Direito Societário na Universidade de Coimbra. Visiting Academic na Oxford University. Professor Visitante na Universidade Carlos III, Madrid. Doutor e Mestre em Direito Civil pela Pontifícia Universidade Católica de São Paulo - PUC/SP. Presidente do Instituto Brasileiro de Estudos de Responsabilidade Civil - IBERC. Foi Procurador de Justiça do Ministério Público de Minas Gerais.

Newton De Lucca , professor Titular da Faculdade de Direito da USP. Desembargador Federal, presidente do Tribunal Regional Federal da 3ª Região (biênio 2012/2014). Membro da Academia Paulista de Direito. Membro da Academia Paulista de Letras Jurídicas. Membro da Academia Paulista dos Magistrados. Vice-presidente do Instituto Avançado de Proteção de Dados.

outras edições

APOIADORES

FOMENTADORES