Migalhas de IA e Proteção de Dados

A nossa IA é tamanho único, sirva-se! (Parte 2)

O texto "A nossa IA é tamanho único: sirva-se!" examina a complexidade de criação de modelos generativos “Made in Brazil” de inteligência artificial como uma alternativa à utilização de modelos desenvolvidos no exterior e baseados em outras línguas que não o português.

13/12/2024

No meu último texto para este periódico1 comentamos sobre como outros países estão tentando evitar uma próxima onda de dependência econômica, tecnológica e cultural criando os seus próprios modelos de linguagem para alimentarem as IAs generativas, ou seja, estas IAs a estilo do ChatGPT.

Neste mesmo artigo comentamos que em agosto deste ano, a OIT, Organização Internacional do Trabalho, e o Escritório do Enviado do Secretário-Geral da ONU para a Tecnologia publicaram um alerta conjunto afirmando que, sem uma ação internacional, a revolução da IA pode aumentar a diferença entre países de alta e baixa renda2. Neste artigo também destacamos como a Suécia, o Japão, a China, a índia e o Brasil já estão usando seus próprios modelos de linguagem para dirimir os eventuais gaps tecnológicos e culturais, como também para minimizar a dependência econômica das IAs generativas.

São vários os aspectos envolvidos que fomentam uma nação para dominar e comandar as suas próprias IAs, tais como: garantir a soberania e segurança nacional; manter e estimular a nossa preponderância cultural e linguística; acomodar nossas próprias questões de privacidade e ética; estimular o crescimento econômico e o avanço tecnológico, e; conquistar uma certa autonomia estratégica e um grau elevado de competitividade global.

Particularmente o nosso país luta bravamente com o Sabiá-2, um modelo de linguagem “Made in Brazil” criado pela Maritaca AI, uma startup de Campinas, SP.; o Amazonia IA, um modelo que é capaz de oferecer um contexto mais detalhado sobre temas relacionados à “cultura brasileira”3; e o Juru, um modelo especializado do Sabiá-2 para a área jurídica com 1,9 bilhão de tokens únicos de fontes jurídicas brasileiras conceituadas4.

No entanto, os caminhos para o domínio das IAs generativas é árduo e nem tudo são flores nesta empreitada tecnológica de nos apoderarmos de IAs generativas “Made in Brazil”. Os números da economia global são uma proxy, não só da importância de se dominar os recursos para IA no mundo, mas da escala de negócios abarcada por estas empresas e que impõem uma dominância quase que impeditiva para a concorrência. A exemplo, atualmente a Nvídia, empresa que majoritariamente produz placas gráficas de computadores (essas usadas em games) e os seus processadores gráficos (GPU), é a segunda maior empresa em valor de mercado no mundo, com um valor de US$ 3,39 trilhões, atrás apenas da Apple (US$3.59 trilhões) e “pouco” a frente da Microsoft (US$3.15 tri.). O crescimento assustador da Nvídia nos últimos anos é advindo de duas causas principais: a) suas GPUs são muito procuradas porque desempenham um papel fundamental no treinamento e operações de aplicativos de IA, e; b) essas GPUs também têm sido usados para minerar criptomoedas (usando o poder de processamento do computador para validar transações criptográficas e ganhar recompensas).

Par a par, a terceira startup mais valiosa no globo é a Open AI, dona do ChatGPT, com valor de mercado de US$157 bilhões, “pouco” atrás da Space X (US$200 bi) do bilionário Elon Musk, e ainda longe da chinesa ByteDance (US$225), a gigante da tecnologia chinesa que opera no ramo do entretenimento e mídia5. A ByteDande, ou Beijing ByteDance Technology Co. Ltd., é na verdade mais famosa por ser a dona do TikTok. Digno de nota: a ByteDance foi fundada em 2012, enquanto a OpenAI foi fundada a apenas 8 anos, em 2015.

Se, por um lado, o valor de mercado destas empresas anima os produtores de soluções em IA, assim como os anima em termos de amplitude de vendas e o curto intervalo de tempo para alcançar o clímax do status comercial, existem vários fatores que preocupam na hora de montar um negócio sob o tema de modelo de linguagem. Vamos passar brevemente por eles e escolher alguns para tecer alguns comentários adicionais.

Considerações na elaboração de um modelo de linguagem

A criação e a manutenção de um modelo de linguagem para uma língua única podem enfrentar diversas dificuldades. Aqui estão alguns dos principais fatores a serem considerados:

Diversidade dialetal: Sabemos que a principal “matéria prima” na elaboração de um modelo de linguagem para uma IA generativa é a manifestação escrita da língua, ou seja, textos. Neste ponto, raros são os países de dimensões continentais como o nosso, que falam uma única língua. Isso é uma enorme vantagem para a criação de um modelo de linguagem pois tem o potencial de simplificar o problema. Muitas línguas possuem várias variantes ou dialetos. Capturar essa diversidade em um único modelo pode ser desafiador, pois diferentes regiões podem usar vocabulários e gramáticas distintas.

Corpus de dados: A disponibilidade e a qualidade dos dados de treinamento, dos textos, são cruciais. Para línguas menos faladas no mundo, pode haver uma escassez relativa de textos e material de qualidade, dificultando a criação de um modelo robusto. O português é apenas a nona língua mais falada no mundo com pouco mais de 234 milhões de falantes.  É duas vezes menor que o Espanhol (quarta) e quase cinco vezes menor que o Inglês (segunda) e o Mandarim (primeira mais falada)6.

Mudanças linguísticas: As línguas estão em constante evolução. Novas palavras, gírias e expressões surgem regularmente, e um modelo precisa ser atualizado constantemente para refletir essas mudanças.

Ambiguidade e contexto: Muitas línguas possuem ambivalências e dependem fortemente do contexto. A interpretação correta de frases pode ser dificultada pela falta de clareza em algumas construções linguísticas. Esse é um problema não apenas dada a extensão territorial do Brasil que abarca populações com modos de falar distintos. Devemos considerar também que o português é falado na Europa, na África e na Ásia.

Recursos computacionais: Modelos de linguagem avançados exigem grande poder computacional. Isso pode ser um obstáculo, especialmente se o foco for em línguas que não atraem grandes investimentos privados por terem pouca expectativa de gerarem lucros advindos de novos produtos destas IAs.

Problemas éticos e culturais: A criação de modelos de linguagem deve considerar representatividade e viés. É importante incluir diferentes grupos de falantes da língua e evitar perpetuar estereótipos culturais.

Integração com aplicações: A implementação prática de um modelo de linguagem em aplicativos do dia a dia requer adaptações para que funcione de forma eficaz nas diferentes áreas de uso.

Acessibilidade e usabilidade: É fundamental que os modelos sejam acessíveis a falantes nativos e não nativos, considerando níveis variados de proficiência, especialmente em contextos educacionais.

No frigir dos ovos

Todas estas situações acima certamente são ponderadas pelas empresas que decidem atuar neste ramo de negócio. No entanto, não devemos nos esquecer que estas empresas sobrevivem da venda de seus produtos de IA, a exemplo do ChatGPT que é um serviço, um chatbot, que funciona amparado num modelo de linguagem. Obviamente estes serviços precisam gerar receitas para enfrentarem o alto custo de desenvolvimento e manutenção destas IAs. Em abril de 2023, o periódico online Futurism revelou que a OpenAI gasta US$700 mil por dia para manter a infraestrutura de suas IAs generativas7. Com o valor atual do dólar norte-americano na casa do R$6,00, isso corresponde hoje a mais de R$4,2 milhões por dia. Só quem tem mais de 100 milhões de usuários ativos pode arcar com um custo tão elevado.

Esse negócio de vender soluções de IA mostra-se tão lucrativo que existe uma concorrência forte no mercado cobiçado por outras grandes empresas, tais como a Meta, a X, o Facebook e a Microsoft. Dada esta concorrência, parte da estratégia é se manter atualizado. Quanto a isso, a OpenAI anunciou recentemente que deverá construir um novo cluster de computadores para processar suas IAs. Esse novo cluster deverá usar 100 mil GPUs do modelo mais recente da Nvidia, a placa GB200, uma inovação sobre o chip H1008. Como o H100 já tem o preço na ordem de US$25 mil cada, a nova placa GB200 está orçada em US$70 mil cada uma9. Ou seja, estamos comentando aqui que um único cluster de computadores deverá custar US$7 bilhões. Esse é o “tamanho” do investimento para tentar se manter atualizado.

Outra grande dificuldade que as empresas podem encontrar é quanto a “matéria prima” em português para uma IA de língua única que são os textos. Mas não existem muitos textos escritos em português na web? Sim, existem, mas estes correspondem a apenas 3,1% do conteúdo da web, comparado com os 52% dos textos em inglês10. Ou seja, existe uma preponderância muito ampla de textos em inglês em relação a qualquer outra língua. Como estas IAs dependem de uma grande quantidade de textos para poderem aprender e desempenharem bem, a língua inglesa oferece estes recursos com maior amplitude que as demais. Assim, elas se valem de traduções para poder atender as demais línguas.

Outra situação: para garantir que estas IAs generativas deem respostas confiáveis, elas precisam ser alimentadas com fontes confiáveis. E é aí que mora um dos grandes temores destas empresas. Onde achar textos confiáveis que não estejam protegidos por copyright ou alguma outra forma de limitação de uso da propriedade intelectual? Sabemos que jornais, livros e revistas são geralmente fontes de informação confiáveis, mas seus textos são geralmente protegidos. No mínimo é dever das empresas resguardar o copyright. Quanto a isso, os processos judiciais sobre vários tipos de infração de legislação de propriedade intelectual sobre textos se avolumam nos escritórios da OpenAI11, apenas para citar uma das empresas com este tipo de problema.

O blog TrialLine apresenta uma linha do tempo em que mostra processos de toda sorte sobre praticamente todas as empresas de IA generativa. Tem uma primeira etapa formada por processos versando sobre quebra de copyright por grandes jornais como o New York Times, uma segunda onda formada por escritores individuais e artistas visuais por supostas infrações relativas ao uso de suas obras (desenhos, pinturas, gravuras usadas pela DeepMid e Runway ML), músicas geradas artificialmente também foram alvo de grandes empresas no ramo de entretenimento como a Universal Music Group (UMG), Sony e Bloomberg, enfim, tem problemas para todos nestes "players”. Quase todos os grandes nomes da indústria que tangem ou usam a web estão relacionados a um processo ou outro: Amazon, Associated Press, Elon Musk, Financial Times, TIME, Google, YouTube...Tem para todo mundo.

O que desejamos mostrar nestes dois artigos foram a importância de termos domínio sobre a mais recente ferramenta que a humanidade tem a seu dispor, nas mais variadas formas de aplicações, que é a Inteligência Artificial, e sobre as grandes barreiras a serem transpostas para um país ou empresa nacional que deseje dominar estas ferramentas para garantir a independência econômica, tecnológica e cultural criando os seus próprios modelos de linguagem que alimentam as IAs generativas. Percebemos que este tema é uma “briga de cachorro grande”, mas que dada a singularidade e especificidade de nossa língua existem espaços que podemos e devemos atuar. É uma “briga” que está apenas começando, mas o Brasil já está marcando sua presença e com o suporte de cada um de nós, teremos condições de afirmar nossos maiores valores.

_________

1 A nossa IA é tamanho único, sirva-se! - Parte 1. Miglhas, coluna Migalhas de IA e Proteção de Dados. Disponível aqui. Último acesso em 9 de dezembro de 2024.

2 Mind the Gap: Bridging the AI divide will ensure an equitable future for all. Disponível aqui. Último acesso em 3 de novembro de 2024.

3 Conhecendo as IAs brasileiras, Sabiá-2 e Amazônia IA. Disponível aqui. Último acesso em 2 de setembro de 2024.

4 Juru: Legal Brazilian Large Language Model from Reputable Sources. ArXvi. Disponível aqui. Último acesso em 2 de setembro de 2024.

5 The Largest Companies by Market Cap in 2024. Disponível aqui. Último acesso em 9 de dezembro de 2024.

6 Quais são as línguas mais faladas no mundo? Disponível aqui. Último acesso em 12 de dezembro de 2024.

7 Just Running ChatGPT Is Costing OpenAI a Staggering Sum Every Single Day. Disponível aqui. Último acesso em 12 de dezembro de 2023.

8 One of OpenAI’s next supercomputing clusters will have 100k Nvidia GB200s (per The Information). Disponível aqui. Último acesso em 12 de dezembro de 2023.

9 NVIDIA Blackwell GB200 Superchip to Cost up to 70,000 US Dollars. Disponível aqui. Último acesso em 12 de dezembro de 2023.

10 Languages most frequently used for web content as of January 2024, by share of websites. Disponível aqui. Último acesso em 12 de dezembro de 2023.

11 The copyright lawsuits against OpenAI are piling up as the tech company seeks data to train its AI. Disponível aqui. Último acesso em 12 de dezembro de 2023.

12 Generative AI Lawsuits Timeline. Disponível aqui. Último acesso em 12 de dezembro de 2023.

Veja mais no portal
cadastre-se, comente, saiba mais

Coordenação

Cintia Rosa Pereira de Lima, professora de Direito Civil da Faculdade de Direito da USP Ribeirão Preto – FDRP. Doutora em Direito Civil pela Faculdade de Direito da USP com estágio na Ottawa University (Canadá) com bolsa CAPES - PDEE - Doutorado Sanduíche e livre-docente em Direito Civil Existencial e Patrimonial pela Faculdade de Direito de Ribeirão Preto (USP). Pó-doutora em Direito Civil na Università degli Studi di Camerino (Itália) com fomento FAPESP e CAPES. Líder e Coordenadora dos Grupos de Pesquisa "Tutela Jurídica dos Dados Pessoais dos Usuários da Internet" e "Observatório do Marco Civil da Internet", cadastrados no Diretório de Grupos de Pesquisa do CNPq e do Grupo de Pesquisa "Tech Law" do Instituto de Estudos Avançados (IEA/USP). Presidente do Instituto Avançado de Proteção de Dados – IAPD - www.iapd.org.br. Associada Titular do IBERC - Instituto Brasileiro de Responsabilidade Civil. Membro fundador do IBDCONT - Instituto Brasileiro de Direito Contratual. Advogada.

Cristina Godoy Bernardo de Oliveira, professora doutora da Faculdade de Direito de Ribeirão Preto – Universidade de São Paulo desde 2011. Academic Visitor da Faculty of Law of the University of Oxford (2015-2016). Pós-doutora pela Université Paris I Panthéon-Sorbonne (2014-2015). Doutora em Filosofia do Direito pela Faculdade de Direito da USP (2011). Graduada pela Faculdade de Direito da USP (2006). Líder do Grupo de Pesquisa Direito, Ética e Inteligência Artificial da USP – CNPq. Coordenadora do Grupo de Pesquisa "Tech Law" do Instituto de Estudos Avançados (IEA/USP). Membro fundador do Instituto Avançado de Proteção de Dados – IAPD.

Evandro Eduardo Seron Ruiz, professor Associado do Departamento de Computação e Matemática, FFCLRP - USP, onde é docente em dedicação exclusiva. Atua também como orientador no Programa de Pós-graduação em Computação Aplicada do DCM-USP. Bacharel em Ciências de Computação pela USP, mestre pela Faculdade de Engenharia Elétrica da UNICAMP, Ph.D. em Electronic Engineering pela University of Kent at Canterbury, Grã-Bretanha, professor lLivre-docente pela USP e pós-Doc pela Columbia University, NYC. Coordenador do Grupo de Pesquisa "Tech Law" do Instituto de Estudos Avançados (IEA/USP). Membro fundador do Instituto Avançado de Proteção de Dados – IAPD.

Nelson Rosenvald é advogado e parecerista. Professor do corpo permanente do Doutorado e Mestrado do IDP/DF. Pós-Doutor em Direito Civil na Università Roma Tre. Pós-Doutor em Direito Societário na Universidade de Coimbra. Visiting Academic na Oxford University. Professor Visitante na Universidade Carlos III, Madrid. Doutor e Mestre em Direito Civil pela Pontifícia Universidade Católica de São Paulo – PUC/SP. Presidente do Instituto Brasileiro de Estudos de Responsabilidade Civil – IBERC. Foi Procurador de Justiça do Ministério Público de Minas Gerais.

Newton De Lucca, professor Titular da Faculdade de Direito da USP. Desembargador Federal, presidente do Tribunal Regional Federal da 3ª Região (biênio 2012/2014). Membro da Academia Paulista de Direito. Membro da Academia Paulista de Letras Jurídicas. Membro da Academia Paulista dos Magistrados. Vice-presidente do Instituto Avançado de Proteção de Dados.