A nossa IA é tamanho único, sirva-se! - Parte 1

Evandro Eduardo Seron Ruiz

As motivações e as vantagens de termos modelos generativos “Made in Brazil” de inteligência artificial como uma alternativa à utilização de modelos desenvolvidos no exterior e baseados em outras línguas que não o português.

8/11/2024

Os novos brasileiros que nascerão em 2025 irão nascer num país divido. Segundo o ranking do saneamento deste ano, hoje 32 milhões de brasileiros não têm acesso à água potável e 90 milhões de pessoas não desfrutam de moradias com coleta de esgoto¹. Se recursos básicos faltam a uma parte considerável dos 212 milhões de brasileiros, o mesmo acontece com os recursos tecnológicos que hoje são fundamentais para exercer a cidadania por completo. Segundo estudos do Banco Mundial “Em toda a América Latina, a divisão digital não é apenas uma questão tecnológica, mas um reflexo evidente da desigualdade de renda. O Brasil não é exceção. O acesso à internet, uma porta de entrada crucial para a educação, oportunidades de emprego e serviços essenciais, continua a ser distribuído de forma desigual.” ²

Em agosto deste ano, a OIT - Organização Internacional do Trabalho, e o Escritório do Enviado do Secretário-Geral da ONU para a tecnologia publicaram um alerta conjunto afirmando que, sem uma ação internacional, a revolução da IA pode aumentar a diferença entre países de alta e baixa renda³. Ou seja, nós cidadãos brasileiros, as empresas aqui instaladas e os serviços públicos nacionais, poderemos todos sermos alcançados também pelo chamado “AI divide”, ou seja, veremos uma grande divisão entre os países que usam racionalmente a Inteligência Artificial para promover o seu desenvolvimento e o desenvolvimento de sua sociedade e aqueles países que não usam ou nem ao menos têm acesso a IA.

Em abril deste ano, publiquei neste periódico um artigo sobre os riscos de não termos uma IA a estilo do ChatGPT⁴, ou seja, um grande modelo de linguagem (Large Language Model - LLM), uma IA generativa, que fosse constituída primariamente de textos em português. A prevalência e superioridade das IAs generativas escritas majoritariamente em inglês podem sim afetar a nossa língua, pois estas IAs são tão úteis e capazes quantos os dados que são fornecidos a elas. O que fazer então se estas IAs são alimentadas primariamente com dados estrangeiros escritos na língua inglesa? Como estas IAs podem atender plenamente nossas necessidades como brasileiros? O que sabem sobre a nossa história, nossa cultura, nosso cotidiano, nossa língua? Podemos usar estas IAs como ferramentas nas nossas escolas e nos nossos escritórios?

Questões como estas acima não nos levam a um brasilianismo exacerbado, não conduzem a um documento sugerindo uma nova edição da Semana de Arte Moderna de 1922, ou um levante pela antropofagia computacional. Longe disso. A questão é que alguns países já têm respostas a estas perguntas e, devido a estas respostas, estes países criaram seus próprios modelos de linguagem. Estes são alguns deles:

Suécia: Três empresas, a AI Sweden, juntamente com a RISE e a WASP WARA Media & Language, desenvolveram um modelo de linguagem generativo em larga escala para as línguas nórdicas, principalmente o sueco. Chama-se GPT-SW3. Como um serviço aberto, qualquer indivíduo, empresa, agência governamental ou organização pode aproveitar o poder do GPT-SW3 para desenvolver produtos e serviços com esta IA generativa;
Japão: Com a união do Tokyo Institute of Technology, da Tohoku University, Fujitsu, RIKEN, Nagoya University, CyberAgent, e Kotoba Technologies, formou-se uma equipe de pesquisadores que lançou o Fugaku-LLM, um grande modelo de linguagem (LLM) com capacidade aprimorada para a língua japonesa e destinado para uso comercial, utilizando o supercomputador Fugaku da RIKEN;
China: Certamente a China não poderia se deixar “invadir” por IAs estrangeiras e desde o ano passado já havia lançado mais de 70 LLMs distintos. Hoje a China discute a evolução destes modelos de linguagem⁵;
Índia: A Índia, o país mais populoso do mundo com 1,45 bilhões de pessoas e o país com maior variedade linguística (121 línguas) lançou em outubro deste ano o BharatGen, o primeiro modelo de linguagem indiano feito com apoio governamental. Como afirma o governo indiano o “BharatGen, é uma iniciativa pioneira em IA generativa projetada para revolucionar a prestação de serviços públicos e aumentar o engajamento dos cidadãos por meio do desenvolvimento de um conjunto de modelos fundamentais em linguagem, fala e visão computacional.” ⁶
Brasil: Sim, já temos o sabiá-2, um modelo de linguagem “Made in Brazil” criado pela Maritaca AI, uma startup de Campinas, SP. Este modelo de linguagem foi lançado março deste ano 2024 e foi é tido como o primeiro LLM especializado em português. Temos também o Amazonia IA. O modelo Amazônia IA é capaz de oferecer um contexto mais detalhado sobre temas relacionados à “cultura brasileira”. Por exemplo, perguntas como “quais são as festas regionais mais populares do Brasil?” ou “quais são os hábitos alimentares dos brasileiros?” podem ser feitas à IA. Além disso, os usuários podem acessar informações sobre legislação, obras literárias, cultura brasileira, pesquisas científicas locais, entre outros assuntos nacionais⁷.

E o Brasil não para nestes dois modelos, neste artigo recente⁷, a mesma equipe que lançou o Sabiá, a Maritaca AI de Rodrigo Nogueira, docente voluntário na Unicamp, especializou o modelo Sabiá-2 para a área jurídica criando o Juru, um modelo de linguagem especializado com 1,9 bilhão de tokens únicos de fontes jurídicas brasileiras conceituadas. Neste mesmo artigo, os autores demonstram as capacidades do modelo avaliando-o em exames de conhecimento geral e jurídico⁸.

Considerando as iniciativas acima citadas, além dos já conhecidos modelos, tais como o ChatGPT da Open AI, o Copilot da Microsoft; o Llama da Meta (Instagram, Facebook e WhatsApp) e os modelos Bard e Gemini da Alphabet (Google), uma das primeiras questões que podem surgir é: Será que o Brasil, como um país independente, deveria ter seu próprio modelo de linguagem desenvolvido com textos na nossa língua portuguesa (almanaques, livros, revistas, jornais e outros periódicos) e com nossos conteúdos artísticos (certamente sem infração de copyright)?

Só falar português não basta

Percebam que, além do que muitos pensavam antes que bastava ter uma IA generativa que falava nossa língua portuguesa para podermos manter uma identidade nacional, essa ideia, atualmente, já se foi, já era. Vide os modelos Amazonia IA e Juru acima citados. Eles abarcam uma identidade nacional que vai além da língua, mas que versa sobre a cultura nacional como um todo. Nesta IA são incorporados elementos da nossa literatura, gastronomia, tema locais, sistemas jurídicos nacionais, entre outras ‘brasilianices’.

Portugal também já percebeu a importância desse viés nacionalista, porém não antropofágico. GlórIA é o novo modelo de linguagem de grande escala em português, desenvolvido pelo Grupo de Sistemas Multimodais da NOVA LINCS. GlórIA é um LLM de alto desempenho em PT-PT, ou seja, gerado para “falar” português e elaborado com fontes portuguesas, textos portugueses. O GlórIA é um LLM capaz de gerar textos de alta qualidade sobre uma variedade de tópicos, como história, meio ambiente, culinária, entre muitos outros. Liderada pelo Prof. David Semedo, a equipe da NOVA LINCS lançou o GlórIA, o primeiro modelo generativo treinado em um extenso corpus em português de alta qualidade com mais de 35 bilhões de tokens, abrangendo um conjunto altamente diversificado de fontes de dados [9].

Sabendo tudo isso, ainda fica a questão: “Quais são as vantagens e motivações para se investir num grande modelo de linguagem estritamente nacional?”

Motivos para termos um modelo de linguagem nacional

Soberania e Segurança Nacional: Países desenvolvem seus próprios LLMs para manter a soberania e a segurança nacional, já que o controle de dados é vital. Lembrem-se, esses modelos de linguagem usam a estratégia de aprendizado por reforço, ou seja, as suas perguntas e os dados que você posta no modelo servem como “alimento” para esta IA generativa. A dependência de LLMs estrangeiros pode colocar em risco a segurança de dados e, eventualmente, deixar brechas para permitir alguma forma de influência externa. LLMs locais ajudam a evitar espionagem e ataques cibernéticos;
Relevância Cultural e Linguística: A linguagem é parte fundamental da identidade cultural de um país. LLMs de grandes empresas estrangeiras de tecnologia podem não capturar a diversidade linguística de cada região. Modelos nacionais ajudam a preservar e promover línguas locais, auxiliando na educação e comunicação digital;
Privacidade e Ética: Com preocupações crescentes sobre privacidade de dados, LLMs locais garantem conformidade com leis e padrões éticos do país em que são desenvolvidas, podendo ser projetados para mitigar preconceitos presentes em conjuntos de dados estrangeiros;
Crescimento Econômico e Avanço Tecnológico: Desenvolver LLMs próprios pode impulsionar o crescimento econômico e o progresso tecnológico, fomentando inovação e criando empregos. Eles podem otimizar operações em várias áreas de aplicação, como educação, segurança, saúde e finanças; e, não menos;
Autonomia Estratégica e Competitividade Global: Ter autonomia em capacidades de IA é crucial para competitividade global. LLMs domésticos têm o potencial de permitir que países conduzam suas agendas de IA e participem do cenário global em condições de igualdade.

Como quase tudo nesta vida, a construção de um grande modelo nacional de linguagem não é uma tarefa que só permite a visão das vantagens envolvidas. Existem também as desvantagens e, entre elas, o alto custo de desenvolvimento e manutenção destas IAs. No entanto, deixaremos esta discussão sobre as desvantagens na construção de um modelo nacional de IA generativa para o próximo artigo para o qual também abordaremos as diferenças entre um eventual desenvolvimento governamental e as iniciativas particulares.

________

1 Um cenário que não muda: no Brasil, 90 milhões de pessoas não têm acesso à coleta de esgoto. Revista Exame. Disponível aqui. Último acesso em 3 de novembro de 2024.

2 Bridging Brazil's digital divide: How internet inequality mirrors income gaps. World Bank Blogs. Disponível aqui. Último acesso em 3 de novembro de 2024.

3 Mind the Gap: Bridging the AI divide will ensure an equitable future for all. Disponível aqui. Último acesso em 3 de novembro de 2024.

4 A nossa Língua Portuguesa está em risco de extinção? Migalhas. Disponível aqui. Último acesso em 3 de novembro de 2024.

5 The Evolution of Chinese Large Language Models (LLMs). Disponível aqui. Último acesso em 3 de setembro de 2024.

6 Launch of BharatGen: The first Government supported Multimodal Large Language Model Initiative. Disponível aqui. Último acesso em 3 de setembro de 2024.

7 Conhecendo as IAs brasileiras, Sabiá-2 e Amazônia IA. Disponível aqui. Último acesso em 2 de setembro de 2024.

8 Juru: Legal Brazilian Large Language Model from Reputable Sources. ArXvi. Disponível aqui. Último acesso em 2 de setembro de 2024.

9 GlórIA: the new Portuguese-European Large Language Model. Disponível aqui. Último acesso em 2 de setembro de 2024.

Coordenação