“Desculpe, não entendo você, só falo inglês “, lança a interface visível em uma tela gigante para Xavier Niel… que acaba de falar neste idioma! Risos na sala. “OK. Vou deixar vocês com pessoas que falam inglês melhor do que eu então “, responde o fundador da Ilíada. “Sim, será mais agradável aos nossos ouvidos “, conclui Moshi, sem piedade. Por mais divertida que seja, esta demonstração está perfeitamente em sintonia com os tempos.
Por mais de dois anos e com a chegada do ChatGPT da OpenAI no outono de 2022, a inteligência artificial generativa, e particularmente os modelos de linguagem, incorporou a IA. Nos discursos, na mídia, nos anúncios. “Para o público em geral, criou-se a ideia de que existe um antes e um depois do ChatGPT, reconhece Joseph Salmon, especialista em aprendizado de máquina do Instituto Nacional de Pesquisa em Ciências e Tecnologias Digitais (Inria), em Montpellier. Principalmente porque, quando se trata de tecnologias, tendemos a querer designar momentos de disrupção. “
A realidade é mais matizada. Se há revolução, ela se encontra sobretudo nos usos. ChatGPT é uma interface muito simples e intuitiva que não requer conhecimentos técnicos. Digitamos texto como normalmente fazemos em um mecanismo de pesquisa. Resultados: dois meses após sua disponibilização na Internet, o ChatGPT contava com 100 milhões de usuários ativos. Seguiram-se várias interfaces concorrentes (incluindo Gemini do Google), hoje integradas em ferramentas existentes (automação de escritório, gráficos, motores de busca, etc.). São capazes de processar e gerar texto, imagens, vídeo e voz, com qualidade inédita e realismo perturbador. “Para efeito de comparação, após a chegada da Internet para o consumidor, foram necessários dez anos para ver mudanças reais nos usos e serviços “, disse Michael Dell, CEO da Dell Technologies, que falou no ai-Pulse.
Diretora do Paris AI Research Institute (Prairie Institute), Isabelle Ryl vai além: “Nunca na história da pesquisa científica a velocidade de transferência foi tão rápida, ela observou em abril passado em Pesquisar (Nº 577). Vemos pesquisadores apresentando seus trabalhos na Siggraph (conferência internacional em imagens de computador e tecnologias interativas) E registrar uma patente no mesmo ano sobre o assunto em que foi apresentada e, em seguida, criar uma start-up doze meses depois. “
Leia tambémIA generativa, um quebra-cabeça de segurança cibernética
A IA generativa teve várias encarnações
O laboratório Kyutai é um bom exemplo deste ciclo acelerado. Apresentada durante a primeira edição do ai-Pulse em novembro de 2023, esta estrutura privada sem fins lucrativos anunciou que o seu primeiro projeto seria o desenvolvimento de um modelo de linguagem multimodal (processamento simultâneo de dados textuais, vocais e de imagem). Oito meses depois chegou Moshi, cujo código está disponível, em código aberto. Mas esta excitação baseia-se numa longa evolução.
A inteligência artificial gerativa teve várias encarnações antes do aparecimento de interfaces baseadas em instruções textuais como ChatGPT ou Dall-E. Inventado em 2014 por um pesquisador da Universidade de Montreal (Canadá), o método de redes adversárias generativas produziu o primeiro falsificações profundas e toda uma empolgação em torno da IA artística. Em 2015, o programa DeepDream do Google transformou automaticamente imagens existentes (pinturas, fotos) em visões alucinatórias.
E a IA generativa é apenas um aspecto do que chamamos de inteligência artificial estatística, a das redes neurais. Que coexiste com outro ramo: a IA simbólica. Este último consiste em codificar as regras de funcionamento e comportamento de um algoritmo, em programar explicitamente, em suma, o raciocínio (o computador Deep Blue, que venceu Garry Kasparov no xadrez em 1997, era uma IA simbólica). Isto permite compreender como um resultado foi obtido, especialmente se estiver errado.
Na IA estatística, um algoritmo de aprendizagem é treinado em um corpus de dados cujas características ele analisa e extrai regularidades de si mesmo. Uma vez testado e validado, esse algoritmo usa o que aprendeu para processar dados semelhantes, mas nos quais não foi treinado. Ele poderá, por exemplo, reconhecer um objeto, uma voz, um rosto ou identificar um tumor. Mas ele precisa de milhares de exemplos para chegar lá, onde alguns são suficientes para um ser humano.
Um uso pioneiro desse tipo de algoritmo remonta à década de 1990: o reconhecimento de dígitos manuscritos em cheques bancários. “Quando descobri as redes neurais no início dos anos 2000, elas eram consideradas obsoletas, lembra Joseph Salmon. Estas arquitecturas eram difíceis de manusear, eram tediosas e as pessoas que se aventuravam nelas não optavam por arquitecturas muito profundas, que hoje mostraram a sua eficácia. “
Leia tambémIA generativa, um “artista” produtivo mas sem originalidade
Probabilidades que servem como auxílio à decisão
A IA estatística decolou graças ao uso de processadores eletrônicos inicialmente desenvolvidos para renderização gráfica, GPUs, aliados ao acesso a quantidades de dados graças à Internet. Como Michael Dell resumiu durante sua palestra no ai-Pulse: “Onde quer que haja dados, haverá IA para melhorar os resultados. “Os modelos de linguagem são o exemplo exagerado. ChatGPT, Gemini, Llama do Facebook ou Claude da Anthropic estão longe de ser os primeiros bots de bate-papo da história, mas a qualidade da expressão e a fluidez das interações são incomensuráveis com o que foi feito antes.
Os resultados fornecidos por uma IA estatística são, na realidade, apenas probabilidades e só podem ser utilizados como apoio à decisão. Um cheque a posteriori é necessário. Um algoritmo de tradução substitui palavras escritas em um idioma por palavras de outro idioma calculadas como as mais prováveis, não com base em seu significado. Outra consequência do treinamento a partir de dados: a especialização. Uma IA capaz de vencer o melhor jogador de Go do mundo como o AlphaGo (do Google DeepMind) em 2016 é incapaz de pilotar um carro autônomo. As redes neurais apresentam outros problemas.
São tão complexos que é muito difícil, senão impossível – mesmo para quem os projetou – saber como alcançam os seus resultados. Este fenómeno, muitas vezes referido como “caixa negra”, constitui um verdadeiro desafio à integração destas tecnologias em sistemas críticos (segurança, indústria). A tal ponto que um campo de pesquisa por si só está se desenvolvendo em torno das noções de confiança e explicabilidade da IA. Mais uma vez, os modelos de linguagem fornecem uma ilustração extrema com as suas “alucinações”: resultados aberrantes que são difíceis de explicar, mas que a IA gera porque a sua lógica estatística exige que ela produza algo.
Extremamente dependentes de dados, esses algoritmos também estão expostos a preconceitos. Os corpora de formação nunca são, de facto, neutros, porque são criados por humanos de acordo com uma série de critérios (culturais, linguísticos, etc.) e reflectem fenómenos latentes (racismo, misoginia). Isto resulta na sobreponderação de determinadas características, correndo o risco de distorcer os resultados. Caso típico: um algoritmo de recrutamento abandonado pela Amazon em 2017 porque favorecia homens em cargos técnicos. Ou os preconceitos que penalizam os negros numa ferramenta para ajudar a avaliar o risco de reincidência nos Estados Unidos.
É sempre possível corrigir a situação criando um corpus de treino mais equilibrado, mas está comprovado que a redução de um enviesamento faz com que surjam outros… Finalmente, para uma determinada tarefa, a IA estatística tem dificuldade em processar e analisar casos atípicos porque, ao definição, não havia exemplos suficientes em seu corpus de treinamento. Este é um problema notório, principalmente no diagnóstico médico.
Consagração para redes neurais
A ciência da computação não é uma disciplina distinguida pelo Prêmio Nobel, mas tem as honras do Prêmio Turing. Em 27 de março de 2018, foi concedido a Yann LeCun, Yoshua Bengio e Geoffrey Hinton por seu trabalho em aprendizagem profunda, a fonte dos avanços deslumbrantes de hoje em IA. Avanços tais que dois pesquisadores da área ainda acabaram recebendo o Prêmio Nobel de Física em 2024: o biofísico John Hopfield e, novamente, o cientista da computação Geoffrey Hinton.
O primeiro apresentou uma rede neural artificial pioneira em 1982, que leva seu nome. A segunda lançou, em meados da década de 1980, um método de treinamento para redes neurais, a retropropagação gradiente. Em 2012, Geoffrey Hinton e dois de seus alunos da Universidade de Toronto (Canadá), Alex Krizhevsky e Ilya Sutskever (futuro desenvolvedor do ChatGPT), causaram sensação com este método na competição de visão computacional ImageNet, inaugurando os grandes dias da IA estatística.
Leia tambémPor que a IA generativa tende a mentir
Mantenha a cabeça fria na frente da máquina
Esses limites são conhecidos, bem identificados e são objeto de muita pesquisa. Paradoxalmente, não constituem a raiz do problema desta inteligência artificial que, no entanto, mostrou quão eficiente pode ser onde outras abordagens têm dificuldades. A questão levantada por estas tecnologias, particularmente com a IA generativa, é a das relações que mantemos com elas. Até o fascínio que exercem sobre nós, a ponto de termos neles uma confiança cega. Este é talvez o verdadeiro grande desafio da IA: os humanos manterem a cabeça fria diante das máquinas.
Uma corrida para o gigantismo
Grandes modelos de linguagem (ou LLMs) devem seu nome ao volume de seu corpus de dados de treinamento e ao número de parâmetros. Estes correspondem às conexões entre os neurônios no modelo. Cada um tem um valor que determina a importância que a característica de um dado terá na aprendizagem. Nesta área, a superioridade está na ordem do dia na IA generativa atual.
O modelo código aberto O Bloom tem 176 bilhões de parâmetros, uma versão do Llama 3-1 vai até 405 bilhões e o GPT-4o teria 1800 bilhões. Este tipo de arquitetura exige enormes capacidades computacionais, com consequências preocupantes em termos de consumo de energia e pegada de carbono. Alguns, no entanto, tentam ir contra esta tendência, sem prejudicar as capacidades dos algoritmos.
O centro de investigação francês Inria está a realizar investigação na chamada IA frugal, que poupa dados e recursos. Este também é um dos credos da Kyutai, que pretende rodar o Moshi em um computador pessoal, sem usar o nuvem (processamento em servidores remotos). “Existe atualmente uma corrida armamentista que não é necessariamente justificada “, estima o seu diretor Patrick Perez. Durante a conferência ai-Pulse, o diretor geral da Scaleway Damien Lucas estimou que seria melhor reunir capacidades computacionais na Europa, a fim de oferecer um “infraestrutura elástica”consistente com as necessidades de cada usuário, em vez de superdimensionar o centros de dados em processadores gráficos (GPU).