Em 20 de dezembro, o sistema o3 da OpenAI alcançou uma pontuação de 85% no teste de benchmark ARC-AGI, que é significativamente superior à melhor pontuação doIAIA anterior (55%) e equivalente à pontuação humana média. Ele também teve um bom desempenho em um teste de matemática muito difícil.
A criação de um inteligênciainteligência O Propósito Geral Artificial (AGI) é o objetivo declarado de todos os principais laboratórios de pesquisa de IA. À primeira vista, a OpenAI parece ter dado um passo significativo em direção a esse objetivo.
Embora o ceticismo permaneça, muitos pesquisadores e desenvolvedores de IA sentem que algo mudou. Para muitos, a perspectiva da AGI parece agora mais real, mais urgente e mais próxima do que o esperado. Eles estão certos?
Generalização e inteligência
Para entender o significado do resultado o3, você precisa entender o que é o teste ARC-AGI. Em termos técnicos, este é um teste da “eficiência amostral” de um sistema de IA em matériamatéria adaptação a algo novo, ou quantos exemplos de uma nova situação o sistema deve ver para entender como funciona.
Um sistema de IA como ChatGPT (GPT-4GPT-4) não é muito eficiente em termos de amostragem. Foi “treinado” em milhões de exemplos de texto humano, construindo “regras” probabilísticas sobre as combinações de palavras mais prováveis.
O resultado é bastante satisfatório para tarefas comuns. Ele tem um desempenho pior para tarefas mais raras porque tem menos dados e amostras sobre essas tarefas.
Até que os sistemas de IA possam aprender com um pequeno número de exemplos e adaptar-se de forma mais eficiente, só serão utilizados para tarefas altamente repetitivas e aquelas em que falhas ocasionais são toleráveis.
A capacidade de resolver com precisão problemas novos ou desconhecidos a partir de amostras limitadas de dados é conhecida como capacidade de generalização. É amplamente considerado um elemento necessário, até mesmo fundamental, da inteligência.
Grades e padrões
O teste de benchmark ARC-AGI avalia a adaptação eficaz de uma amostra usando pequenos problemas de grade como o mostrado abaixo. A IA deve encontrar o padrão que transforma a grade esquerda na grade direita.
Cada pergunta fornece três exemplos com os quais você pode aprender. O sistema de IA deve então determinar as regras que “generalizam” os três exemplos para o quarto.
Isso é muito parecido com os testes de QI que você deve lembrar da escola.
Regras fracas e adaptação
Não sabemos exatamente como a OpenAI fez isso, mas os resultados sugerem que o modelo o3 é muito adaptável. A partir de apenas alguns exemplos, ele encontra regras que podem ser generalizadas.
Para encontrar um padrão, não devemos fazer suposições desnecessárias, nem ser mais específicos do que o necessário. Em teoria, se você conseguir identificar as regras “mais fracas” que proporcionam o que deseja, você terá maximizado sua capacidade de adaptação a novas situações.
O que queremos dizer com “regras mais fracas”? A definição técnica é complicada, mas as regras mais fracas são geralmente aquelas que podem ser descritas por declarações mais simples.
No exemplo acima, uma expressão simples da regra poderia ser algo como: Qualquer forma com uma linha saliente se moverá para o final dessa linha e “cobrirá” quaisquer outras formas que ela se sobreponha.
Procurando por cadeias de pensamento?
Embora ainda não saibamos como a OpenAI alcançou esse resultado, parece improvável que eles tenham otimizado deliberadamente o sistema o3 para encontrar regras fracas. No entanto, para completar com sucesso as tarefas ARC-AGI, ele deve encontrá-las.
Sabemos que o OpenAI começou com uma versão geral do modelo o3 (que difere da maioria dos outros modelos porque pode passar mais tempo “pensando” em questões difíceis) e depois o treinou especificamente para testar o ARC-AGI.
O investigador francês de IA François Chollet, que desenhou o teste de benchmark, acredita que o modelo o3 procura diferentes “cadeias de pensamento” que descrevem os passos a seguir para resolver a tarefa. Escolheria então o “melhor” com base em uma regra vagamente definida ou ” heurísticaheurística “.
Isto não seria muito diferente da forma como o sistema AlfaGoAlfaGo de GoogleGoogle procurou por diferentes sequências de movimentosmovimentos possível vencer o campeão mundial.
Podemos pensar nessas cadeias de pensamento como programas que estão em conformidade com os exemplos. É claro que, se for como a IA do Go-playing, será necessária uma heurística, ou regra flexível, para decidir qual programa é o melhor.
Milhares de programas diferentes, cada um aparentemente tão válido quanto o outro, poderiam ser gerados. Esta heurística poderia ser “escolha o mais fraco” ou “escolha o mais simples”.
No entanto, se for um programa como o AlphaGo, tudo o que você precisa fazer é pedir a uma IA para criar uma heurística. Foi o que aconteceu com o AlphaGo. O Google treinou um modelo para classificar diferentes sequências de movimentos como melhores ou piores que outras.
O que ainda não sabemos
A questão então é: isso está realmente mais próximo da AGI? Se é assim que o3 funciona, o modelo subjacente pode não ter um desempenho muito melhor do que os modelos anteriores.
Os conceitos que o modelo aprende da linguagem podem não ser mais adequados para generalização do que antes. Em vez disso, poderíamos simplesmente observar uma “cadeia de pensamento” mais generalizável, descoberta através de etapas adicionais de treinamento de uma heurística especializada para esse teste. A prova estará na experimentação.
Quase tudo sobre o3 permanece desconhecido. A OpenAI limitou a divulgação a algumas apresentações na mídia e os testes iniciais a alguns pesquisadores, laboratórios e instituições responsáveis pela segurança da IA.
Compreender verdadeiramente o potencial da o3 exigirá um trabalho extensivo, incluindo avaliações, compreensão da distribuição das suas capacidades, com que frequência falha e com que frequência é bem-sucedida.
Quando o3 finalmente chegar ao mercado, saberemos muito melhor se ele é tão adaptável quanto um ser humano médio.
Se assim for, poderá ter um impacto económico enorme e revolucionário, inaugurando uma nova era de inteligência acelerada e de auto-aperfeiçoamento. Precisaremos de novos critérios para a própria AGI e de uma reflexão séria sobre a forma como esta deverá ser governada.
Caso contrário, será um resultado impressionante. No entanto, a vida diária permanecerá praticamente a mesma.