No final de outubro de 2024, a Anthropic Unveiled Computer-Uuse, um programa que permite que seu modelo de inteligência artificial Claude controlasse um computador como um humano. O que aconteceria se uma IA também pudesse acessar recursos financeiros para adquirir máquinas e serviços adicionais? Essa hipótese, embora exagerada, levanta uma questão fascinante. Uma IA poderia realmente se tornar autônoma e criar outra IA sem intervenção humana?
Ais lidera ai
Para entender como isso é possível, temos que voltar e explicar o que permitiu o progresso recente. Tudo começa em 2017, quando uma equipe de pesquisadores do Google publica um artigo científico: “Atenção é tudo o que você precisa” (é tudo o que você precisa). Nesta publicação, os pesquisadores introduziram uma nova arquitetura neural chamada “Transformers”, que ensina quais palavras dar “atenção” para poder gerar a seguinte palavra. Esta arquitetura Transformers agora estrutura todas as redes de neurôniosneurônios Texto moderno de geração de AIS.
A aparência dos Transformers levou o OpenAI a ser lançado em 2018 a primeira versão do GPT para gerar texto. Embora os princípios fundamentais tenham mudado pouco desde então, a escala e a ambição dos “principais modelos de idiomas” (ou Linguagem de modelos grandesLlm em inglês) explodiu.
O Google Gemini 2.0 em tempo real IA é insano.
Veja -me transformá -lo em um tutor de código ao vivo apenas compartilhando minha tela e conversando com ele.
Vivemos no futuro.
Estou sem palavras. pic.twitter.com/mtajyvwzl5
– McKay Wrigley (@mckaywrigley) 11 de dezembro de 2024
Assim, em maio de 2020, a chegada do GPT-3 marcou o início de uma categoria de IA capaz de modelar usando redes gigantescas de línguas humanas, seja natural ou formal como C ++ na ciência da computação. Observe que a modelagem com estatísticas não significa compreensão com processos cognitivos, e essas IA ainda produzem respostas absurdas para perguntas triviais.
Os modelos passaram de 1,5 bilhão de conexões para GPT-2 para algumas centenas de bilhões para o GPT-3 e seus sucessores, que corresponde a passar de cérebrocérebro de uma abelha à de um hamster em termos de número de sinapsessinapses. No entanto, o aumento de seu tamanho diminuiu nos últimos anos e não é mais o principal motor do progresso hoje.
Em vez disso, precisamos analisar as mudanças nas metodologias que ocorrem antes e depois de treinar o modelo.
Dados de melhor e melhor qualidade
O treinamento do LLM é baseado em textos usados como referência para ensiná -los a prever a seguinte palavra em uma frase. Para melhorar esse aprendizado, usamos cada vez mais dados: o GPT-2 foi levado a 30 bilhões de palavras (organizadas em sentenças, parágrafos e textos), contra onze mil bilhões de lhama-3.
No entanto, todos os textos, principalmente da Web, não têm a mesma qualidade. Os engenheiros, portanto, usam algoritmos de limpeza e, mais recentemente, se llm para melhorar, reformar ou gerar esses dados (por exemplo, para LLAMA-3 ou QWEN 2.5).
Assim, se o AIS já participar do treinamento de outras IA, essa prática permanece limitada pela lentidão do LLM. GPT-4GPT-4 levaria cerca de 17.000 anos para gerar apenas onze mil bilhões de palavras (ou cerca de 500 terabbytes de dados).
Depois que os dados são coletados, limpos e gerados, vem a fase de aprendizado adequada. Essa fase permanece difícil de configurar e requer um número colossal de recursos de cálculo, mas pouco mudou desde a primeira versão do GPT em 2018.
Supervisionar o aprendizado de uma IA, fornecendo feedback construtivo
Por outro lado, os pesquisadores analisaram a questão de melhorar um LLM após seu treinamento. De fato, uma das preocupações de um LLM crua é que ele é imprevisível e não corresponde necessariamente às necessidades humanas do ponto de vista das habilidades (recrutamento, diagnóstico médico, matemática) ou comportamentos éticos e sociais (chatbot politicamente correto, sem discriminação e respeitando leis).
Portanto, a idéia veio calibrar o LLM para que eles possam cumprir melhor as preferências de seus usuários. Para isso, a técnica de fortalecer o aprendizado com o feedback humano pergunta aos humanos sua opinião sobre textos gerados e leva LLM para agradar os humanos.
Nosso artigo CORL 2024 mostra que o aprendizado de reforço pode permitir que os robôs aprendam habilidades por meio da prática do mundo real, sem nenhuma demonstração ou engenharia de simulação. As recompensas recebem modelos de idioma/visão do usuário e a mobilidade dos robôs permite a exploração autônoma.
1/n pic.twitter.com/9xvdmq01a0– Russell Mendonca (@Mendonda_RL) 1 de outubro de 2024
Esse processo permitiu um grande salto em 2022 com o InstructGPT, um precursor do ChatGPT. No entanto, é extremamente caro porque requer muito trabalho manual. LLAMA-3 exigiu a anotação de dez milhões de preferências por seres humanos. Esses trabalhadores geralmente são pagos e em situações precárias.
É por isso que os pesquisadores procuram ficar sem a maioria dos humanos.
Quando a IA formar a IA
Em julho de 2024, uma equipe de cientistas MicrosoftMicrosoft Publica o AgentInstruct, um novo método para ensinar novas habilidades e comportamentos ao LLM.
Este método está focado na criação de especialistas em “agentes” em muitas áreas (matemática, código, medicina) que servem como professores do sistema durante o aprendizado. Nesse caso, um agente é ele próprio um LLM, mas aumentou por dados adicionais e ferramentas externas, como uma calculadora, a Internet ou um compilador de código de computador. Melhor armado e especializado do que um único LLM, ele se destaca em seu campo favorito. O AgentInstruct usa um batalhão de agentes que ensinarão seus conhecimentos a um LLM.
O resultado: o LLM progride sem acesso a nenhum outro recurso, diferentemente dos agentes. Por exemplo, um agente com uma calculadora pode melhorar o cálculo mental de um LLM.
Da mesma forma, graças ao programa de uso de computador, Claude poderia usar muitas ferramentas de computador para coletar, limpar e organizar seus próprios dados, ou até causar modelos de IA de forma mais independente, mobilizando agentes especializados. Faça a ele a pergunta sobre como ele poderia melhorar a si mesmo e é quase isso que ele responderá (isso ou recrutará um exército de humanos para anotar dados).
Mas então, como podemos explicar que ele ainda não é capaz de reproduzir e melhorar?
Antes de uma IA saber como reproduzir, um longo caminho técnico e questões éticas
Essa capacidade de criar agentes especializados levanta questões cruciais. Quem controla os agentes? Se o AIS participar de sua própria melhoria, como garantir que sua evolução permaneça ética e alinhada com interesses humanos? O papel dos desenvolvedores e reguladores será central para evitar possíveis desvios.
Ainda não estamos lá por vários motivos. O LLM atual, embora eficiente, é limitado: eles lutam para planejar projetos complexos, exigem ajustes constantes durante o treinamento e ainda dependem amplamente da intervenção humana, especialmente em Data centerspara gerenciar e manter as máquinas físicofísico.
Além disso, sem sua própria vontade, eles não podem estabelecer objetivos autônomos, independentemente das preferências humanas aprendidas. Sam AltmanSam AltmanCEO da OpenAI, evoca o possível surgimento de uma inteligência artificial geral em 2025, mas essa previsão permanece controversa, porque suporia avanços técnicos e uma melhor compreensão dos mecanismos cognitivos humanos.
Sam Altman diz que os sistemas de IA se tornarão gradualmente mais autônomos, sendo capazes de executar tarefas mais longas e mais longas, pois como um “colega de trabalho cada vez mais sênior” pic.twitter.com/czfvmtvuuf
– Tsarathustra (@Tsarnick) 1 de dezembro de 2024
O sucesso do LLM é baseado em quatro pilares: tamanho aumentado, inovações arquitetônicas, melhorando as técnicas de calibração e a melhoria dos dados. Avanços recentes, incluindo automação por meio de agentes especializados, já mostram que a IA desempenha um papel crescente na criação de outras IA. No entanto, sem sua própria vontade ou verdadeira autonomia, a idéia de uma IA capaz de multiplicar ou melhorar independentemente ainda é ficção científica.
De fato, uma revolução dessa magnitude exigiria uma revolta dos paradigmas atuais, com arquiteturas neurais capazes de inteligência verdadeiramente adaptativa e generalizada. Atualmente, uma vez que a fase de aprendizado seja concluída, as redes de neurônios LLM ficam congeladas: elas não podem mais evoluir ou adquirir novas habilidades de forma independente, mesmo após milhões de interações com usuários humanos.
Ao contrário dos humanos, que aprendem em contato com outras pessoas ou via Internal Reflection, os LLMs não têm mecanismos para adaptar dinamicamente sua estrutura interna ou construir representações profundas e revisíveis do mundo exterior. Yann Lecun, um prêmio francês de 2019, imagina uma nova geração de IA equipada com modelos internos, capaz de simular hipóteses e planejar como ser humano, integrando observações para compará -las com as expectativas pré -existentes. No entanto, a implementação prática dessa visão continua sendo um desafio científico.
Talvez um avanço tão decisivo quanto o dos Transformers em 2017 ocorrer nos próximos anos. Mas, por enquanto, a visão de inteligências artificiais totalmente autônomas, como von Neumann sonda colonizando ouniversouniversopermanece hipotético.
No entanto, esse cenário nos convida a refletir hoje sobre questões éticas e salvaguardasalvaguarda Legislativo e técnico necessário para supervisionar a evolução dessas tecnologias.