Existem algumas áreas cinzentas. A base de treinamento Deepseek, com tanta frequência neste setor, não foi revelada. Esse custo exibido de alguns milhões de dólares diz respeito apenas à versão final do Deepseek V3, não das iterações anteriores do modelo ou da constituição do corpus de treinamento (que a start-up especifica em seu artigo). O tipo e o número de microprocessadores da NVIDIA realmente usados também começam a ser debatidos. Especialista generativo de inteligência artificial no gabinete da onda, Julien Floch examinou o modelo.
“Ocorreções históricas e negação dos direitos humanos”
Sciences et avenir: a princípio, como você julga o Deepseek AI Chatbot?
Julien Floch: Na Wavestone, testamos assim que estiver disponível. Em matemática, na ciência, é um modelo realmente poderoso. Por outro lado, na história, assim que você faz perguntas sobre as manifestações na Praça Tian’anmen em 1989, nos uigures ou em Taiwan, vemos o chatbot escrevendo uma resposta então, literalmente a apaga e escrevemos que ele não pode responder.
Com nossas equipes cibernéticas, conseguimos estabelecer que o Deepseek foi atraído por dados da web chinês, controlada pelo Grand Firewall da China (projeto de vigilância e censura da Internet gerenciada pelo ministério da segurança pública chinesa. Nota do editor) e ajustado posteriormente para Respeite a censura do estado em certos assuntos. Ele viu dados “proibidos”, ele tem as informações.
Os principais modelos de idiomas americanos também bloqueiam certos conteúdos, mas aqui estamos falando de ocultos históricos e negação dos direitos humanos. Este é outro nível.
O algoritmo em código aberto é possível para um desenvolvedor modificar esse comportamento do modelo?
Existem duas possibilidades: a censura é integrada ao algoritmo, ou há uma sobreposição que serve como filtro. Baixamos o algoritmo para obter o aplicativo Deepseek e percebemos que ele passou por treinamento adicional para cumprir as regras chinesas no aplicativo da web. No final, uma vez que conseguimos tirá -lo dessa censura, é uma ferramenta muito boa.
A Hugging Face Company, que reúne uma comunidade inteira de desenvolvedores de IA em torno de uma plataforma de software de código aberto, também já recebeu 500 modelos de linguagem construídos a partir da Deepseek.
“Está escrito em preto em branco (…) que os dados pessoais de seus usuários são armazenados em servidores” na China
No entanto, não é de surpreender que uma ferramenta proveniente da China esteja passando por essa filtragem …
A questão vai além da censura. O problema é que esse modelo gera sérios preconceitos históricos que serão divulgados na Internet e, como a maioria dos modelos de linguagem é treinada no conteúdo coletado com precisão on -line, eles podem integrar esses mesmos vieses, gerá -los por sua vez, ainda contribuir para sua disseminação , etc.
A Deepseek também começa a ser criticada por seu gerenciamento de dados pessoais. O GPDP italiano, equivalente ao CNIL, proibiu o serviço na Itália, a autoridade irlandesa pediu esclarecimentos na AI Deepseek sobre o processamento de dados pessoais. O que exatamente é?
Ele é Escrevendo preto no branco Sob as condições de uso do serviço de que os dados pessoais de seus usuários são armazenados em servidores localizados na República Popular da China (dados como endereço IP, idioma, ataques de teclado, dispositivos de dispositivos, sistema operacional… nota do editor). Isso significa que esses dados podem ser reutilizados para treinar modelos chineses e também são acessíveis às autoridades chinesas.
No entanto, com o aplicativo Free Deepseek, os usuários se apressaram. Sabemos o ditado: “Se for gratuito, é você o produto”. É uma boa maneira de a China recuperar muitos dados além de seu grande firewall.
Não consigo imaginar uma única empresa, fora da China, usar essa ferramenta como está. Depois, você pode carregar o modelo em casa e treiná -lo com seus próprios dados. Mas a melhor abordagem seria usar os meios técnicos descritos e disponibilizados pela Deepseek AI e usá -la como base para refazer um modelo.
“Yann Lecun considerou que a abordagem de Deepseek correspondia exatamente ao que ele quer fazer”
O método descrito pelos engenheiros chineses em seu artigo de pesquisa parece abalar algumas certezas sobre a maneira como desenvolvemos o LLM. Do que se trata?
Eles usaram notavelmente o que é chamado de mistura de especialistas, ou MOE (mistura de especialistas, nota do editor), que é uma técnica para otimizar o uso de recursos disponíveis. Ele ativa apenas certas áreas do modelo, pequenos algoritmos, especializados no problema, a pergunta que está sujeita à IA, em vez de transformar todo o modelo como um todo. Com o resultado de mobilizar apenas parte do poder de computação.
Alguns falam de um “efeito Sputnik” (em referência ao momento em que os americanos perceberam que os soviéticos foram capazes de superá -los na conquista do espaço, nota do editor). Não sei se você tem que ir tão longe sobre o Deepseek. Toda semana parecem coisas incríveis em termos de IA. Esse setor está envolvido em uma corrida em que quanto mais os recursos são incríveis, maiores os modelos. Mas, pela primeira vez, a inovação não é em termos de funcionalidade, mas nos fundamentos do modelo.
O credo de código aberto é reforçado?
Yann Lecun, diretor do Laboratório de Inteligência Artificial, considerou que a abordagem de Deepseek correspondia exatamente ao que ele quer fazer. O código aberto é um meio para a comunidade de desenvolvedores se ajudar. Dito isto, o modelo Meta Llama está apenas em código aberto em condições muito supervisionadas.
Eu vejo outra perspectiva. Na primavera de 2024, a Microsoft lançou seus PCs Copilot+, computadores que embarcam em uma função local de IA, no modo desconectado. Até então, honestamente, não funcionou muito bem. Se for possível racionalizar recursos como o fato profundo, sendo menos dependente das GPUs, isso pode reviver essa abordagem.