O que é a Deepseek?

A última semana foi efervescente para a área de Inteligência Artificial. Uma empresa chinesa, a DeepSeek, alcançou o mainstream com seu aplicativo de IA ultrapassando o número de downloads na AppleStore da sua concorrente americana OpenAI, dona do ChatGPT. A notícia causou tanto alvoroço que a maior fabricante de placas gráficas (GPUs), a Nvidia perdeu quase 590 bilhões de dólares em valor de mercado. O cerne deste evento, contudo, não está diretamente ligado ao público que passou a utilizar um aplicativo muito similar ao ChatGPT com um desempenho um pouco melhor: a questão central é que a DeepSeek parece ter feito isso gastando ordens de grandeza menos dólares em infraestrutura e eletricidade do que a sua concorrente. E o melhor, deixou tubo público para que outras pessoas pudessem usar!
O evento tem sido discutido como uma mudança de jogo na área uma vez que para se treinar um modelo como ChatGPT são necessários centenas de milhões de dólares em custo de eletricidade, fora outra centena gasta na compra de GPUs. O novo modelo DeepSeek-R1 é um Grande Modelo de Linguagem (LLM) que usa uma arquitetura de Mistura de Especialistas (Mixture of Experts – MoE) empregando uma estratégia de resolução de problema conhecida como Cadeia de Pensamento (Chain of thought – CoT). Essas técnicas permitiram que o custo de eletricidade ficasse abaixo de 6 milhões de dólares e a quantidade de hardware necessários caísse proporcionalmente.
O evento tem sido discutido como uma mudança de jogo na área uma vez que para se treinar um modelo como ChatGPT são necessários centenas de milhões de dólares em custo de eletricidade, fora outra centena gasta na compra de GPUs. O novo modelo DeepSeek-R1 é um Grande Modelo de Linguagem (LLM) que usa uma arquitetura de Mistura de Especialistas (Mixture of Experts – MoE) empregando uma estratégia de resolução de problema conhecida como Cadeia de Pensamento (Chain of thought – CoT). Essas técnicas permitiram que o custo de eletricidade ficasse abaixo de 6 milhões de dólares e a quantidade de hardware necessários caísse proporcionalmente.
Mas fenômeno não foi apenas técnico: a OpenAI acusou a DeepSeek de ter realizado um ataque de extração usando uma estratégia de treino chamada de destilação, copiando o modelo proprietário deles. Já a DeepSeek alegou ter sofrido um ataque de negação de serviço (DDoS) assim que ficou conhecida. Questões geopolíticas também ressurgiram, por um lado com a China ameaçando a hegemonia dos Estados Unidos no avanço da IA, e por outro, questões como perguntas envolvendo o país Twain, sendo sutilmente barradas no novo aplicativo chinês.
Apesar dos custos envolvidos ainda serem altos, a notícia é muito importante para a comunidade científica pois agora esses modelos se tornaram acessíveis para a pesquisa. Até então, pouquíssimas empresas no mundo teriam capacidade de hardware e eletricidade para realizar experimentos com esses modelos.
A partir de agora, experimentos ficaram muito mais acessíveis. Por exemplo, podemos treinar parte desse modelo para responder perguntas sobre novas rotas de síntese de materiais, permitindo insights que poderão ser testados em laboratório. Para a área de Informática de Materiais, os avanços na IA são essenciais por fornecerem tecnologias e ideias a serem aplicadas diretamente na descoberta e design de novos compostos e moléculas.
Para aqueles que gostam do lado lúdico da literatura e dos cinemas, estamos cada vez mais próximos de termos o nosso próprio J.A.R.V.I.S., a IA, que no filme Homem de Ferro, recomenda novos materiais para reator do seu criador.