Blogs / DeepSeek-V3: Como uma startup chinesa de IA supera gigantes da tecnologia em custo e desempenho

DeepSeek-V3: Como uma startup chinesa de IA supera gigantes da tecnologia em custo e desempenho

Soph-IA / 19 January 2025

Blog Image
A IA generativa está evoluindo rapidamente, transformando indústrias e criando novas oportunidades diariamente. Essa onda de inovação alimentou uma competição intensa entre empresas de tecnologia que tentam se tornar líderes no campo. Empresas sediadas nos EUA como OpenAI, Anthropic e Meta dominam o campo há anos. No entanto, uma nova concorrente, a startup sediada na China DeepSeek, está ganhando terreno rapidamente. Com seu modelo mais recente, DeepSeek-V3, a empresa não está apenas rivalizando com gigantes da tecnologia estabelecidas como GPT-4o da OpenAICláudio 3.5 do Antrópico e Lhama de Meta 3.1 em desempenho, mas também superando-os em custo-eficiência. Além de suas vantagens de mercado, a empresa está rompendo o status quo ao tornar publicamente acessíveis modelos treinados e tecnologia subjacente. Antes secretamente mantidas pelas empresas, essas estratégias agora estão abertas a todos. Esses desenvolvimentos estão redefinindo as regras do jogo.
Neste artigo, exploramos como DeepSeek-V3 alcança seus avanços e por que ele pode moldar o futuro da IA ​​generativa para empresas e inovadores.


Limitações em modelos de grandes linguagens (LLMs) existentes

  • Utilização ineficiente de recursos:
  • Gargalos no processamento de sequência longa:
  • Gargalos no treinamento devido à sobrecarga de comunicação:


Como o DeepSeek-V3 superou esses desafios

  • Alocação Inteligente de Recursos por meio de Mistura de Especialistas (MoE)
  • Manipulação eficiente de sequências longas com atenção latente multicabeça (MHLA)
  • Treinamento de precisão mista com FP8
  • Resolvendo sobrecarga de comunicação com DualPipe


O que torna o DeepSeek-V3 único?

  • Eficiência e custo-efetividade do treinamento
  • Capacidades de raciocínio superiores:
  • Eficiência Energética e Sustentabilidade:


Considerações Finais

À medida que a demanda por modelos avançados de grandes linguagens (LLMs) cresce, também crescem os desafios associados à sua implantação. Modelos como GPT-4o e Claude 3.5 demonstram capacidades impressionantes, mas vêm com ineficiências significativas:
A maioria dos modelos depende da adição de camadas e parâmetros para aumentar o desempenho. Embora eficaz, essa abordagem exige imensos recursos de hardware, aumentando os custos e tornando a escalabilidade impraticável para muitas organizações.

Os LLMs existentes utilizam a arquitetura do transformador como seu design de modelo fundamental. Os transformadores lutam com requisitos de memória que crescem exponencialmente conforme as sequências de entrada se alongam. Isso resulta em inferência intensiva em recursos, limitando sua eficácia em tarefas que exigem compreensão de longo contexto.
O treinamento de modelos em larga escala frequentemente enfrenta ineficiências devido à sobrecarga de comunicação da GPU. A transferência de dados entre nós pode levar a um tempo ocioso significativo, reduzindo a taxa geral de computação para comunicação e inflando os custos.

Esses desafios sugerem que alcançar um desempenho melhorado geralmente vem à custa de eficiência, utilização de recursos e custo. No entanto, o DeepSeek demonstra que é possível melhorar o desempenho sem sacrificar eficiência ou recursos. Veja como o DeepSeek aborda esses desafios para fazer isso acontecer.

O DeepSeek-V3 aborda essas limitações por meio de escolhas inovadoras de design e engenharia, lidando efetivamente com esse trade-off entre eficiência, escalabilidade e alto desempenho. Veja como:
Ao contrário dos modelos tradicionais, o DeepSeek-V3 emprega um Mistura de Especialistas (MoE) arquitetura que ativa seletivamente 37 bilhões de parâmetros por token. Essa abordagem garante que os recursos computacionais sejam alocados estrategicamente onde necessário, alcançando alto desempenho sem as demandas de hardware dos modelos tradicionais.

Ao contrário dos LLMs tradicionais que dependem de arquiteturas Transformer que requerem caches com uso intensivo de memória para armazenar chave-valor bruta (KV), o DeepSeek-V3 emprega um inovador Atenção Latente Multi-Cabeça (MHLA). O MHLA transforma como os caches KV são gerenciados ao compactá-los em um espaço latente dinâmico usando “slots latentes”. Esses slots servem como unidades de memória compactas, destilando apenas as informações mais críticas e descartando detalhes desnecessários. Conforme o modelo processa novos tokens, esses slots são atualizados dinamicamente, mantendo o contexto sem inflar o uso da memória.
Ao reduzir o uso de memória, o MHLA torna o DeepSeek-V3 mais rápido e eficiente. Ele também ajuda o modelo a permanecer focado no que importa, melhorando sua capacidade de entender textos longos sem ser sobrecarregado por detalhes desnecessários. Essa abordagem garante melhor desempenho ao usar menos recursos.

Os modelos tradicionais geralmente dependem de formatos de alta precisão como FP16 ou FP32 para manter a precisão, mas essa abordagem aumenta significativamente o uso de memória e os custos computacionais. O DeepSeek-V3 adota uma abordagem mais inovadora com sua estrutura de precisão mista FP8, que usa representações de ponto flutuante de 8 bits para cálculos específicos. Ao ajustar a precisão de forma inteligente para corresponder aos requisitos de cada tarefa, o DeepSeek-V3 reduz o uso de memória da GPU e acelera o treinamento, tudo sem comprometer a estabilidade numérica e o desempenho.

Para lidar com a questão da sobrecarga de comunicação, o DeepSeek-V3 emprega uma estrutura DualPipe inovadora para sobrepor a computação e a comunicação entre GPUs. Essa estrutura permite que o modelo execute ambas as tarefas simultaneamente, reduzindo os períodos ociosos quando as GPUs esperam por dados. Juntamente com kernels avançados de comunicação entre nós que otimizam a transferência de dados por meio de tecnologias de alta velocidade como InfiniBand e NVLink, essa estrutura permite que o modelo alcance uma proporção consistente entre computação e comunicação, mesmo quando o modelo é dimensionado.

As inovações do DeepSeek-V3 oferecem desempenho de ponta, mantendo um impacto computacional e financeiro notavelmente baixo.
Uma das conquistas mais notáveis ​​do DeepSeek-V3 é seu processo de treinamento econômico. O modelo foi treinado em um extenso conjunto de dados de 14.8 trilhões de tokens de alta qualidade em aproximadamente 2.788 milhões de horas de GPU em GPUs Nvidia H800. 
Este processo de treinamento foi concluído a um custo total de cerca de US$ 5.57 milhões, uma fração das despesas incorridas por suas contrapartes. Por exemplo, o GPT-4o da OpenAI supostamente exigiu mais de US$ 100 milhões para treinamento. Este contraste gritante ressalta a eficiência do DeepSeek-V3, alcançando desempenho de ponta com recursos computacionais e investimento financeiro significativamente reduzidos.

O mecanismo MHLA equipa o DeepSeek-V3 com capacidade excepcional para processar sequências longas, permitindo que ele priorize informações relevantes dinamicamente. Essa capacidade é particularmente vital para entender contextos longos úteis para tarefas como raciocínio multietapas. O modelo emprega aprendizado por reforço para treinar MoE com modelos de menor escala. Essa abordagem modular com mecanismo MHLA permite que o modelo se destaque em tarefas de raciocínio. Os benchmarks mostram consistentemente que o DeepSeek-V3 supera GPT-4o, Claude 3.5 e Llama 3.1 em resolução de problemas em várias etapas e compreensão contextual.

Com precisão FP8 e paralelismo DualPipe, o DeepSeek-V3 minimiza o consumo de energia, mantendo a precisão. Essas inovações reduzem o tempo ocioso da GPU, reduzem o uso de energia e contribuem para um ecossistema de IA mais sustentável.
O DeepSeek-V3 exemplifica o poder da inovação e do design estratégico em IA generativa. Ao superar os líderes do setor em eficiência de custos e capacidades de raciocínio, o DeepSeek provou que é possível alcançar avanços inovadores sem demandas excessivas de recursos.

O DeepSeek-V3 oferece uma solução prática para organizações e desenvolvedores que combina acessibilidade com recursos de ponta. Seu surgimento significa que a IA não será apenas mais poderosa no futuro, mas também mais acessível e inclusiva. À medida que a indústria continua a evoluir, o DeepSeek-V3 serve como um lembrete de que o progresso não precisa vir às custas da eficiência.

Fonte: Unite