Blogs / O Google está tornando o treinamento de IA 28% mais rápido usando SLMs como professores
O Google está tornando o treinamento de IA 28% mais rápido usando SLMs como professores
Soph-IA / 19 January 2025

Formação modelos de linguagem grande (LLMs) tornou-se fora
do alcance da maioria das organizações. Com custos chegando a milhões e
requisitos de computação que fariam um supercomputador suar, o desenvolvimento
de IA permaneceu trancado atrás das portas de gigantes da tecnologia. Mas o
Google acabou de virar essa história de cabeça para baixo com uma abordagem tão
simples que faz você se perguntar por que ninguém pensou nisso antes: usar
modelos menores de IA como professores.
Em um artigo de pesquisa recente intitulado “Uma pequena ajuda pode render muito: treinamento LLM eficiente
aproveitando pequenos LMs,” Google Research e DeepMind introduziram
SALT (Small model Aided Large model Training). Este é o novo método que desafia
nossa abordagem tradicional para treinar LLMs.
Por que essa pesquisa é
significativa? Atualmente, treinar grandes modelos de IA é como tentar ensinar
a alguém tudo o que ele precisa saber sobre um assunto de uma só vez – é
ineficiente, caro e frequentemente restrito a organizações com recursos de
computação massivos. O SALT segue um caminho diferente, introduzindo um
processo de treinamento em dois estágios que é inovador e prático.
Explicando como o SALT realmente
funciona:
Etapa 1: Destilação do
conhecimento
·
A modelo de linguagem menor (SLM) atua como um
professor, compartilhando seu entendimento com o modelo maior
·
O modelo menor concentra-se na transferência do seu “conhecimento
aprendido” através do que os investigadores chamam de “rótulos suaves”
·
Pense nisso como um assistente de ensino lidando com conceitos
fundamentais antes que um aluno passe para tópicos avançados
·
Esta fase é particularmente eficaz em regiões “fáceis” de
aprendizagem – áreas onde o modelo menor tem forte confiança preditiva
Estágio 2: Aprendizagem
Auto-Supervisionada
·
O grande modelo transita para a aprendizagem independente
·
Ele se concentra em dominar padrões complexos e tarefas
desafiadoras
·
É aqui que o modelo desenvolve capacidades que vão além do que o
seu “professor” mais pequeno poderia fornecer
·
A transição entre os estágios utiliza estratégias cuidadosamente
projetadas, incluindo decaimento linear e decaimento da razão linear do peso da
perda de destilação
Em termos não técnicos, euimagine que o modelo de IA menor é como um tutor útil que orienta
o modelo maior nos estágios iniciais do treinamento. Este tutor fornece
informações extras junto com suas respostas, indicando o quão confiantes eles
estão sobre cada resposta. Essas informações extras, conhecidas como “soft
labels”, ajudam o modelo maior a aprender mais rápida e efetivamente.
Agora, à medida que o modelo de IA maior se torna mais
capaz, ele precisa fazer a transição de depender do tutor para aprender de
forma independente. É aqui que a “decadência linear” e a “decadência de razão
linear” entram em cena.
Pense nessas técnicas como uma redução gradual da
influência do tutor ao longo do tempo:
·
Decaimento Linear: É como diminuir lentamente o volume
da voz do tutor. A orientação do tutor se torna menos proeminente a cada passo,
permitindo que o modelo maior se concentre mais em aprender com os dados brutos
em si.
·
Decaimento
da Razão Linear: Isso é como ajustar o equilíbrio
entre o conselho do tutor e a tarefa real em questão. Conforme o treinamento
progride, a ênfase muda mais para a tarefa original, enquanto a contribuição do
tutor se torna menos dominante.
O
objetivo de ambas as técnicas é garantir uma transição suave para o modelo de
IA maior, evitando quaisquer mudanças repentinas em seu comportamento de
aprendizado.
Os resultados são convincentes. Quando os pesquisadores do Google
testaram o SALT usando um SLM de 1.5 bilhão de parâmetros para treinar um LLM
de 2.8 bilhões de parâmetros no Empilhar conjunto de dados, eles viram:
·
Uma redução de 28% no tempo de treinamento em comparação aos
métodos tradicionais
·
Melhorias significativas de desempenho após o ajuste fino:
·
A precisão dos problemas de matemática aumentou para 34.87%
(comparado com 31.84% da linha de base)
·
A compreensão da leitura atingiu 67% de precisão (acima de 63.7%)
Mas o que torna o SALT
verdadeiramente inovador é sua estrutura teórica. Os pesquisadores descobriram
que mesmo um modelo de professor “mais fraco” pode melhorar o desempenho do
aluno ao atingir o que eles chamam de “compensação favorável de
viés-variância”. Em termos mais simples, o modelo menor ajuda o maior a
aprender padrões fundamentais de forma mais eficiente, criando uma base mais
forte para o aprendizado avançado.
Por que o SALT pode remodelar o campo de jogo do
desenvolvimento de IA
Lembra quando a computação
em nuvem transformou quem poderia começar uma empresa de tecnologia? O SALT pode
fazer o mesmo para o desenvolvimento de IA.
Tenho acompanhado
inovações em treinamento de IA há anos, e a maioria dos avanços beneficiou
principalmente os gigantes da tecnologia. Mas SALT é diferente.
Eis o que isso pode significar para o futuro:
Para organizações com recursos
limitados:
·
Você pode não precisar mais de uma infraestrutura de computação
massiva para desenvolver modelos de IA capazes
·
Laboratórios de pesquisa e empresas menores podem experimentar o
desenvolvimento de modelos personalizados
·
A redução de 28% no tempo de treinamento se traduz diretamente em
menores custos de computação
·
Mais importante, você pode começar com recursos de computação
modestos e ainda obter resultados profissionais
Para o cenário de
desenvolvimento de IA:
·
Mais jogadores podem entrar em campo, levando a soluções de IA
mais diversificadas e especializadas
·
As universidades e instituições de pesquisa poderiam realizar mais
experimentos com seus recursos existentes
·
A barreira de entrada para a investigação em IA cai significativamente
·
Poderemos ver novas aplicações em áreas que antes não podiam
suportar o desenvolvimento de IA
O que isso significa para o futuro
Ao usar pequenos modelos
como professores, não estamos apenas tornando o treinamento de IA mais
eficiente – também estamos mudando fundamentalmente quem participa do
desenvolvimento de IA. As implicações vão muito além de apenas melhorias
técnicas.
Principais conclusões a serem
lembradas:
·
Redução de 28% no tempo de treinamento é a diferença entre iniciar
um projeto de IA ou considerá-lo fora de alcance
·
As melhorias de desempenho (34.87% em matemática, 67% em tarefas
de leitura) mostram que acessibilidade nem sempre significa comprometer a
qualidade
·
A abordagem da SALT prova que às vezes as melhores soluções vêm de
repensar os fundamentos em vez de apenas adicionar mais poder de computação
O que observar:
1. Fique de olho em
organizações menores que começam a desenvolver modelos de IA personalizados
2. Fique atento a novas
aplicações em áreas que antes não podiam pagar pelo desenvolvimento de IA
3. Procure inovações em como
modelos menores são usados para tarefas especializadas
Lembre-se: O valor real do SALT
está em como ele pode remodelar quem inova em IA. Não importa se você está
comandando um laboratório de pesquisa, gerenciando uma equipe de tecnologia ou
apenas interessado em desenvolvimento de IA, esse é o tipo de avanço que pode
tornar sua próxima grande ideia possível.
Talvez comece a pensar
naquele projeto de IA que você achava que estava fora de alcance. Pode ser mais
possível do que você imaginou.