Blogs / O Google está tornando o treinamento de IA 28% mais rápido usando SLMs como professores

O Google está tornando o treinamento de IA 28% mais rápido usando SLMs como professores

Soph-IA / 19 January 2025

Blog Image
Formação modelos de linguagem grande (LLMs) tornou-se fora do alcance da maioria das organizações. Com custos chegando a milhões e requisitos de computação que fariam um supercomputador suar, o desenvolvimento de IA permaneceu trancado atrás das portas de gigantes da tecnologia. Mas o Google acabou de virar essa história de cabeça para baixo com uma abordagem tão simples que faz você se perguntar por que ninguém pensou nisso antes: usar modelos menores de IA como professores.

Como funciona o SALT: uma nova abordagem para treinar modelos de IA
Em um artigo de pesquisa recente intitulado “Uma pequena ajuda pode render muito: treinamento LLM eficiente aproveitando pequenos LMs,” Google Research e DeepMind introduziram SALT (Small model Aided Large model Training). Este é o novo método que desafia nossa abordagem tradicional para treinar LLMs.
Por que essa pesquisa é significativa? Atualmente, treinar grandes modelos de IA é como tentar ensinar a alguém tudo o que ele precisa saber sobre um assunto de uma só vez – é ineficiente, caro e frequentemente restrito a organizações com recursos de computação massivos. O SALT segue um caminho diferente, introduzindo um processo de treinamento em dois estágios que é inovador e prático.


Explicando como o SALT realmente funciona:

Etapa 1: Destilação do conhecimento
·        modelo de linguagem menor (SLM) atua como um professor, compartilhando seu entendimento com o modelo maior
·        O modelo menor concentra-se na transferência do seu “conhecimento aprendido” através do que os investigadores chamam de “rótulos suaves”
·        Pense nisso como um assistente de ensino lidando com conceitos fundamentais antes que um aluno passe para tópicos avançados
·        Esta fase é particularmente eficaz em regiões “fáceis” de aprendizagem – áreas onde o modelo menor tem forte confiança preditiva
Estágio 2: Aprendizagem Auto-Supervisionada
·        O grande modelo transita para a aprendizagem independente
·        Ele se concentra em dominar padrões complexos e tarefas desafiadoras
·        É aqui que o modelo desenvolve capacidades que vão além do que o seu “professor” mais pequeno poderia fornecer
·        A transição entre os estágios utiliza estratégias cuidadosamente projetadas, incluindo decaimento linear e decaimento da razão linear do peso da perda de destilação
Em termos não técnicos, euimagine que o modelo de IA menor é como um tutor útil que orienta o modelo maior nos estágios iniciais do treinamento. Este tutor fornece informações extras junto com suas respostas, indicando o quão confiantes eles estão sobre cada resposta. Essas informações extras, conhecidas como “soft labels”, ajudam o modelo maior a aprender mais rápida e efetivamente.
Agora, à medida que o modelo de IA maior se torna mais capaz, ele precisa fazer a transição de depender do tutor para aprender de forma independente. É aqui que a “decadência linear” e a “decadência de razão linear” entram em cena.
Pense nessas técnicas como uma redução gradual da influência do tutor ao longo do tempo:
·        Decaimento Linear: É como diminuir lentamente o volume da voz do tutor. A orientação do tutor se torna menos proeminente a cada passo, permitindo que o modelo maior se concentre mais em aprender com os dados brutos em si.
·        Decaimento da Razão Linear: Isso é como ajustar o equilíbrio entre o conselho do tutor e a tarefa real em questão. Conforme o treinamento progride, a ênfase muda mais para a tarefa original, enquanto a contribuição do tutor se torna menos dominante.
O objetivo de ambas as técnicas é garantir uma transição suave para o modelo de IA maior, evitando quaisquer mudanças repentinas em seu comportamento de aprendizado. 
Os resultados são convincentes. Quando os pesquisadores do Google testaram o SALT usando um SLM de 1.5 bilhão de parâmetros para treinar um LLM de 2.8 bilhões de parâmetros no Empilhar conjunto de dados, eles viram:
·        Uma redução de 28% no tempo de treinamento em comparação aos métodos tradicionais
·        Melhorias significativas de desempenho após o ajuste fino:
·       A precisão dos problemas de matemática aumentou para 34.87% (comparado com 31.84% da linha de base)
·       A compreensão da leitura atingiu 67% de precisão (acima de 63.7%)
Mas o que torna o SALT verdadeiramente inovador é sua estrutura teórica. Os pesquisadores descobriram que mesmo um modelo de professor “mais fraco” pode melhorar o desempenho do aluno ao atingir o que eles chamam de “compensação favorável de viés-variância”. Em termos mais simples, o modelo menor ajuda o maior a aprender padrões fundamentais de forma mais eficiente, criando uma base mais forte para o aprendizado avançado.


Por que o SALT pode remodelar o campo de jogo do desenvolvimento de IA

Lembra quando a computação em nuvem transformou quem poderia começar uma empresa de tecnologia? O SALT pode fazer o mesmo para o desenvolvimento de IA.
Tenho acompanhado inovações em treinamento de IA há anos, e a maioria dos avanços beneficiou principalmente os gigantes da tecnologia. Mas SALT é diferente.


Eis o que isso pode significar para o futuro:

Para organizações com recursos limitados:
·        Você pode não precisar mais de uma infraestrutura de computação massiva para desenvolver modelos de IA capazes
·        Laboratórios de pesquisa e empresas menores podem experimentar o desenvolvimento de modelos personalizados
·        A redução de 28% no tempo de treinamento se traduz diretamente em menores custos de computação
·        Mais importante, você pode começar com recursos de computação modestos e ainda obter resultados profissionais
Para o cenário de desenvolvimento de IA:
·        Mais jogadores podem entrar em campo, levando a soluções de IA mais diversificadas e especializadas
·        As universidades e instituições de pesquisa poderiam realizar mais experimentos com seus recursos existentes
·        A barreira de entrada para a investigação em IA cai significativamente
·        Poderemos ver novas aplicações em áreas que antes não podiam suportar o desenvolvimento de IA


O que isso significa para o futuro

Ao usar pequenos modelos como professores, não estamos apenas tornando o treinamento de IA mais eficiente – também estamos mudando fundamentalmente quem participa do desenvolvimento de IA. As implicações vão muito além de apenas melhorias técnicas.
Principais conclusões a serem lembradas:
·        Redução de 28% no tempo de treinamento é a diferença entre iniciar um projeto de IA ou considerá-lo fora de alcance
·        As melhorias de desempenho (34.87% em matemática, 67% em tarefas de leitura) mostram que acessibilidade nem sempre significa comprometer a qualidade
·        A abordagem da SALT prova que às vezes as melhores soluções vêm de repensar os fundamentos em vez de apenas adicionar mais poder de computação
O que observar:
1.    Fique de olho em organizações menores que começam a desenvolver modelos de IA personalizados
2.    Fique atento a novas aplicações em áreas que antes não podiam pagar pelo desenvolvimento de IA
3.    Procure inovações em como modelos menores são usados ​​para tarefas especializadas
Lembre-se: O valor real do SALT está em como ele pode remodelar quem inova em IA. Não importa se você está comandando um laboratório de pesquisa, gerenciando uma equipe de tecnologia ou apenas interessado em desenvolvimento de IA, esse é o tipo de avanço que pode tornar sua próxima grande ideia possível.
Talvez comece a pensar naquele projeto de IA que você achava que estava fora de alcance. Pode ser mais possível do que você imaginou.

Fonte: Unite