Blogs / Da intenção à execução: como a Microsoft está transformando grandes modelos de linguagem em IA orientada à ação

Da intenção à execução: como a Microsoft está transformando grandes modelos de linguagem em IA orientada à ação

Soph-IA / 19 January 2025

Os Grandes Modelos de Linguagem (LLMs) têm mudado como lidamos com o processamento de linguagem natural. Eles podem responder perguntas, escrever códigos e manter conversas. No entanto, eles ficam aquém quando se trata de tarefas do mundo real. Por exemplo, um LLM pode orientá-lo na compra de uma jaqueta, mas não pode fazer o pedido para você. Essa lacuna entre pensar e fazer é uma grande limitação. As pessoas não precisam apenas de informações; elas querem resultados.

Para colmatar esta lacuna, a Microsoft está volta LLMs em agentes de IA orientados para ação. Ao permitir que planejem, decomponham tarefas e se envolvam em interações do mundo real, eles capacitam os LLMs a gerenciar tarefas práticas de forma eficaz. Essa mudança tem o potencial de redefinir o que os LLMs podem fazer, transformando-os em ferramentas que automatizam fluxos de trabalho complexos e simplificam as tarefas cotidianas. Vamos dar uma olhada no que é necessário para fazer isso acontecer e como a Microsoft está abordando o problema.

O que os LLMs precisam para agir

Para que os LLMs realizem tarefas no mundo real, eles precisam ir além da compreensão de texto. Eles devem interagir com ambientes digitais e físicos enquanto se adaptam a condições de mudança. Aqui estão algumas das capacidades de que eles precisam:

Compreendendo a intenção do usuário

Para agir efetivamente, os LLMs precisam entender as solicitações do usuário. Entradas como comandos de texto ou voz são frequentemente vagas ou incompletas. O sistema deve preencher as lacunas usando seu conhecimento e o contexto da solicitação. Conversas em várias etapas podem ajudar a refinar essas intenções, garantindo que a IA entenda antes de agir.

Transformando intenções em ações

Após entender uma tarefa, os LLMs devem convertê-la em etapas acionáveis. Isso pode envolver clicar em botões, chamar APIs ou controlar dispositivos físicos. Os LLMs precisam modificar suas ações para a tarefa específica, adaptando-se ao ambiente e resolvendo desafios conforme eles surgem.

Adaptando-se às Mudanças

Tarefas do mundo real nem sempre saem como planejado. Os LLMs precisam antecipar problemas, ajustar etapas e encontrar alternativas quando surgem problemas. Por exemplo, se um recurso necessário não estiver disponível, o sistema deve encontrar outra maneira de concluir a tarefa. Essa flexibilidade garante que o processo não pare quando as coisas mudam.

Especializando-se em tarefas específicas

Embora os LLMs sejam projetados para uso geral, a especialização os torna mais eficientes. Ao focar em tarefas específicas, esses sistemas podem entregar melhores resultados com menos recursos. Isso é especialmente importante para dispositivos com poder de computação limitado, como smartphones ou sistemas embarcados.

Ao desenvolver essas habilidades, os LLMs podem ir além do simples processamento de informações. Eles podem tomar ações significativas, abrindo caminho para que a IA se integre perfeitamente aos fluxos de trabalho diários.

Como a Microsoft está transformando os LLMs

A abordagem da Microsoft para criar IA orientada para ação segue um processo estruturado. O objetivo principal é permitir que os LLMs entendam comandos, planejem efetivamente e tomem medidas. Veja como eles estão fazendo isso:

Etapa 1: coleta e preparação de dados

Na primeira frase, eles coletaram dados relacionados aos seus casos de uso específicos: UFO Agent (descrito abaixo). Os dados incluem consultas de usuários, detalhes ambientais e ações específicas de tarefas. Dois tipos diferentes de dados são coletados nesta fase: primeiro, eles coletaram dados de plano de tarefas ajudando os LLMs a delinear etapas de alto nível necessárias para concluir uma tarefa. Por exemplo, "Alterar tamanho da fonte no Word" pode envolver etapas como selecionar texto e ajustar as configurações da barra de ferramentas. Em segundo lugar, eles coletaram dados de ação de tarefa, permitindo que os LLMs traduzissem essas etapas em instruções precisas, como clicar em botões específicos ou usar atalhos de teclado.

Essa combinação fornece ao modelo tanto uma visão geral quanto as instruções detalhadas necessárias para executar tarefas com eficiência.

Etapa 2: treinando o modelo

Uma vez que os dados são coletados, os LLMs são refinados por meio de várias sessões de treinamento. Na primeira etapa, os LLMs são treinados para o planejamento de tarefas, ensinando-os a dividir as solicitações do usuário em etapas acionáveis. Dados rotulados por especialistas são então usados para ensiná-los a traduzir esses planos em ações específicas. Para aprimorar ainda mais suas capacidades de resolução de problemas, os LLMs se envolveram em um processo de exploração autoimpulsionado que os capacita a lidar com tarefas não resolvidas e gerar novos exemplos para aprendizado contínuo. Finalmente, o aprendizado por reforço é aplicado, usando feedback de sucessos e fracassos para melhorar ainda mais sua tomada de decisão.

Etapa 3: Teste offline

Após o treinamento, o modelo é testado em ambientes controlados para garantir a confiabilidade. Métricas como Taxa de sucesso da tarefa (TSR) e Step Success Rate (SSR) são usados para medir o desempenho. Por exemplo, testar um agente de gerenciamento de calendário pode envolver verificar sua capacidade de agendar reuniões e enviar convites sem erros.

Etapa 4: Integração em sistemas reais

Uma vez validado, o modelo é integrado a uma estrutura de agente. Isso permitiu que ele interagisse com ambientes do mundo real, como clicar em botões ou navegar em menus. Ferramentas como APIs de automação de IU ajudaram o sistema a identificar e manipular elementos da interface do usuário dinamicamente.

Por exemplo, se for encarregado de destacar texto no Word, o agente identifica o botão de destaque, seleciona o texto e aplica a formatação. Um componente de memória pode ajudar o LLM a manter o controle de ações passadas, permitindo que ele se adapte a novos cenários.

Passo 5: Testes no Mundo Real

A etapa final é a avaliação on-line. Aqui, o sistema é testado em cenários do mundo real para garantir que ele possa lidar com mudanças e erros inesperados. Por exemplo, um bot de suporte ao cliente pode orientar os usuários na redefinição de uma senha enquanto se adapta a entradas incorretas ou informações ausentes. Esse teste garante que a IA seja robusta e esteja pronta para o uso diário.

Um Exemplo Prático: O Agente OVNI

Para demonstrar como a IA orientada para a ação funciona, a Microsoft desenvolveu o Agente OVNI. Este sistema foi projetado para executar tarefas do mundo real em ambientes Windows, transformando solicitações do usuário em ações concluídas.

Em seu núcleo, o UFO Agent usa um LLM para interpretar solicitações e planejar ações. Por exemplo, se um usuário disser, “Destaque a palavra 'importante' neste documento,” o agente interage com o Word para concluir a tarefa. Ele reúne informações contextuais, como as posições dos controles da IU, e as usa para planejar e executar ações.

O Agente UFO conta com ferramentas como o Automação da interface do usuário do Windows (UIA) API. Esta API verifica os aplicativos em busca de elementos de controle, como botões ou menus. Para uma tarefa como “Salvar o documento como PDF”, o agente usa a UIA para identificar o botão “Arquivo”, localizar a opção “Salvar como” e executar as etapas necessárias. Ao estruturar os dados de forma consistente, o sistema garante uma operação suave do treinamento à aplicação no mundo real.

Superando Desafios

Embora este seja um desenvolvimento empolgante, criar IA orientada para ação traz desafios. Escalabilidade é um problema importante. Treinar e implementar esses modelos em diversas tarefas requer recursos significativos. Garantir segurança e confiabilidade é igualmente importante. Os modelos devem executar tarefas sem consequências não intencionais, especialmente em ambientes sensíveis. E como esses sistemas interagem com dados privados, manter padrões éticos em torno de privacidade e segurança também é crucial.

O roteiro da Microsoft se concentra em melhorar a eficiência, expandir casos de uso e manter padrões éticos. Com esses avanços, os LLMs podem redefinir como a IA interage com o mundo, tornando-os mais práticos, adaptáveis e orientados à ação.

O Futuro da IA

Transformar LLMs em agentes orientados para a ação pode ser uma virada de jogo. Esses sistemas podem automatizar tarefas, simplificar fluxos de trabalho e tornar a tecnologia mais acessível. O trabalho da Microsoft em IA orientada para a ação e ferramentas como o UFO Agent é apenas o começo. À medida que a IA continua a evoluir, podemos esperar sistemas mais inteligentes e capazes que não apenas interagem conosco — eles realizam trabalhos.

Fonte: Unite