Custos de Inferência em IA Generativa Devem Cair 90% até 2030, Prevê Gartner

 

imagem gerada por IA


A operação de Grandes Modelos de Linguagem (LLMs) está prestes a passar por uma revolução de eficiência. De acordo com uma nova previsão do Gartner, Inc., empresa líder em insights de negócios e tecnologia, os custos para realizar inferências em modelos com um trilhão de parâmetros sofrerão uma redução de mais de 90% até 2030, em comparação com os valores projetados para 2025.

Essa drástica queda nos custos operacionais para os provedores de Inteligência Artificial Generativa (GenAI) será impulsionada por uma série de inovações tecnológicas. Segundo Will Sommer, Diretor Analista Sênior do Gartner, as melhorias serão resultado de "uma combinação de avanços na eficiência de semicondutores e infraestrutura, inovações no design de modelos, maior utilização dos chips, aumento do uso de silício especializado para inferência e aplicação de dispositivos de borda (edge) para casos de uso específicos".

Como consequência direta dessas tendências, a consultoria estima que os LLMs em 2030 serão até 100 vezes mais eficientes em termos de custo do que os primeiros modelos de tamanho similar desenvolvidos em 2022.

Para compreender a magnitude dessa evolução, é preciso observar a unidade básica de processamento da IA Generativa: os tokens. Na análise do Gartner, um token corresponde a 3,5 bytes de dados, ou aproximadamente 4 caracteres.

Os resultados projetados pela empresa foram divididos em dois cenários distintos de infraestrutura de semicondutores:
Cenários de Ponta (Frontier): O processamento do modelo é baseado em uma representação de chips de última geração, resultando em custos significativamente menores devido à alta capacidade computacional.
Cenários de Combinação Legada (Legacy Blend): O processamento é baseado em uma combinação representativa de semicondutores disponíveis no mercado, o que acarreta custos consideravelmente mais elevados em função da menor eficiência dos chips mais antigos.

Apesar da expressiva redução no custo unitário dos tokens, o Gartner alerta que essa economia não será totalmente repassada aos clientes corporativos. O principal motivo é que a chamada "inteligência de ponta" exigirá um volume significativamente maior de tokens do que as aplicações convencionais atuais.

Os modelos agênticos — sistemas de IA capazes de executar tarefas complexas de forma autônoma — são um exemplo claro dessa nova realidade. Eles exigem de 5 a 30 vezes mais tokens por tarefa do que um chatbot padrão de GenAI, além de poderem executar um volume muito maior de tarefas do que um operador humano.

Dessa forma, embora a redução dos custos unitários viabilize recursos mais avançados, ela também impulsionará uma demanda desproporcionalmente maior por processamento. Como o consumo de tokens crescerá em um ritmo mais acelerado do que a queda de seus preços, a expectativa é que os custos gerais de inferência, na verdade, aumentem.

"Os Chief Product Officers (CPOs) não devem confundir a deflação de tokens básicos com a democratização do raciocínio de ponta. À medida que a inteligência comoditizada se aproxima de um custo próximo de zero, a capacidade computacional e os sistemas necessários para suportar o raciocínio avançado permanecem escassos. Os CPOs que mascararem ineficiências arquitetônicas com tokens baratos hoje descobrirão que a escalabilidade agêntica será difícil de alcançar amanhã."
Will Sommer, Diretor Analista Sênior do Gartner.

Diante desse cenário, o valor real será gerado pelas plataformas capazes de orquestrar cargas de trabalho de maneira inteligente em um portfólio diversificado de modelos.

A recomendação estratégica é clara: tarefas rotineiras e de alta frequência devem ser direcionadas para modelos de linguagem menores e específicos de domínio. Esses modelos apresentam melhor desempenho do que soluções genéricas por uma fração do custo, desde que alinhados a fluxos de trabalho especializados. Por outro lado, a inferência dispendiosa de modelos de ponta deve ser rigidamente controlada e reservada exclusivamente para tarefas de raciocínio complexas e de alta margem de lucro.

Comentários