Inteligência Artificial · 3 min read · Dec 17, 2025
Destilação de Conhecimento: Como Tornar LLMs Mais Fáceis e Manter a Precisão

O artigo é uma opinião escrita por Kirill Starkov.
O desenvolvimento de LLMs modernos levou a resultados incríveis: desempenho de ponta, alta qualidade e, infelizmente, custos computacionais. Engenheiros tendem a escolher modelos menores apenas porque são mais baratos e não requerem hardware especial.
O processo de destilação de conhecimento foi inventado para abordar essa questão: é uma chance de economizar tempo, dinheiro e desempenho de alta qualidade ao mesmo tempo. Nosso especialista, Kirill Starkov, Engenheiro Sênior de Aprendizado de Máquina, comentará sobre essa tecnologia e compartilhará sua própria experiência.
Como funciona a destilação de conhecimento?
A ideia da destilação de conhecimento (KD) pode ser explicada pelo exemplo da interação ‘professor-aluno’: é uma transferência de conhecimento de um grande modelo de linguagem para um menor. O modelo ‘aluno’ será tão eficiente quanto seu ‘professor’, mas será mais adequado para implantação.
Existem duas maneiras de treinar o modelo ‘aluno’: destilação de rótulo duro e destilação de rótulo suave.
‘A destilação de rótulo duro tem três etapas:
Coleta de prompts
Respostas aos prompts, geradas pelo modelo “professor”
Formação de conjunto de dados rotulados
Após isso, o pequeno modelo aprende a imitar as respostas do grande modelo com o conjunto de dados rotulado, marcado como verdade fundamental.’
A destilação de rótulo duro é mais fácil e tem menos custos computacionais do que a destilação de rótulo suave, mas esta última é mais precisa porque transfere a distribuição preditiva individual do grande modelo.
‘Rótulos suaves ensinam melhor do que alvos duros porque fornecem mais informações de aprendizado e muito menos variância no gradiente entre os casos de treinamento quando têm alta entropia. O modelo “aluno” pode ser treinado com muito menos dados do que o modelo “professor” original.’
Uma das métricas mais importantes em ML é a função de perda ou entropia cruzada. A implantação de KD requer outro tipo de métrica de perda—perda suave. ‘A perda suave é uma entropia cruzada ponderada quando atribuímos pesos diferentes para prevenir falsos positivos ou falsos negativos do modelo “professor”.’
A fórmula da Divergência de Kullback-Leibler (KLDiv) é usada para calcular a perda de destilação.
LKD = KL(softmax(zt/T) || softmax(zs/T)) ⋅ T2
Onde T é temperatura (geralmente >1)
zt e zs são logits do professor e do aluno, respectivamente.
Função de Perda de Alvo Duro
L CE = CrossEntropy( y verdadeiro,softmax( z s))
Perda Total (Combinada)
L = α ⋅ L CE + (1− α) ⋅ L KD
Onde α é um hiperparâmetro (comumente de 0.1 a 0.9)
Implementação da destilação de conhecimento
A destilação de conhecimento é frequentemente usada em projetos com recursos operacionais limitados, onde a implementação de LLMs pesados é impossível.
‘A destilação de conhecimento é indispensável em programas de visão computacional e detecção de objetos. Modelos menores são adequados para implantação em dispositivos com recursos de processamento limitados, como câmeras de segurança e drones.’
Modelos pequenos também são usados em programas de processamento de linguagem natural. ‘NLP requer resposta em tempo real com alta velocidade e eficiência, então modelos “alunos” treinados são perfeitos para chatbots, programas de tradução e outros dispositivos móveis.’
Caso de implantação: Visão Computacional DSSL
Como mencionado anteriormente, a destilação de conhecimento é usada em tecnologias modernas de CV. Kirill Starkov decidiu melhorar o dispositivo detector de segurança com a implantação de um pequeno modelo de linguagem.
‘Nesse caso, vimos que a destilação de conhecimento é realmente útil, porque verificamos os resultados com uma métrica especial: precisão média.’
A Precisão Média (mAP) mede a precisão dos detectores de objetos. Ela fornece um único número que resume a curva de precisão-recall, refletindo quão bem um modelo está se saindo em diferentes níveis de limiar. ‘Antes da implantação de KD, nossa mAP era 27.4; depois—34.2.’
Vantagens e desvantagens da destilação de conhecimento
KD sempre se trata de melhor desempenho: as vantagens comuns são a redução dos custos operacionais, inferência mais rápida, preservação de padrões complexos.
Mas essa tecnologia pode ter algumas desvantagens. O desequilíbrio entre as condições de aprendizado e inferência pode levar a um viés de exposição porque o modelo de linguagem “aluno” não consegue aprender a corrigir seus próprios erros.
A destilação de rótulo suave é computacionalmente cara durante o treinamento, uma vez que distribuições de probabilidade completas, em vez de índices de token individuais, são armazenadas e processadas.
Ela também requer uma integração mais profunda entre aluno e professor para acessar as probabilidades internas de um grande modelo, tornando-a mais difícil de implementar do que abordagens padrão.
Esta história foi publicada originalmente em 23 de outubro de 2021.
Receba novas postagens na sua caixa de entrada
Sem spam. Cancele a assinatura a qualquer momento.