Destilação de Conhecimento: Como Tornar LLMs Mais Fáceis e Manter a Precisão

Computador

O artigo é uma opinião escrita por Kirill Starkov.

O desenvolvimento de LLMs modernos levou a resultados incríveis: desempenho de ponta, alta qualidade e, infelizmente, custos computacionais. Engenheiros tendem a escolher modelos menores apenas porque são mais baratos e não requerem hardware especial.

O processo de destilação de conhecimento foi inventado para abordar essa questão: é uma chance de economizar tempo, dinheiro e desempenho de alta qualidade ao mesmo tempo. Nosso especialista, Kirill Starkov, Engenheiro Sênior de Aprendizado de Máquina, comentará sobre essa tecnologia e compartilhará sua própria experiência.

Como funciona a destilação de conhecimento?

A ideia da destilação de conhecimento (KD) pode ser explicada pelo exemplo da interação ‘professor-aluno’: é uma transferência de conhecimento de um grande modelo de linguagem para um menor. O modelo ‘aluno’ será tão eficiente quanto seu ‘professor’, mas será mais adequado para implantação.

Existem duas maneiras de treinar o modelo ‘aluno’: destilação de rótulo duro e destilação de rótulo suave.

‘A destilação de rótulo duro tem três etapas:

Coleta de prompts
Respostas aos prompts, geradas pelo modelo “professor”
Formação de conjunto de dados rotulados

Após isso, o pequeno modelo aprende a imitar as respostas do grande modelo com o conjunto de dados rotulado, marcado como verdade fundamental.’

A destilação de rótulo duro é mais fácil e tem menos custos computacionais do que a destilação de rótulo suave, mas esta última é mais precisa porque transfere a distribuição preditiva individual do grande modelo.

‘Rótulos suaves ensinam melhor do que alvos duros porque fornecem mais informações de aprendizado e muito menos variância no gradiente entre os casos de treinamento quando têm alta entropia. O modelo “aluno” pode ser treinado com muito menos dados do que o modelo “professor” original.’

Uma das métricas mais importantes em ML é a função de perda ou entropia cruzada. A implantação de KD requer outro tipo de métrica de perda—perda suave. ‘A perda suave é uma entropia cruzada ponderada quando atribuímos pesos diferentes para prevenir falsos positivos ou falsos negativos do modelo “professor”.’

A fórmula da Divergência de Kullback-Leibler (KLDiv) é usada para calcular a perda de destilação.

LKD = KL(softmax(zt/T) || softmax(zs/T)) ⋅ T2

Onde T é temperatura (geralmente >1)

zt e zs são logits do professor e do aluno, respectivamente.

Função de Perda de Alvo Duro

L CE = CrossEntropy( y verdadeiro,softmax( z s))

Perda Total (Combinada)

L = α ⋅ L CE + (1− α) ⋅ L KD

Onde α é um hiperparâmetro (comumente de 0.1 a 0.9)

Implementação da destilação de conhecimento

A destilação de conhecimento é frequentemente usada em projetos com recursos operacionais limitados, onde a implementação de LLMs pesados é impossível.

‘A destilação de conhecimento é indispensável em programas de visão computacional e detecção de objetos. Modelos menores são adequados para implantação em dispositivos com recursos de processamento limitados, como câmeras de segurança e drones.’

Modelos pequenos também são usados em programas de processamento de linguagem natural. ‘NLP requer resposta em tempo real com alta velocidade e eficiência, então modelos “alunos” treinados são perfeitos para chatbots, programas de tradução e outros dispositivos móveis.’

Caso de implantação: Visão Computacional DSSL

Como mencionado anteriormente, a destilação de conhecimento é usada em tecnologias modernas de CV. Kirill Starkov decidiu melhorar o dispositivo detector de segurança com a implantação de um pequeno modelo de linguagem.

‘Nesse caso, vimos que a destilação de conhecimento é realmente útil, porque verificamos os resultados com uma métrica especial: precisão média.’

A Precisão Média (mAP) mede a precisão dos detectores de objetos. Ela fornece um único número que resume a curva de precisão-recall, refletindo quão bem um modelo está se saindo em diferentes níveis de limiar. ‘Antes da implantação de KD, nossa mAP era 27.4; depois—34.2.’

Vantagens e desvantagens da destilação de conhecimento

KD sempre se trata de melhor desempenho: as vantagens comuns são a redução dos custos operacionais, inferência mais rápida, preservação de padrões complexos.

Mas essa tecnologia pode ter algumas desvantagens. O desequilíbrio entre as condições de aprendizado e inferência pode levar a um viés de exposição porque o modelo de linguagem “aluno” não consegue aprender a corrigir seus próprios erros.

A destilação de rótulo suave é computacionalmente cara durante o treinamento, uma vez que distribuições de probabilidade completas, em vez de índices de token individuais, são armazenadas e processadas.

Ela também requer uma integração mais profunda entre aluno e professor para acessar as probabilidades internas de um grande modelo, tornando-a mais difícil de implementar do que abordagens padrão.

Esta história foi publicada originalmente em 23 de outubro de 2021.

Como funciona a destilação de conhecimento?

Implementação da destilação de conhecimento

Caso de implantação: Visão Computacional DSSL

Vantagens e desvantagens da destilação de conhecimento

Receba novas postagens na sua caixa de entrada