Distillazione della Conoscenza: Come Rendere gli LLM più Facili e Risparmiare in Accuratezza

Computer

L’articolo è un’opinione scritta da Kirill Starkov.

Lo sviluppo degli LLM moderni ha portato a risultati incredibili: prestazioni all’avanguardia, alta qualità e, sfortunatamente, costi computazionali. Gli ingegneri tendono a scegliere modelli più piccoli semplicemente perché sono più economici e non richiedono hardware speciale.

Il processo di distillazione della conoscenza è stato inventato per affrontare questo problema: è un’opportunità per risparmiare tempo, denaro e prestazioni di alta qualità allo stesso tempo. Il nostro esperto, Kirill Starkov, Senior Machine Learning Engineer, commenterà questa tecnologia e condividerà la sua esperienza.

Come funziona la distillazione della conoscenza?

L’idea della distillazione della conoscenza (KD) può essere spiegata con l’esempio dell’interazione ‘insegnante-studente’: è un trasferimento di conoscenza da un grande modello linguistico a uno più piccolo. Il modello ‘studente’ sarà altrettanto efficiente del suo ‘insegnante’, ma sarà più adatto per il deployment.

Ci sono due modi per addestrare il modello ‘studente’: distillazione a hard-label e soft-label.

La distillazione a hard-label ha tre fasi:

Raccolta dei prompt
Risposte ai prompt, generate dal modello “insegnante”
Formazione del dataset etichettato

Dopo di che, il piccolo modello impara a imitare le risposte del grande modello con il dataset etichettato, contrassegnato come verità fondamentale.

La distillazione a hard-label è più semplice e ha minori costi computazionali rispetto alla distillazione a soft-label, ma quest’ultima è più accurata perché trasferisce la distribuzione predittiva individuale del grande modello.

Le ‘soft labels’ insegnano meglio rispetto agli obiettivi hard perché forniscono più informazioni di apprendimento e molta meno varianza nel gradiente tra i casi di addestramento quando si ha alta entropia. Il modello ‘studente’ può essere addestrato su molti meno dati rispetto al modello ‘insegnante’ originale.

Una delle metriche più importanti in ML è la funzione di perdita o cross entropy. Il deployment di KD richiede un altro tipo di metrica di perdita—soft loss. ‘La soft loss è una cross entropy pesata quando assegniamo pesi diversi per prevenire falsi positivi o falsi negativi dal modello “insegnante”.’

La formula della Divergenza di Kullback-Leibler (KLDiv) è utilizzata per calcolare la perdita di distillazione.

LKD = KL(softmax(zt/T) || softmax(zs/T)) ⋅ T2

Dove T è la temperatura (di solito >1)

zt e zs sono i logit rispettivamente del modello insegnante e studente.

Funzione di perdita a Hard Target

L CE = CrossEntropy( y vero,softmax( z s))

Perdita Totale (Combinata)

L = α ⋅ L CE + (1− α) ⋅ L KD

Dove α è un iperparametro (comunemente 0.1 a 0.9)

Implementazione della distillazione della conoscenza

La distillazione della conoscenza è spesso utilizzata in progetti con risorse operative limitate, dove l’implementazione di LLM ingombranti è impossibile.

‘La distillazione della conoscenza è un must-have nei programmi di visione artificiale e rilevamento oggetti. I modelli più piccoli sono adatti per il deployment su dispositivi con risorse di elaborazione limitate, come telecamere di sicurezza e droni.’

I modelli piccoli sono utilizzati anche nei programmi di elaborazione del linguaggio naturale. ‘NLP richiede risposte in tempo reale con alta velocità ed efficienza, quindi i modelli “studente” addestrati sono perfetti per chatbot, programmi di traduzione e altri dispositivi mobili.’

Caso di deployment: DSSL Computer Vision

Come accennato in precedenza, la distillazione della conoscenza è utilizzata nelle moderne tecnologie CV. Kirill Starkov ha deciso di migliorare il dispositivo di rilevamento della sicurezza con il deployment di un piccolo modello linguistico.

‘In quel caso abbiamo visto che la distillazione della conoscenza è effettivamente utile, perché abbiamo controllato i risultati con una metrica speciale: precisione media.’

La Precisione Media (mAP) misura l’accuratezza dei rilevatori di oggetti. Fornisce un numero singolo che riassume la curva di precisione-richiamo, riflettendo quanto bene un modello sta performando a diversi livelli di soglia. ‘Prima del deployment di KD la nostra mAP era 27.4; dopo—34.2.’

Vantaggi e svantaggi della distillazione della conoscenza

KD riguarda sempre prestazioni migliori: i vantaggi comuni sono la riduzione dei costi operativi, un’inferenza più veloce, la preservazione di schemi complessi.

Ma questa tecnologia può avere alcuni svantaggi. L’imbalance tra le condizioni di apprendimento e inferenza può portare a bias di esposizione perché il modello linguistico ‘studente’ non può imparare a correggere i propri errori.

La distillazione a soft-label è computazionalmente costosa durante l’addestramento, poiché vengono memorizzate e elaborate distribuzioni di probabilità complete piuttosto che singoli indici di token.

Richiede anche un’integrazione più profonda tra studente e insegnante per accedere alle probabilità interne di un grande modello, rendendola più difficile da implementare rispetto agli approcci standard.

Questa storia è stata originariamente pubblicata il 23 ottobre 2021.

Come funziona la distillazione della conoscenza?

Implementazione della distillazione della conoscenza

Caso di deployment: DSSL Computer Vision

Vantaggi e svantaggi della distillazione della conoscenza

Ricevi i nuovi post nella tua casella di posta.