Distillation des connaissances : Comment rendre les LLMs plus faciles et préserver la précision

Ordinateur

L’article est un éditorial rédigé par Kirill Starkov.

Le développement des LLMs modernes a conduit à des résultats incroyables : des performances à la pointe de la technologie, une haute qualité et, malheureusement, des coûts computationnels. Les ingénieurs ont tendance à choisir des modèles plus petits simplement parce qu’ils sont moins chers et ne nécessitent pas de matériel spécial.

Le processus de distillation des connaissances a été inventé pour résoudre ce problème : c’est une chance d’économiser du temps, de l’argent et de maintenir des performances de haute qualité en même temps. Notre expert, Kirill Starkov, ingénieur senior en apprentissage automatique, commentera cette technologie et partagera sa propre expérience.

Comment fonctionne la distillation des connaissances ?

L’idée de la distillation des connaissances (KD) peut être expliquée par l’exemple de l’interaction « enseignant-élève » : il s’agit d’un transfert de connaissances d’un grand modèle de langage à un petit. Le modèle « élève » sera aussi efficace que son « enseignant » mais sera plus adapté au déploiement.

Il existe deux façons de former le modèle « élève » : la distillation à étiquettes dures et la distillation à étiquettes douces.

La distillation à étiquettes dures comporte trois étapes :

Collecte des invites
Réponses aux invites, générées par le modèle « enseignant »
Formation d’un ensemble de données étiquetées

Après cela, le petit modèle apprend à imiter les réponses du grand modèle avec l’ensemble de données étiquetées, marqué comme vérité de base.

La distillation à étiquettes dures est plus facile et a moins de coûts computationnels que la distillation à étiquettes douces, mais cette dernière est plus précise car elle transfère la distribution prédictive individuelle du grand modèle.

« Les étiquettes douces enseignent mieux que les cibles dures car elles fournissent plus d’informations d’apprentissage et beaucoup moins de variance dans le gradient entre les cas d’entraînement lorsqu’elles ont une haute entropie. Le modèle « élève » peut être formé sur beaucoup moins de données que le modèle « enseignant » original. »

L’une des métriques les plus importantes en ML est la fonction de perte ou l’entropie croisée. Le déploiement de KD nécessite un autre type de métrique de perte : la perte douce. « La perte douce est une entropie croisée pondérée lorsque nous attribuons des poids différents pour prévenir les faux positifs ou les faux négatifs du modèle « enseignant ». »

La formule de divergence de Kullback-Leibler (KLDiv) est utilisée pour calculer la perte de distillation.

LKD = KL(softmax(zt/T) || softmax(zs/T)) ⋅ T2

Où T est la température (généralement >1)

zt et zs sont les logits du modèle enseignant et du modèle élève, respectivement.

Fonction de perte cible dure

L CE = CrossEntropy( y vrai, softmax( z s))

Perte totale (combinée)

L = α ⋅ L CE + (1− α) ⋅ L KD

Où α est un hyperparamètre (généralement de 0,1 à 0,9)

Mise en œuvre de la distillation des connaissances

La distillation des connaissances est souvent utilisée dans des projets avec des ressources opérationnelles limitées, où la mise en œuvre de LLMs encombrants est impossible.

« La distillation des connaissances est indispensable dans les programmes de vision par ordinateur et de détection d’objets. Les modèles plus petits sont adaptés au déploiement sur des appareils avec des ressources de traitement limitées, comme les caméras de sécurité et les drones. »

Les petits modèles sont également utilisés dans les programmes de traitement du langage naturel. « Le NLP nécessite une réponse en temps réel avec une grande rapidité et efficacité, donc les modèles « élèves » formés sont parfaits pour les chatbots, les programmes de traduction et d’autres appareils mobiles. »

Cas de déploiement : Vision par ordinateur DSSL

Comme mentionné précédemment, la distillation des connaissances est utilisée dans les technologies modernes de CV. Kirill Starkov a décidé d’améliorer le dispositif de détection de sécurité avec le déploiement d’un petit modèle de langage.

« Dans ce cas, nous avons vu que la distillation des connaissances est en fait utile, car nous avons vérifié les résultats avec une métrique spéciale : la précision moyenne. »

La précision moyenne (mAP) mesure l’exactitude des détecteurs d’objets. Elle fournit un seul nombre qui résume la courbe de précision-rappel, reflétant la performance d’un modèle à différents niveaux de seuil. « Avant le déploiement de KD, notre mAP était de 27,4 ; après — 34,2. »

Avantages et inconvénients de la distillation des connaissances

KD concerne toujours de meilleures performances : les avantages communs sont la réduction des coûts opérationnels, une inférence plus rapide, la préservation des motifs complexes.

Mais cette technologie peut avoir certains inconvénients. Un déséquilibre entre les conditions d’apprentissage et d’inférence peut conduire à un biais d’exposition car le modèle de langage « élève » ne peut pas apprendre à corriger ses propres erreurs.

La distillation à étiquettes douces est coûteuse en calcul pendant l’entraînement, car des distributions de probabilité complètes plutôt que des indices de jetons individuels sont stockées et traitées.

Elle nécessite également une intégration plus profonde entre l’élève et l’enseignant pour accéder aux probabilités internes d’un grand modèle, rendant son implémentation plus difficile que les approches standard.

Cette histoire a été publiée à l’origine le 23 octobre 2021.

Comment fonctionne la distillation des connaissances ?

Mise en œuvre de la distillation des connaissances

Cas de déploiement : Vision par ordinateur DSSL

Avantages et inconvénients de la distillation des connaissances

Recevez de nouveaux articles dans votre boîte de réception.