Wissensdistillation: Wie man LLMs einfacher macht und die Genauigkeit erhält

Computer

Der Artikel ist ein Meinungsbeitrag von Kirill Starkov.

Die Entwicklung moderner LLMs hat zu unglaublichen Ergebnissen geführt: Spitzenleistungen, hohe Qualität und, leider, hohe Rechenkosten. Ingenieure neigen dazu, kleinere Modelle zu wählen, nur weil sie günstiger sind und keine spezielle Hardware benötigen.

Der Prozess der Wissensdistillation wurde erfunden, um dieses Problem anzugehen: Es ist eine Möglichkeit, Zeit, Geld und gleichzeitig eine hohe Leistung zu sparen. Unser Experte, Kirill Starkov, Senior Machine Learning Engineer, wird diese Technologie kommentieren und seine eigenen Erfahrungen teilen.

Wie funktioniert Wissensdistillation?

Die Idee der Wissensdistillation (KD) kann am Beispiel der Interaktion zwischen „Lehrer“ und „Schüler“ erklärt werden: Es handelt sich um einen Wissenstransfer von einem großen Sprachmodell zu einem kleinen. Das „Schüler“-Modell wird so effizient sein wie sein „Lehrer“, wird jedoch besser für den Einsatz geeignet sein.

Es gibt zwei Möglichkeiten, das „Schüler“-Modell zu trainieren: Hard- und Soft-Label-Distillation.

„Hard-Label-Distillation hat drei Phasen:

Sammlung von Eingabeaufforderungen
Antworten auf Eingabeaufforderungen, generiert durch das „Lehrer“-Modell
Bildung eines beschrifteten Datensatzes

Danach lernt das kleine Modell, die Antworten des großen Modells mit dem beschrifteten Datensatz, der als Grundwahrheit gekennzeichnet ist, zu imitieren.“

Hard-Label-Distillation ist einfacher und hat geringere Rechenkosten als Soft-Label-Distillation, aber letztere ist genauer, da sie die individuelle prädiktive Verteilung des großen Modells überträgt.

„Soft-Labels lehren besser als harte Ziele, weil sie mehr Lerninformationen und viel weniger Varianz im Gradienten zwischen Trainingsfällen bei hoher Entropie bieten. Das „Schüler“-Modell kann mit viel weniger Daten als das ursprüngliche „Lehrer“-Modell trainiert werden.“

Eine der wichtigsten Metriken im ML ist die Verlustfunktion oder Kreuzentropie. Die KD-Implementierung erfordert eine andere Art von Verlustmetrik – weicher Verlust. „Weicher Verlust ist eine gewichtete Kreuzentropie, wenn wir unterschiedliche Gewichte zuweisen, um falsch-positive oder falsch-negative Ergebnisse des „Lehrer“-Modells zu verhindern.“

Die Kullback-Leibler-Divergenz (KLDiv)-Formel wird verwendet, um den Distillationsverlust zu berechnen.

LKD = KL(softmax(zt/T) || softmax(zs/T)) ⋅ T2

Wo T die Temperatur ist (normalerweise >1)

zt und zs sind Logits von Lehrer und Schüler, jeweils.

Hard Target Verlustfunktion

L CE = Kreuzentropie( y wahr, softmax( z s))

Gesamtverlust (Kombiniert)

L = α ⋅ L CE + (1− α) ⋅ L KD

Wo α ein Hyperparameter ist (gewöhnlich 0.1 bis 0.9)

Implementierung der Wissensdistillation

Wissensdistillation wird häufig in Projekten mit begrenzten Betriebsmitteln eingesetzt, wo die Implementierung von umständlichen LLMs unmöglich ist.

„Wissensdistillation ist ein Muss in Computer Vision und Objekterkennungsprogrammen. Kleinere Modelle sind für den Einsatz auf Geräten mit begrenzten Verarbeitungsressourcen geeignet, wie z.B. Sicherheitskameras und Drohnen.“

Kleine Modelle werden auch in Programmen zur Verarbeitung natürlicher Sprache eingesetzt. „NLP erfordert eine Echtzeitreaktion mit hoher Geschwindigkeit und Effizienz, daher sind trainierte „Schüler“-Modelle perfekt für Chatbots, Übersetzungsprogramme und andere mobile Geräte.“

Anwendungsfall: DSSL Computer Vision

Wie bereits erwähnt, wird Wissensdistillation in modernen CV-Technologien eingesetzt. Kirill Starkov beschloss, das Sicherheitsdetektorgegerät mit der Implementierung eines kleinen Sprachmodells zu verbessern.

„In diesem Fall haben wir gesehen, dass Wissensdistillation tatsächlich nützlich ist, weil wir die Ergebnisse mit einer speziellen Metrik überprüft haben: dem mittleren durchschnittlichen Präzisionswert.“

Der mittlere durchschnittliche Präzisionswert (mAP) misst die Genauigkeit von Objekterkennungen. Er liefert eine einzelne Zahl, die die Präzisions-Recall-Kurve zusammenfasst und widerspiegelt, wie gut ein Modell bei verschiedenen Schwellenwerten abschneidet. „Vor der KD-Implementierung lag unser mAP bei 27,4; danach bei 34,2.“

Vorteile und Nachteile der Wissensdistillation

KD dreht sich immer um bessere Leistung: Zu den häufigen Vorteilen gehören die Reduzierung der Betriebskosten, schnellere Inferenz und die Erhaltung komplexer Muster.

Aber diese Technologie kann auch einige Nachteile haben. Ein Ungleichgewicht zwischen Lernbedingungen und Inferenz kann zu einem Expositionsbias führen, da das „Schüler“-Sprachmodell nicht lernen kann, wie es seine eigenen Fehler beheben kann.

Die Soft-Label-Distillation ist während des Trainings rechenintensiv, da vollständige Wahrscheinlichkeitsverteilungen anstelle einzelner Token-Indizes gespeichert und verarbeitet werden.

Es erfordert auch eine tiefere Integration zwischen Schüler und Lehrer, um auf die internen Wahrscheinlichkeiten eines großen Modells zuzugreifen, was die Implementierung schwieriger macht als bei Standardansätzen.

Diese Geschichte wurde ursprünglich am 23. Oktober 2021 veröffentlicht.

Wie funktioniert Wissensdistillation?

Implementierung der Wissensdistillation

Anwendungsfall: DSSL Computer Vision

Vorteile und Nachteile der Wissensdistillation

Erhalte neue Beiträge in deinem Posteingang.