知識蒸留：LLMを簡単にし、精度を保存する方法

コンピュータ

この記事はキリル・スタルコフによるオピニオン記事です。

現代のLLMの開発は驚くべき結果をもたらしました：最先端のパフォーマンス、高品質、そして残念ながら計算コストです。エンジニアは、コストが安く、特別なハードウェアを必要としないため、小さなモデルを選ぶ傾向があります。

知識蒸留プロセスはこの問題に対処するために考案されました：これは、時間、コスト、高品質のパフォーマンスを同時に節約する機会です。私たちの専門家であるキリル・スタルコフ、シニア機械学習エンジニアがこの技術についてコメントし、彼自身の経験を共有します。

知識蒸留はどのように機能するのか？

知識蒸留（KD）のアイデアは「教師-生徒」の相互作用の例で説明できます：これは、大きな言語モデルから小さなモデルへの知識の移転です。「生徒」モデルは「教師」と同じくらい効率的ですが、展開により適しています。

「生徒」モデルを訓練する方法は2つあります：ハードラベル蒸留とソフトラベル蒸留です。

「ハードラベル蒸留には3つのステージがあります：

その後、小さなモデルは、グラウンドトゥルースとしてマークされたラベル付きデータセットを使用して、大きなモデルの回答を模倣することを学びます。」

ハードラベル蒸留はソフトラベル蒸留よりも簡単で計算コストが少ないですが、後者は大きなモデルの個々の予測分布を転送するため、より正確です。

「ソフトラベルはハードターゲットよりも優れた学習を提供します。なぜなら、より多くの学習情報を提供し、高エントロピーのときにトレーニングケース間の勾配のばらつきがはるかに少ないからです。“生徒”モデルは、元の“教師”モデルよりもはるかに少ないデータで訓練できます。」

MLにおける最も重要な指標の1つは損失関数または交差エントロピーです。KDの展開には別のタイプの損失指標—ソフト損失が必要です。「ソフト損失は、異なる重みを割り当てて“教師”モデルからの偽陽性や偽陰性を防ぐときの加重交差エントロピーです。」

Kullback-Leibler Divergence (KLDiv) の公式は蒸留損失を計算するために使用されます。

LKD = KL(softmax(zt/T) || softmax(zs/T)) ⋅ T2

ここで、Tは温度（通常は>1）

ztとzsはそれぞれ教師と生徒からのロジットです。

ハードターゲット損失関数

L CE = CrossEntropy( y true,softmax( z s))

総損失（結合）

L = α ⋅ L CE + (1− α) ⋅ L KD

ここで、αはハイパーパラメータ（一般的に0.1から0.9）です。

知識蒸留は、運用リソースが限られているプロジェクトでよく使用され、煩雑なLLMの実装が不可能な場合があります。

「知識蒸留はコンピュータビジョンや物体検出プログラムに必須です。小さなモデルは、セキュリティカメラやドローンなど、処理リソースが限られたデバイスへの展開に適しています。」

小さなモデルは自然言語処理プログラムでも使用されます。「NLPは、高速かつ効率的なリアルタイム応答を必要とするため、訓練された“生徒”モデルはチャットボット、翻訳プログラム、その他のモバイルデバイスに最適です。」

前述のように、知識蒸留は現代のCV技術で使用されています。キリル・スタルコフは、小さな言語モデルの展開によってセキュリティ検出器デバイスを改善することを決定しました。

「その場合、特別な指標で結果を確認したため、知識蒸留が実際に役立つことがわかりました：平均平均精度。」

平均平均精度（mAP）は、物体検出器の精度を測定します。これは、異なる閾値レベルでモデルがどれだけうまく機能しているかを反映する精度-再現率曲線を要約する単一の数値を提供します。「KDの展開前の私たちのmAPは27.4でした；その後は34.2でした。」

KDは常により良いパフォーマンスに関するものです：一般的な利点は運用コストの削減、推論の高速化、複雑なパターンの保持です。

しかし、この技術にはいくつかの欠点がある可能性があります。学習条件と推論の間の不均衡は、‘生徒’言語モデルが自分の間違いを修正する方法を学べないため、露出バイアスを引き起こす可能性があります。

ソフトラベル蒸留は、完全な確率分布が保存され処理されるため、訓練中に計算コストが高くなります。

また、大きなモデルの内部確率にアクセスするために、より深い生徒-教師の統合が必要であり、標準的なアプローチよりも実装が難しくなります。

このストーリーは2021年10月23日に最初に公開されました。