Технологии · 3 min read · Dec 17, 2025

Дистилляция знаний: как сделать LLM проще и сохранить точность

Компьютер

Статья является редакционной статьей, написанной Кириллом Старковым.


Развитие современных LLM привело к невероятным результатам: передовая производительность, высокое качество и, к сожалению, вычислительные затраты. Инженеры склонны выбирать более мелкие модели только потому, что они дешевле и не требуют специального оборудования.

Процесс дистилляции знаний был придуман для решения этой проблемы: это возможность сэкономить время, деньги и сохранить высокое качество производительности одновременно. Наш эксперт, Кирилл Старков, старший инженер по машинному обучению, прокомментирует эту технологию и поделится своим опытом.

Как работает дистилляция знаний?

Идея дистилляции знаний (KD) может быть объяснена на примере взаимодействия «учитель-ученик»: это передача знаний от большой языковой модели к маленькой. Модель «ученик» будет такой же эффективной, как и ее «учитель», но будет более подходящей для развертывания.

Существует два способа обучения модели «ученик»: дистилляция с жесткими и мягкими метками.

‘Дистилляция с жесткими метками имеет три этапа:

  1. Сбор подсказок

  2. Ответы на подсказки, сгенерированные моделью «учитель»

  3. Формирование размеченного набора данных

После этого маленькая модель учится имитировать ответы большой модели с размеченным набором данных, помеченным как истинное значение.’

Дистилляция с жесткими метками проще и требует меньших вычислительных затрат, чем дистилляция с мягкими метками, но последняя более точна, потому что передает индивидуальное предсказательное распределение большой модели.

‘Мягкие метки обучают лучше, чем жесткие цели, потому что они предоставляют больше информации для обучения и гораздо меньшую дисперсию в градиенте между обучающими случаями при высокой энтропии. Модель «ученик» может быть обучена на гораздо меньшем объеме данных, чем оригинальная модель «учитель».’

Одной из самых важных метрик в ML является функция потерь или кросс-энтропия. Развертывание KD требует другого типа метрики потерь — мягкой потери. ‘Мягкая потеря — это взвешенная кросс-энтропия, когда мы назначаем разные веса, чтобы предотвратить ложные срабатывания или ложные отрицания от модели «учитель».’

Формула дивергенции Кульбака-Лейблера (KLDiv) используется для вычисления потерь дистилляции.

LKD = KL(softmax(zt/T) || softmax(zs/T)) ⋅ T2

Где T — температура (обычно >1)

zt и zs — логиты от учителя и ученика соответственно.

Функция потерь жесткой цели

L CE = CrossEntropy( y true,softmax( z s))

Общая потеря (комбинированная)

L = αL CE + (1− α) ⋅ L KD

Где α — гиперпараметр (обычно от 0.1 до 0.9)

Реализация дистилляции знаний

Дистилляция знаний часто используется в проектах с ограниченными операционными ресурсами, где реализация громоздких LLM невозможна.

‘Дистилляция знаний является необходимостью в программах компьютерного зрения и обнаружения объектов. Меньшие модели подходят для развертывания на устройствах с ограниченными вычислительными ресурсами, таких как камеры безопасности и дроны.’

Малые модели также используются в программах обработки естественного языка. ‘NLP требует ответа в реальном времени с высокой скоростью и эффективностью, поэтому обученные модели «ученик» идеально подходят для чат-ботов, программ перевода и других мобильных устройств.’

Случай развертывания: DSSL Компьютерное зрение

Как уже упоминалось, дистилляция знаний используется в современных технологиях CV. Кирилл Старков решил улучшить устройство детектора безопасности с помощью развертывания маленькой языковой модели.

‘В этом случае мы увидели, что дистилляция знаний действительно полезна, потому что мы проверили результаты с помощью специальной метрики: средняя точность.’

Средняя точность (mAP) измеряет точность детекторов объектов. Она предоставляет одно число, которое обобщает кривую точности-отзыва, отражая, насколько хорошо модель работает на разных уровнях порога. ‘Перед развертыванием KD наша mAP была 27.4; после — 34.2.’

Преимущества и недостатки дистилляции знаний

KD всегда связано с лучшей производительностью: общие преимущества — снижение операционных затрат, более быстрая инференция, сохранение сложных паттернов.

Но эта технология может иметь некоторые недостатки. Дисбаланс между условиями обучения и инференцией может привести к смещению из-за того, что языковая модель «ученик» не может научиться исправлять свои собственные ошибки.

Дистилляция с мягкими метками является вычислительно затратной во время обучения, поскольку хранятся и обрабатываются полные вероятностные распределения, а не отдельные индексы токенов.

Это также требует более глубокой интеграции между учеником и учителем для доступа к внутренним вероятностям большой модели, что делает ее более сложной для реализации, чем стандартные подходы.

Эта история была изначально опубликована 23 октября 2021 года.

Share: X/Twitter LinkedIn

Get new posts in your inbox

No spam. Unsubscribe anytime.