Дистилляция знаний: как сделать LLM проще и сохранить точность

Компьютер

Статья является редакционной статьей, написанной Кириллом Старковым.

Развитие современных LLM привело к невероятным результатам: передовая производительность, высокое качество и, к сожалению, вычислительные затраты. Инженеры склонны выбирать более мелкие модели только потому, что они дешевле и не требуют специального оборудования.

Процесс дистилляции знаний был придуман для решения этой проблемы: это возможность сэкономить время, деньги и сохранить высокое качество производительности одновременно. Наш эксперт, Кирилл Старков, старший инженер по машинному обучению, прокомментирует эту технологию и поделится своим опытом.

Как работает дистилляция знаний?

Идея дистилляции знаний (KD) может быть объяснена на примере взаимодействия «учитель-ученик»: это передача знаний от большой языковой модели к маленькой. Модель «ученик» будет такой же эффективной, как и ее «учитель», но будет более подходящей для развертывания.

Существует два способа обучения модели «ученик»: дистилляция с жесткими и мягкими метками.

‘Дистилляция с жесткими метками имеет три этапа:

Сбор подсказок
Ответы на подсказки, сгенерированные моделью «учитель»
Формирование размеченного набора данных

После этого маленькая модель учится имитировать ответы большой модели с размеченным набором данных, помеченным как истинное значение.’

Дистилляция с жесткими метками проще и требует меньших вычислительных затрат, чем дистилляция с мягкими метками, но последняя более точна, потому что передает индивидуальное предсказательное распределение большой модели.

‘Мягкие метки обучают лучше, чем жесткие цели, потому что они предоставляют больше информации для обучения и гораздо меньшую дисперсию в градиенте между обучающими случаями при высокой энтропии. Модель «ученик» может быть обучена на гораздо меньшем объеме данных, чем оригинальная модель «учитель».’

Одной из самых важных метрик в ML является функция потерь или кросс-энтропия. Развертывание KD требует другого типа метрики потерь — мягкой потери. ‘Мягкая потеря — это взвешенная кросс-энтропия, когда мы назначаем разные веса, чтобы предотвратить ложные срабатывания или ложные отрицания от модели «учитель».’

Формула дивергенции Кульбака-Лейблера (KLDiv) используется для вычисления потерь дистилляции.

LKD = KL(softmax(zt/T) || softmax(zs/T)) ⋅ T2

Где T — температура (обычно >1)

zt и zs — логиты от учителя и ученика соответственно.

Функция потерь жесткой цели

L CE = CrossEntropy( y true,softmax( z s))

Общая потеря (комбинированная)

L = α ⋅ L CE + (1− α) ⋅ L KD

Где α — гиперпараметр (обычно от 0.1 до 0.9)

Реализация дистилляции знаний

Дистилляция знаний часто используется в проектах с ограниченными операционными ресурсами, где реализация громоздких LLM невозможна.

‘Дистилляция знаний является необходимостью в программах компьютерного зрения и обнаружения объектов. Меньшие модели подходят для развертывания на устройствах с ограниченными вычислительными ресурсами, таких как камеры безопасности и дроны.’

Малые модели также используются в программах обработки естественного языка. ‘NLP требует ответа в реальном времени с высокой скоростью и эффективностью, поэтому обученные модели «ученик» идеально подходят для чат-ботов, программ перевода и других мобильных устройств.’

Случай развертывания: DSSL Компьютерное зрение

Как уже упоминалось, дистилляция знаний используется в современных технологиях CV. Кирилл Старков решил улучшить устройство детектора безопасности с помощью развертывания маленькой языковой модели.

‘В этом случае мы увидели, что дистилляция знаний действительно полезна, потому что мы проверили результаты с помощью специальной метрики: средняя точность.’

Средняя точность (mAP) измеряет точность детекторов объектов. Она предоставляет одно число, которое обобщает кривую точности-отзыва, отражая, насколько хорошо модель работает на разных уровнях порога. ‘Перед развертыванием KD наша mAP была 27.4; после — 34.2.’

Преимущества и недостатки дистилляции знаний

KD всегда связано с лучшей производительностью: общие преимущества — снижение операционных затрат, более быстрая инференция, сохранение сложных паттернов.

Но эта технология может иметь некоторые недостатки. Дисбаланс между условиями обучения и инференцией может привести к смещению из-за того, что языковая модель «ученик» не может научиться исправлять свои собственные ошибки.

Дистилляция с мягкими метками является вычислительно затратной во время обучения, поскольку хранятся и обрабатываются полные вероятностные распределения, а не отдельные индексы токенов.

Это также требует более глубокой интеграции между учеником и учителем для доступа к внутренним вероятностям большой модели, что делает ее более сложной для реализации, чем стандартные подходы.

Эта история была изначально опубликована 23 октября 2021 года.

Как работает дистилляция знаний?

Реализация дистилляции знаний

Случай развертывания: DSSL Компьютерное зрение

Преимущества и недостатки дистилляции знаний

Get new posts in your inbox