기술 · 2 min read · Dec 17, 2025
지식 증류: LLM을 더 쉽게 만들고 정확도를 유지하는 방법

이 기사는 Kirill Starkov가 저술한 의견 기사입니다.
현대 LLM의 발전은 놀라운 결과를 가져왔습니다: 최첨단 성능, 높은 품질, 그리고 불행히도 계산 비용. 엔지니어들은 더 저렴하고 특별한 하드웨어가 필요하지 않기 때문에 작은 모델을 선택하는 경향이 있습니다.
지식 증류 과정은 이 문제를 해결하기 위해 발명되었습니다: 시간, 비용 및 높은 품질의 성능을 동시에 절약할 수 있는 기회입니다. 우리의 전문가인 Kirill Starkov, 수석 머신러닝 엔지니어가 이 기술에 대해 논평하고 자신의 경험을 공유할 것입니다.
지식 증류는 어떻게 작동하나요?
지식 증류(KD)의 아이디어는 ‘교사-학생’ 상호작용의 예로 설명할 수 있습니다: 이는 대형 언어 모델에서 소형 모델로의 지식 전이입니다. ‘학생’ 모델은 ‘교사’ 모델만큼 효율적이지만 배포에 더 적합합니다.
‘학생’ 모델을 훈련하는 방법에는 하드 레이블 증류와 소프트 레이블 증류의 두 가지가 있습니다.
‘하드 레이블 증류는 세 가지 단계로 구성됩니다:
프롬프트 수집
“교사” 모델이 생성한 프롬프트에 대한 답변
레이블이 지정된 데이터셋 형성
그 후, 작은 모델은 레이블이 지정된 데이터셋을 사용하여 대형 모델의 답변을 모방하는 법을 배웁니다. 이 데이터셋은 실제 정답으로 표시됩니다.’
하드 레이블 증류는 소프트 레이블 증류보다 더 쉽고 계산 비용이 적지만, 후자는 대형 모델의 개별 예측 분포를 전이하기 때문에 더 정확합니다.
‘소프트 레이블은 하드 타겟보다 더 잘 가르칩니다. 왜냐하면 더 많은 학습 정보를 제공하고 높은 엔트로피를 가질 때 훈련 사례 간의 그래디언트에서 훨씬 적은 분산을 제공하기 때문입니다. “학생” 모델은 원래 “교사” 모델보다 훨씬 적은 데이터로 훈련될 수 있습니다.’
ML에서 가장 중요한 메트릭 중 하나는 손실 함수 또는 교차 엔트로피입니다. KD 배포는 또 다른 유형의 손실 메트릭인 소프트 손실을 요구합니다. ‘소프트 손실은 “교사” 모델에서 잘못된 긍정 또는 잘못된 부정을 방지하기 위해 서로 다른 가중치를 할당할 때의 가중 교차 엔트로피입니다.’
Kullback-Leibler Divergence (KLDiv) 공식이 증류 손실을 계산하는 데 사용됩니다.
LKD = KL(softmax(zt/T) || softmax(zs/T)) ⋅ T2
여기서 T는 온도(보통 >1)입니다.
zt와 zs는 각각 교사와 학생의 로짓입니다.
하드 타겟 손실 함수
L CE = CrossEntropy( y true,softmax( z s))
총 손실 (결합)
L = α ⋅ L CE + (1− α) ⋅ L KD
여기서 α는 하이퍼파라미터(일반적으로 0.1에서 0.9)입니다.
지식 증류 구현
지식 증류는 종종 운영 자원이 제한된 프로젝트에서 사용되며, 번거로운 LLM의 구현이 불가능합니다.
‘지식 증류는 컴퓨터 비전 및 객체 탐지 프로그램에서 필수적입니다. 작은 모델은 보안 카메라 및 드론과 같은 제한된 처리 자원을 가진 장치에 배포하기에 적합합니다.’
작은 모델은 자연어 처리 프로그램에서도 사용됩니다. ‘NLP는 높은 속도와 효율성으로 실시간 응답을 요구하므로 훈련된 “학생” 모델은 챗봇, 번역 프로그램 및 기타 모바일 장치에 적합합니다.’
배포 사례: DSSL 컴퓨터 비전
앞서 언급했듯이, 지식 증류는 현대 CV 기술에서 사용됩니다. Kirill Starkov는 작은 언어 모델의 배포로 보안 탐지 장치를 개선하기로 결정했습니다.
‘그 경우 우리는 지식 증류가 실제로 유용하다는 것을 확인했습니다. 왜냐하면 우리는 특별한 메트릭인 평균 평균 정밀도(mean average precision)를 사용하여 결과를 확인했기 때문입니다.’
평균 평균 정밀도(mAP)는 객체 탐지기의 정확성을 측정합니다. 이는 정밀도-재현 곡선을 요약하는 단일 숫자를 제공하여 모델이 다양한 임계값 수준에서 얼마나 잘 수행되고 있는지를 반영합니다. ‘KD 배포 전 우리의 mAP는 27.4였고, 이후에는 34.2였습니다.’
지식 증류의 장점과 단점
KD는 항상 더 나은 성능에 관한 것입니다: 일반적인 장점은 운영 비용 절감, 더 빠른 추론, 복잡한 패턴의 보존입니다.
하지만 이 기술은 몇 가지 단점을 가질 수 있습니다. 학습 조건과 추론 간의 불균형은 노출 편향을 초래할 수 있습니다. 왜냐하면 ‘학생’ 언어 모델이 자신의 실수를 수정하는 방법을 배울 수 없기 때문입니다.
소프트 레이블 증류는 훈련 중에 계산 비용이 많이 들며, 개별 토큰 인덱스가 아니라 전체 확률 분포가 저장되고 처리되기 때문입니다.
또한, 대형 모델의 내부 확률에 접근하기 위해 더 깊은 학생-교사 통합이 필요하므로 표준 접근 방식보다 구현이 더 어렵습니다.
이 이야기는 2021년 10월 23일에 처음 게시되었습니다.
새 게시물을 받은 편지함에서 받기
스팸은 없습니다. 언제든지 구독 해지 가능합니다.