“더 가볍고 빠르게” 노타·모빌린트, NPU 최적화 및 AI 사업 협력에 맞손｜퍼가기｜동아일보

“더 가볍고 빠르게” 노타·모빌린트, NPU 최적화 및 AI 사업 협력에 맞손

AI 모델 최적화의 본질은 모델의 용량과 자원 활용량은 줄이면서도, 모델의 정확도와 성능은 최대한 유지시키는 데 있다. 주로 모델의 가중치와 활성 함수를 낮은 비트 수로 구현하는 양자화, 중요도가 낮은 값을 줄이는 가지치기, 큰 모델의 지식을 작은 모델에게 학습시켜 크기를 줄이는 지식 증류, 구조나 캐시 등을 개선해 추론 속도를 높이는 모델 압축 등이 있다. 이 중에서 가장 중요도가 높은 접근법은 양자화다. 지식 증류나 가지치기는 부가적인 작업이 필요하지만, 모델 양자화는 모델 구조를 크게 바꾸지 않고 즉시 추론 속도를 높이면서 메모리 점유율을 줄일 수 있다. 이런 특성 덕분에 AI 업계에서도 양자화에 집중하고 있으며 빅테크부터 스타트업까지 거의 모든 규모의 기업에서 기술을 개발 중이다. 양자화는 이미 학습이 끝낸 모델을 가져와서 가중치를 변환하는 사후 양자화, 향후 양자화를 고려해 모델을 구축하는 양자화 인식 학습 두 가지 방법이 대세다. 여기서 모델의 크기만 줄일 것인지, 연산 자세히 보기