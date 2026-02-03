AI 모델 경량화 및 최적화 기술 기업 노타와 AI 반도체 팹리스 기업 퓨리오사AI가 사업 영역 확대를 목표로 기술협력을 진행한다. 노타의 주력 사업은 인공지능 모델의 크기는 줄이면서 성능은 최대한 유지하는 기술인 ‘모델 양자화’다. 지난 2022년 AI 모델 경량화 플랫폼 ‘넷츠프레소(NetsPresso)’를 출시해 현재는 모델 개발, 모델 최적화, 모델 검증 세 종류의 작업을 지원한다. 퓨리오사AI는 지난 2024년 6월 2세대 신경망 처리장치(NPU) RNGD(레니게이드)를 공식 출시했으며 최근 양산 물량을 전달받고 제품 인도에 들어갔다.
현재 RNGD는 서버 환경에서 대형언어모델을 추론하는데 최적의 효율을 발휘한다. AI 반도체는 데이터를 학습해 모델 자체를 구성하는 ‘학습’ 과정과 만들어진 모델을 구동하는 ‘추론’ 용도로 나뉜다. 엔비디아의 GPU는 학습과 추론 모든 용도로 활용할 수 있지만, 학습용 수요로 인해 추론 용도로는 총소유비용이 높은 편이다. 이에 AI 추론 용도로는 GPU 대신 RNGD를 대신 활용하자는 것이 퓨리오사AI의 제안이다.
이때 구동하는 모델이 용량이나 메모리 자원을 많이 요구하면 그만큼 많은 연산용 카드가 필요하고, 전력 소모도 커진다. AI 모델을 양자화해서 구동하면 메모리 요구량은 크게 절감하고 상대적으로 더 많은 모델을 구동할 수 있다. 예를 들어 메타 Llama 3.1 70B 모델은 약 140GB의 비디오 메모리가 필요한데, 이를 4비트(INT4)로 양자화하면 35~40GB로 메모리 사용량을 줄일 수 있다. 압축 과정에서 품질이 일부 손실되긴 하나 가능한 원본과 비슷하게 정확성을 유지하는 것이 양자화 기술 기업의 능력이다.
노타의 넷츠프레소는 경우에 따라 모델 크기를 최대 10분의 1까지 압축하고, 경우에 따라 최대 42배까지 추론 속도를 높인다. 19개의 레이어(16개 합성곱+3개 완전연결)로 구성된 CNN 모델 CGG19을 양자화한 결과에서는 기존 5.28FPS로 동작하던 게 압축 후 222.22FPS로 동작했으며, MobileNetV1도 28.08FPS에서 480.77FPS로 17배 빨라졌다. 반면 VGG19 압축 시 정확도는 72.28%에서 1.14%, MobileNetV1은 66.68%에서 66.11%로 0.57%만 성능이 줄었다. 특정 모델을 압축해 더 많은 모델을 지원하고 AI 가속기의 동작 효율을 확대하는 것이 넷츠프레소의 역할이다.
또한 노타는 하드웨어 AI 최적화(Hardware-aware AI optimization) 기술을 통해 최적으로 동작하는 하드웨어를 지원한다. 기존에는 전문 AI 엔지니어가 하드웨어를 맞추는데 수개월이 걸렸는데 넷츠프레소의 자동화 파이프라인을 통한 사전 지원으로 이 과정을 넘어 바로 모델을 구축할 수 있다. 현재 Arm, 퀄컴, 엔비디아, 르네사스 등의 엣지용 제품 위주로 최적화가 되고 있는데 퓨리오사AI의 RNGD도 이 최적화 목록에 이름을 올릴 것으로 보인다.
한편 노타와 퓨리오사AI는 노타의 시각 인식 AI 설루션 ‘노타 비전 에이전트(NVA)’에 RNGD를 결합한 패키지 설루션을 선보인다. 지난 11월 기술협력 양해각서를 통해 기술 공급의 물꼬를 텄고, 이번 협력으로 공동 비즈니스 모델 구축을 시작하는 것이다. 노타 비전 에이전트는 시각 언어 모델(Vision-Language Model)을 기반으로 촬영 화상에 대한 실시간 모니터링, 맥락 기반의 사건 요약 및 분석 보고서 생성, 자연어 기반의 질의응답 및 영상 검색 등을 지원한다. 여기에 RNGD의 비전 처리 성능을 결합해 일괄 형태의 AI 장치로 제공하겠다는 것이다.
퓨리오사AI 입장에서는 다양한 산업 현장에서 RNGD가 쓰일 수 있음을 증명한다. 최근 보안, 의료, 유통 등은 물론 도시 관제, 스마트 빌딩 등 다양한 분야에서 CCTV와 AI를 결합하고 있다. 노바 비전 에이전트가 다양한 분야에서 활용될수록 RNGD의 비전 처리 성능도 다양하게 지원할 수 있음을 보여주는 셈이다.
채명수 노타 대표는 “이번 계약은 넷츠프레소의 AI 하드웨어 최적화 기술이 모바일, 모빌리티 등 온디바이스 AI 환경을 넘어 고성능 데이터 센터 영역까지 확장되고, 시장 내 상용화 가치를 다시 한번 입증한 결과”라며 “퓨리오사AI와 함께 대한민국의 AI 기술력을 세계 시장에 선보이겠다”라고 밝혔다.
백준호 퓨리오사AI 대표는 “퓨리오사AI의 혁신적인 NPU 기술과 노타의 고도화된 AI 최적화 역량의 결합은 세계 시장에서 한국형 AI의 저력을 증명하는 계기가 될 것”이라며 “노타와의 긴밀한 협업을 통해 실제 산업 현장에서 높은 성능과 효율을 제공하는 설루션을 선보이겠다”는 뜻을 밝혔다.
상업 운전 시작하는 퓨리오사AI, 상반기 이후에는 성과 기대해볼만
퓨리오사AI는 지난해 LG AI 연구원과 함께 8개의 RNGD 카드를 렉 형태로 엮은 NXT-RNGD 서버로 엑사원 모델을 인터넷 연결 없이 구동하는 패키지를 구성하겠다고 밝혔다. 또한 미국계 AI 인프라 기업 바이트브릿지와 함께 아시아 태평양 지역 전반의 디지털 인프라 지원을 위한 협력 구도를 구축했다. 상품화 측면에서는 딥노이드와 의료용 영상 판독·진단 보고용 AI M4CXR 지원 상품화도 진행 중이며, 노타AI의 NVA 지원도 같은 맥락이다.
그리고 지난 1월 28일에는 TSMC에서 생산하고 에이수스에서 조립한 RNGD 카드 4000장을 공식적으로 인도했다고 발표했다. 지난해부터 다각적으로 맺어온 기술협력, 양해각서 등의 AI 반도체 수요에 본격적으로 대응하고, 제품 판매도 시작할 수 있음을 의미한다. 물론 메모리 수급 등의 문제로 최근 AI 반도체 시장 자체의 향방이 불투명한 상황인데, 퓨리오사AI가 순조롭게 나아갈 수 있을지 귀추가 주목된다.
