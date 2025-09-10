글로벌 반도체 플랫폼 기업 Arm이 9월 10일 기자간담회를 열고 스마트폰과 Arm 기반 PC를 위한 칩 설계 기반인 ‘Arm 루멕스(Lumex) CSS(컴퓨트 서브 시스템) 플랫폼’을 정식 공개했다. Arm은 반도체 자산 기업으로 시작했지만, 최근들어 반도체 플랫폼 기업으로 방향을 바꿨다. 지난 4월에는 Arm 루멕스 CSS 브랜드를 세분화하며 시장 공략에 박차를 가하고 있다. 이에 따라 기존 주력 분야인 인프라용 반도체 자산은 Arm 네오버스(Neoverse)로 이어지며, ▲PC용 니바(Niva) ▲자동차용 제나(Zena) ▲사물인터넷용 오르비스(Orbis) ▲모바일용 루멕스(Lumex)로 각각 나뉜다.
황선욱 Arm 코리아 사장은 “AI 시대를 맞아 Arm은 끊임없이 도전해왔다. 처음에는 소프트웨어 자산 제공으로 시작했지만 지금은 서브시스템 전반을 제공하고, 더 나아가 AI 커스텀 플랫폼으로 진화했다. Arm은 하드웨어를 넘어 컴퓨팅 성능, 전력 효율, 확장 가능한 설계 등을 제공하며, AI 확산을 위해 클라이디 AI(Kleidi AI)를 비롯한 개발 도구와 최적화된 라이브러리를 지원한다. Arm은 파트너사가 소비자들이 기대하는 온디바이스 AI 경험을 제공할 수 있도록 돕고 있다”라며 발표를 시작했다. Arm, 모바일용 반도체 자산인 ‘루멕스’ 정식 공개
정춘상 Arm 코리아 주요 필드 애플리케이션 엔지니어(Principal FAE)는 “루멕스는 스마트폰, 모바일 PC용 제품군이며 CPU와 GPU 성능 향상에 초점을 맞췄다. CPU 클러스터에서 전작 대비 두 자릿수 성능 향상을 달성했고, 모든 CPU 플랫폼에서 SME2(Arm의 행렬 연산 명령어)를 지원해 개발자들에게 더 강력한 AI 성능과 메모리 절약을 지원한다”라며 설명을 시작했다
Arm은 2030년까지 30억 대 이상의 기기가 SME, SME 2를 지원하도록 할 예정이며, 이 기기들의 AI 연산 성능을 모두 합치면 약 100억 TOPS(1 TOPS당 초당 1조 번 연산)에 달한다. SME는 AI, 고성능 컴퓨팅 등에서 쓰이는 기법인 행렬 연산을 효율적으로 처리하기 위한 Arm의 명령어 확장 기능이며, SME2는 개선 버전이다. AI 생태계가 커질수록 SME를 지원하는 Arm 기반 장치도 함께 늘어난다는 게 Arm의 계산이다.
100억 TOPS가 강조된 이유는 모바일 기기에서 처리하는 AI 연산이 그만큼 늘어난다는 해석이며, 각 제조사들이 수익성 확보를 위해 제품 생산 비용은 줄이고 기기에서 자체적으로 연산을 처리하는 등 AI 효율을 끌어올려야 한다는 의미를 담는다. Arm 루멕스 CSS는 모바일 프로세서를 만드는 기업들이 Arm 기반 설계로 빠르게 제품을 만들고, Arm 기반 AI 생태계에서 효율적으로 AI를 운용하도록 돕는다.
루멕스는 2nm, 3nm(나노미터) 반도체 설계 환경을 위한 컴퓨트 서브시스템 플랫폼이다. 쉽게 말해 모바일용 프로세서를 만들 때 기반이 되는 규격이다. 하드웨어는 차세대 SME2를 지원하는 Armv9.3 CPU와 말리 G1-울트라 GPU로 구성됐으며, 신경망 처리 장치(NPU)는 별도로 탑재하지 않는다. CPU 성능은 지난해 출시한 코텍스 X925 시리즈 프로세서보다 25% 더 높다. GPU는 이모탈레스-G925 대비 20% 높은 그래픽 성능 및 AI 추론 성능을 제공한다.
GPU는 게이밍 및 3D 처리에 쓰이는 실시간 광선 추적 성능 확보를 위해 RTUv2 유닛을 별도로 탑재했다. 덕분에 이전 세대 대비 최대 두 배의 실시간 광선 추적 성능을 갖췄고, AI 작업에서의 효율도 늘었다. GPU는 자체 전원 공급 장치를 갖춰 유휴 상태에서의 전력 소모량을 줄였다.
제품군은 ▲플래그십 스마트폰을 위한 C1-울트라 ▲ 면적당 동작 효율을 높여 체급은 낮춰도 C1-울트라와 비슷한 성능을 발휘하는 C1-프리미엄 ▲ 지속적인 작업 환경에 적합한 C1-프로 ▲ 웨어러블 등 높은 전력효율 장치를 위한 C1-나노로 나뉜다. 처리 속도는 C1-울트라가 4.1GHz, C1-프리미엄이 3.5GHz, C1-프로가 2.5GHz, C1-나노가 2GHz다. 모든 라인업은 행렬 연산 가속을 위한 SME2 명령어를 기본 지원하며, AI 추론 작업을 자동으로 최적화하는 클레이디 AI를 지원한다. 덕분에 시스템 코드를 변경하지 않고도 자동으로 SME2 가속이 지원돼 온디바이스 AI 효율을 높인다.
Arm은 AI 처리를 위한 전용 칩인 NPU를 제외하고, SME2를 기반으로 CPU가 직접 AI 연산을 처리하는 구성을 택했다. 기존의 CPU 혹은 GPU가 AI 처리에 비효율적이어서 별도로 NPU를 탑재했으나, 새로운 명령어를 통해 CPU로도 충분히 데이터를 처리할 수 있어서다. Arm은 음성 전사 앱인 위스퍼에서 음성인식 대기 시간은 최대 4.7배 줄었고, 구글 젬마 3를 활용한 LLM 전환은 초당 84토큰에서 398토큰으로 크게 늘었다고 밝혔다. 스태빌리티AI에서 서비스 중인 AI 사운드 생성 과정도 전 세대에서 27초가 걸리던 게 9.7초로 줄었다.
Arm 루멕스 기반의 새로운 CPU 클러스터는 이미 테이프 아웃을 마쳤고, 여러 파운드리에서 생산할 수 있음이 확인됐다. 테이프 아웃은 반도체 설계팀이 물리적 설계 도면을 반도체 제조공정으로 이송했음을 뜻하는 말로, 곧 생산을 시작한다는 말이다. 업계에서는 미디어텍 디멘시티 9400+의 후속 제품인 디멘시티 9500이 Arm 루멕스 CSS 기반으로 제조되었을 것으로 보고 있다. 샤오미가 자체 개발한 XRing 칩에도 향후 Arm 루멕스 CSS가 적용될 수 있다. 다시 NPU 빼는 Arm, 앞으로의 시장 방향은?
카운터포인트리서치가 집계한 2025년 1분기 스마트폰 애플리케이션 프로세서 시장 점유율은 미디어텍이 36%로 1위, 퀄컴이 28%로 2위며, 애플이 17%로 3위다. 삼성전자의 점유율은 5%며 이외에 하이실리콘, 유니SOC가 점유율을 갖는다. 이중 거의 모든 브랜드가 Arm의 반도체 자산을 기반으로 애플리케이션 프로세서를 제작하고 있어서 사실상 Arm의 영향력은 절대적이다.
Arm이 새로운 기술을 제안하면 제조사는 이를 도입하고, 새 설계 기준을 내면 이를 기반으로 하는 게 지금까지의 상황이었다. 그런데 최근 많은 애플리케이션 프로세서 제조사가 AI 기능을 강화하기 위해 NPU를 추가하는 상황임에도, Arm은 루멕스 CSS를 활용하면 NPU가 필요 없을 것이라고 제안한다.
Arm의 설명대로 NPU를 빼고 CPU나 GPU로 AI 연산을 처리하면 단가나 제조 측면에서 이점이 있다. Arm은 SME2를 활용해 개발자들이 쉽게 NPU 기능을 CPU에 도입할 수 있음을 강조하고, 실제로도 NPU가 등장했어도 이를 활용하는 애플리케이션 등은 많지 않다고 말한다. NPU간 표준화도 잘 되어있지 않다. 향후 AI 관련 작업이 늘어나 CPU에 가해지는 부하가 지속적일 경우 NPU가 빠진 점으로 손해를 볼 여지는 있지만 몇 세대 뒤에 벌어질 일이다. 논리적으로는 NPU를 빼는 Arm의 접근법이 현실적이다.
결국 AI 스마트폰 개발자 생태계가 어떻게 진화하고, 또 소비자가 어떤 제품을 선택할까에 따라 누가 옳았는지 드러날 것이다. NPU를 탑재해 차별화된 AI 성능을 제공하는 프로세서 탑재 스마트폰과 Arm 루멕스를 기반으로 NPU 없이 CPU와 GPU를 앞세운 스마트폰이 겨루게 될 것이다. Arm은 그간 고객과 경쟁하지 않는다는 철학을 지켜왔지만 그런 시대는 끝났다. Arm 루멕스 CSS에서도 새로운 Arm의 시장 전략이 잘 드러난다.
댓글 0