허깅페이스에 개발 과정과 성능 비교 자료 업로드
수학·코딩 테스트에서 딥시크-V3.1보다 각각 102·110% 우위
연내 멀티모달 기능 도입과 조 규모 확장 검토
4개월 개발·1천 GPU로 519B 모델 완성
SK텔레콤 CI
SK텔레콤 정예팀은 7일 5190억 매개변수 규모의 대형 AI 모델 A.X K1(에이닷엑스 케이원)에 대한 기술 보고서를 허깅페이스에 올렸다고 발표했다.
정예팀은 4개월 동안 1000개 GPU를 동원해 약 10조 토큰 데이터를 처리했다고 한다. 스케일링 이론(투입 자원에 따라 성능이 비례한다는 원리)을 적용해 모델 크기를 설계하고, 웹·코드·이공계(STEM: 과학·기술·공학·수학) 자료를 활용했다. 정부 지원 없이 자체 자원으로 목표를 이뤘다.
수학 벤치마크 AIME25(미국 고교생 수학 올림피아드 문제 세트)에서 89.8점을 기록하며 딥시크-V3.1(88.4점)보다 102% 높은 점수를 냈다. 코딩 테스트 LiveCodeBench(실시간 신규 문제 풀이 평가)에서는 영어 75.8점·한국어 73.1점으로, 상대 모델(영어 69.5점·한국어 66.2점) 대비 109·110% 성능을 보였다. 비교 대상은 딥시크-V3.1(685B)과 GLM-4.6(357B) 오픈소스 모델이다.
모델은 519B 중 33B만 선택 활성화하는 전문가 혼합(MoE: 여러 전문 모듈이 입력에 맞춰 동작하는 구조) 방식을 썼다. 이를 통해 훈련 과정의 안정성과 효율을 높였다. 128K 토큰(한국어 약 10만 단어) 문맥 처리도 가능해 긴 보고서나 책 한 권을 한 번에 분석할 수 있다.
SK텔레콤은 추가 연구로 컴퓨팅과 데이터를 늘려 성능을 끌어올릴 방침이다. 올해 말 멀티모달(텍스트·이미지 등 다중 입력 처리) 기능을 넣고 조(1조) 단위 매개변수로 키울 계획이다.
댓글 0