美 워싱턴대 교수팀, AI 모델 개발 인용 정확도 등 기존 LLM 능가해
최근 과학계에서는 인공지능(AI)을 ‘연구 동료’로 활용하는 시도가 활발하다. 생성형 AI로 제작된 이미지. 게티이미지뱅크
광고 로드중
인공지능(AI)이 다양한 산업에서 경제적 가치를 창출할 것으로 기대를 모으는 가운데 과학 현장에서는 AI를 ‘연구 동료’로 활용하는 시도가 지속적으로 이뤄졌다. 국내에서도 배경훈 부총리 겸 과학기술정보통신부 장관은 “과학기술 전반에 AI를 접목해야 하고 과학기술 특화 AI가 필요하다”고 강조하고 있다. AI를 활용해 과학기술 경쟁력을 업그레이드하는 데 사활을 걸고 있다고 해도 과언이 아닐 정도다.
과학 특화 AI는 전문가 수준의 AI가 실험 설계나 데이터 분석 과정 등에 참여하는 개념이다. 여기에 더해 연구자들이 상당한 시간을 할애하는 논문이나 문헌 검토를 효율적으로 수행하는 AI의 필요성이 지속적으로 제기됐다.
한나네 하지시르지 미국 워싱턴대 교수팀은 접근이 자유로운 ‘오픈 액세스’ 문헌 검토를 수행하는 AI 모델 ‘오픈스칼러(OpenScholar)’를 개발하고 연구결과를 4일(현지 시간) 국제학술지 ‘네이처’에 공개했다. 오픈스칼러의 인용 정확도와 답변 수준은 기존 상용 대형언어모델(LLM)을 뛰어넘을 뿐 아니라 인간 전문가와 비슷하다.
광고 로드중
연구자들이 연구를 기획할 때 선행 연구결과를 종합하는 문헌 검토가 필수다. 최신 논문이나 문헌이 늘어나면서 이를 살펴보고 정리해 새로운 연구를 기획하는 작업이 만만치 않은 상황이다.
LLM이 문헌 검토 작업을 보조할 수 있다는 기대가 나왔지만 현존 LLM 대다수는 표기 오류가 잦거나 없는 내용을 허위로 생성하는 경우가 빈번하다. 예를 들어 최근 한 실험에서 상용 LLM인 오픈AI의 챗GPT-4o 기본 모델은 논문 인용 정보 78∼90%를 허위로 생성하기도 했다.
이에 연구팀은 오픈 액세스 논문 4500만 건 기반의 검색 강화형 언어모델 ‘오픈스칼러’와 오픈스칼러를 포함한 언어모델의 문헌 검토 성능을 평가할 수 있는 벤치마크인 ‘스칼러QA벤치’를 함께 개발했다. 스칼러QA벤치는 컴퓨터과학, 물리학, 생의학 등 다양한 분야의 연구 질문 3000개와 250개의 전문가 답변으로 구성된다. 실제 문헌 검토 프로세스를 반영하기 위해 경험이 풍부한 박사과정생, 박사후연구원들이 직접 작성했다. 성능 테스트 결과 오픈스칼러의 정확도는 GPT-4o와 다른 과학논문 리뷰용 AI 도구 ‘페이퍼QA2’보다 각각 6.1%, 5.5% 우수한 점수를 받았다.
연구팀은 “오픈스칼러가 연구를 지원할 잠재력이 있다”면서도 현재 수준에서는 과학 문헌 검토를 완전히 자동화하긴 어렵다고 밝혔다.
광고 로드중
재료과학 등 일부 분야에서는 AI가 이미 든든한 동료 과학자 역할을 한다는 보고도 있다. 엘사 올리베티 미국 매사추세츠공대(MIT) 재료과학공학과 교수팀은 신소재 합성 ‘레시피’를 제공하는 AI 모델 ‘디프신(DiffSyn)’을 개발, 활용해 연구 속도를 높이는 데 성공하고 연구결과를 2일 국제학술지 ‘네이처 컴퓨테이셔널 사이언스’에 공개했다.
신소재 후보 물질을 도출한 이후 제시된 물질을 합성하는 과정은 ‘난제’로 꼽힌다. 연구 제1저자인 엘턴 판 MIT 박사과정생은 “만들고 싶은 케이크 종류는 알지만 어떻게 구워야 할지 모른다는 뜻”이라며 “보통 시행착오를 통해 이뤄진다”고 설명했다.
디프신은 광물질인 제올라이트 기반 신소재를 구현할 수 있는 효과적인 레시피를 제공했다. 연구팀은 AI의 제안에 따라 열적 안정성이 향상된 새로운 제올라이트 소재를 합성하는 데 성공했다. AI가 효과적인 합성 경로를 예측해 연구 과정을 단축하는 데 기여한 것이다. 연구팀은 “AI 모델이 소재 발견 과정의 가장 큰 병목 현상을 해소할 수 있을 것”이라고 기대했다.
광고 로드중