기능 안 밝혀진 DNA 염기서열 98%… AI로 비밀 밝힌다

  • 동아일보

구글 연구팀 ‘알파게놈’ 개발
단백질 합성 못하는 ‘암흑 유전체’
염기쌍 100만 개 가진 DNA에서 수천가지 특성 분석해 변이 예측
유전자 검사 정밀도 높이는데 활용

이중나선 모양의 DNA는 생명의 설계도가 담긴 유전물질이다. DNA를 이루는 염기서열에 따라 몸에서 다양한 생명 활동을 수행하는 단백질이 만들어진다. 염기 하나의 차이가 큰 변화를 일으킬 수 있다. 게티이미지뱅크
이중나선 모양의 DNA는 생명의 설계도가 담긴 유전물질이다. DNA를 이루는 염기서열에 따라 몸에서 다양한 생명 활동을 수행하는 단백질이 만들어진다. 염기 하나의 차이가 큰 변화를 일으킬 수 있다. 게티이미지뱅크
‘알파폴드(AlphaFold)’로 대표되는 단백질 설계와 구조 예측 인공지능(AI) 모델 개발을 이끈 과학자들이 2024년 노벨 화학상을 받은 이후 AI와 데이터 기반의 생명과학 연구가 급성장하고 있다.

영국 구글 딥마인드 연구팀은 유전물질인 데옥시리보핵산(DNA)의 대규모 염기서열을 한 번에 분석해 기능을 예측할 수 있는 AI 모델 ‘알파게놈(AlphaGenome)’을 개발하고 연구 결과를 28일(현지 시간) 국제학술지 ‘네이처’에 공개했다.

● DNA 98% ‘암흑 유전체’ 기능 분석

DNA는 생명의 설계도가 담긴 유전물질이다. DNA를 이루는 구성요소인 염기는 아데닌(A), 티민(T), 구아닌(G), 사이토신(C) 4종류가 있다. 각 염기가 늘어선 서열에 따라 다른 정보가 저장된다. DNA에서 전사된 염기서열에 따라 몸에서 다양한 생명 활동을 수행하는 단백질이 만들어진다.

DNA에서 실제로 단백질 합성에 쓰이는 염기서열은 전체의 2%에 불과하다. 98%는 단백질 합성에 직접 참여하지 않는 ‘비코딩 영역’으로 세포의 종류, 환경 변화 등에 반응해 유전자를 켜거나 끄는 조절 장치 역할을 하는 것으로 알려졌다. 기능이 완전히 규명되지 않아 ‘암흑 유전체’라는 별명도 있다.

AI의 도움 없이 비코딩 영역의 기능을 밝히는 데는 한계가 있다. 비코딩 영역의 조절 작용은 단백질 구조처럼 하나의 결과로 나타나지 않고 변수가 매우 많기 때문에 기능을 규명하려면 방대한 데이터가 필요하다. 하나의 변이가 미치는 영향이 수만∼수십만 염기서열 떨어진 곳까지 전달되기 때문에 한 번에 긴 구간의 정보를 동시에 처리해야 정확하다. 염기 하나의 차이가 큰 변화를 유발할 수 있어 정밀한 염기 식별도 관건이다.

이승근 서울대 데이터사이언스대학원 교수는 “알파게놈 같은 AI 모델은 긴 DNA 구간을 넓게 바라보면서도 동시에 한 글자 수준의 미세한 변화를 포착할 수 있도록 설계됐다”며 “알파게놈이 완전히 새로운 개념은 아니다”라고 설명했다. 앞서 딥마인드와 캘리코(Calico)는 2021년에도 DNA 기능 예측 모델인 ‘인포머(Enformer)’와 ‘보르조이(Borzoi)’를 개발하며 역량을 축적해 왔다.

알파게놈은 유전체의 염기서열을 하나의 문장처럼 읽는 AI다. 비코딩 영역에 변화가 생겼을 때 세포 내에서 어떤 기능적 변화가 일어나는지 예측한다. 최대 100만 개의 염기쌍으로 구성된 긴 DNA 서열을 주변 문맥과 함께 읽어내 수천 가지 특성을 예측하며 유전변이와 돌연변이 영향을 정량화할 수 있다.

이 교수는 “기존 DNA 기능 예측 모델이 한 문단 정도만 읽고 판단했다면 알파게놈은 한 챕터에 해당하는 분량을 한 번에 읽으면서 예측하는 것”이라며 “읽는 범위를 크게 확장하고 염기 단위의 정밀도를 유지했다는 점에서 대규모 업그레이드로 보는 것이 정확하다”고 설명했다.

정밀도를 유지하면서도 DNA를 길게 보려면 계산량이 급격히 늘어난다. 알파게놈은 기존 AI 모델 구조인 트랜스포머(Transformer)와 국소 패턴 해석에 강한 합성곱(convolution) 방식을 결합한 하이브리드 전략을 채택했다. 하이브리드 전략은 선행 모델에서도 사용됐지만 이를 더 정교하게 설계해 대규모로 구현한 것이다.

이 교수는 “알파게놈의 핵심은 새로운 알고리즘의 도입이라기보다는 기술적 한계를 실제로 극복할 수 있게 만든 공학적·구조적 설계에 있다”며 “한 번에 처리하기 어려운 문제를 분할해 여러 장치에서 병렬로 학습하고 예측하는 방식을 활용했다”고 말했다.

● 유전병 예측 강화… 개인별 적용은 한계

DNA의 염기서열 변이가 다양한 생물학적 과정에 미치는 영향을 분석하면 유전병에 대한 이해와 예측 가능성을 높이고 유전자 검사 정밀도를 높일 수 있다. 신약과 치료법 혁신으로도 이어질 수 있다.

리브카 아이작슨 영국 킹스칼리지런던 분자생물물리학과 교수는 “많은 가능성과 복잡한 메커니즘이 존재하는 암흑 유전체를 밝힐 흥미로운 진전”이라고 평가했다.

퍼갈 마틴 영국 유럽생물정보학연구소(EBI) 연구원은 “알파게놈 같은 AI 모델은 인간을 넘어 식물, 동물, 미생물의 DNA 해석에도 활용될 수 있다”고 밝혔다.

다만 알파게놈은 인류 전체를 대표하는 ‘참조 유전체’를 중심으로 학습됐기 때문에 개인의 변이를 예측하는 데는 한계가 있는 것으로 분석된다. 이 교수는 “유전병 발병 위험을 개인 단위로 직접 예측하는 용도에는 아직 한계가 있다”며 “개인 데이터와의 결합이나 보완적인 모델링이 필요할 것”이라고 밝혔다.

#DNA#염기서열#AI#알파폴드#단백질#인공지능#유전체
© dongA.com All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지

트렌드뉴스

트렌드뉴스

  • 좋아요
    0
  • 슬퍼요
    0
  • 화나요
    0

댓글 0

지금 뜨는 뉴스