이효정([email protected]), 2024년 5월 27일 12:00 작성

“AlphaFold 3는 세상의 모든 생체 분자의 구조와 상호작용을 예측합니다.”

딥마인드가 내놓은 단백질 구조 예측 모델

지난 7일(현지 시간), 구글(Google)의 인공지능 기업 딥마인드(DeepMind)와 구글 산하 스타트업 이소모픽 랩스(Isomorphic Labs)가 새로운 단백질 구조 예측 모델 ‘AlphaFold 3’를 발표했습니다. 이전 버전인 ‘AlphaFold’와 ‘AlphaFold 2’ 역시 단백질의 입체 구조를 예측하기는 하였지만, 이번 모델은 정확도가 더 높을 뿐만 아니라 다른 생체 분자들과의 상호작용 역시 계산할 수 있다는 점에서 효용성이 매우 큽니다. 딥마인드는 해당 연구 결과를 세계적인 저널 Nature에 발표하였고, 비영리 연구를 지원하기 위한 무료 플랫폼인 ‘AlphaFold Server’를 함께 공개하였습니다.

예측 성능과 관련하여, 이번 모델은 단백질과 생체 분자 상호작용에 대한 정확도가 50% 이상 향상되었고 일부 상호작용의 경우 두 배까지 향상되었다고 알려졌습니다. AlphaFold 2가 단백질 구조 예측 대회인 Critical Assessment of protein Structure Prediction(CASP)에서 세운 기록이 2년째 깨지지 않고 있는 상황에서, AlphaFold 3의 발표는 해당 분야에서 딥마인드의 위치를 더욱 공고히 할 것으로 보입니다.

<aside> 🛠️ AlphaFold Server 사용해보기

AlphaFold

AlphaFold Server 사용 방법에 대한 영상. 출처: Google DeepMind

AlphaFold Server 사용 방법에 대한 영상. 출처: Google DeepMind

</aside>

AlphaFold 3의 구조

‘AlphaFold 2’의 구조. 출처: (Jumper et al., 2022)

‘AlphaFold 2’의 구조. 출처: (Jumper et al., 2022)

AlphaFold 3의 구조를 이해하기 위해서, 바탕이 되는 AlphaFold 2의 구조를 알아봅시다. AlphaFold 2는 크게 세 가지 부분으로 나뉘는데요, 입력 서열이 들어가면 ▲‘Multiple Sequence Alignment(MSA)’와 ‘Templates’ ▲’Evoformer’ ▲’Structure module’ 단계를 거쳐 3D 입체 정보를 얻게 됩니다. AlphaFold뿐만 아니라 현재 대부분의 모델이 위와 유사한 구조를 따르고 있습니다. 

각 단계에 대해 더 구체적으로 알아봅시다. MSA는 이미 존재하는 - 우리가 서열과 구조를 모두 알고 있는 - 데이터베이스에서 입력 서열과 유사한 서열을 찾는 역할을 합니다. 서열을 구성하는 아미노산 배열이 비슷하면 최종 구조도 비슷할 가능성이 크기 때문에 참고 자료로 이용하려는 것입니다. Templates에서는 찾은 유사 서열에 대응되는 구조를 가져와 서열-구조 ‘pair representation’을 만듭니다. 다음으로 Evoformer는 MSA의 결과를 사용하여 행과 열(row-wise/column-wise) attention을 계산합니다. 이때 이전 단계에서 얻었던 기존 pair representation 정보를 bias로서 반영하게 됩니다. 마지막으로 Structure module은 Evoformer 결과를 바탕으로 입체 구조를 추론하는데, 구조를 결정하는 주요 탄소 사슬인 backbone chain을 여러 각도로 돌려보면서 나머지 구조인 side chain가 붙을 위치를 알아내는 방식입니다.

‘AlphaFold 3’의 구조. 출처: (Abramson et al., 2024)

‘AlphaFold 3’의 구조. 출처: (Abramson et al., 2024)

AlphaFold 3는 AlphaFold 2와 전반적인 흐름은 비슷하지만, 몇 가지 부분에서 차이가 있습니다. 먼저, 기존 Evoformer 자리가 ‘Pairformer’로 바뀌었습니다. Pairformer는 MSA 결과 대신 단일 input 서열과 pair representation만을 처리합니다. 이에 따라 MSA 모듈의 크기는 작아졌지요. Structure module은 ‘Diffusion module’로 교체되었습니다. 생성형 모델을 사용하게 됨에 따라 불확실한 하나의 결과를 내놓기보다는 여러 가능한 결과를 추측하는 방향으로 바뀌었습니다. 덕분에 AlphaFold 2에서 side chain의 위치를 알기 위해 사용되었던 최적화 과정이 이제 필요 없게 되었습니다. 물론, 물리적으로 타당하지 않은 결과가 나오는 것을 방지하기 위하여 AlphaFold 2를 이용한 훈련 데이터 교차 검증이 이루어졌다고 합니다.

<aside> 📄 논문에서 자세한 내용 알아보기

</aside>

생명과학 연구에 미칠 영향은?

단백질은 우리 몸에서 촉매 역할을 하는 분자입니다. 다른 생체 분자들을 특이적으로 인식하고 결합하면서 연쇄 반응을 일으키지요. 이때 각 단백질의 반응은 그 삼차 입체 구조에 의해 결정되기 때문에, 단백질의 구조를 아는 것은 생체 현상을 일으키고 분석하는 데 매우 중요합니다.

그러나 단백질의 구조는 펩타이드를 구성하는 아미노산 하나하나의 종류와 순서, 길이, 주변 온도나 pH 등에 따라 예민하게 변하기 때문에, 단백질의 구조를 정확히 예측하는 것은 불가능에 가깝게 여겨져 왔습니다. 따라서 이전까지는 고려 가능한 선에서 ‘먼저 시도해보고, 결과에 따라 수정’하는 trial-and-error 방식을 많이 사용했지요. 수많은 시행착오를 동반하는 이러한 과정은 하나의 단백질 구조 예측에 평균 10만 달러라는 천문학적인 비용을 낳았습니다. 만약 AlphaFold가 딥마인드의 주장대로 ‘모든 생체 분자를 예측’할 수 있다면, 생명과학 연구를 10년 이상 앞당기는 돌파구가 될 수 있습니다.