인공지능이 만든 단백질 우주 속, 인간 면역의 고대 뿌리를 발견하다 - 서울대사람들 제74호

인공지능이 만든 단백질 우주 속,
인간 면역의 고대 뿌리를 발견하다

글. 여진기 연구원 (생명과학부 석박통합과정)

생명과학부 마틴 스타이네거 교수 연구팀은 취리히연방공과대학교(ETH Zurich), 유럽 생물정보학연구소(EMBL-EBI)와 공동으로 2억 개 단백질 예측 구조에서 새로운 진화 연결 고리를 제시했다. 저널에 발표된 이 연구는 인간 면역 기능의 새로운 발견을 제시함으로써 진화생물학과 의학, 약학 분야에서 긍정적으로 활용될 것으로 기대를 모으고 있다.

단백질은 탄수화물, 지방과 함께 소위 ‘탄단지’라 불리는 3대 기본영양소로, 우리 삶에서 다양한 역할을 하고 있다. 가령, 현대 생명공학의 발전과 함께 대량으로 생산돼 수많은 생명을 구하고 있는 인슐린, 항체와 같은 분자들뿐만이 아니라 단백질 보충제, 미용실의 약제 등 일상에서도 찾아볼 수 있다. 이러한 단백질의 다양한 면모를 살펴보는 것은 과학적 의미는 물론 생물학 연구에서 필수적이며 우리 일상에도 큰 도움이 될 것이다.

‘폴드시크 클러스터’ 개발로 단백질 검색을 빠르게 단축

단백질의 기능은 단백질 구조에 의해 결정된다. 단백질은 형형색색 구슬로 이어진 팔찌처럼 아미노산이라는 구슬이 묶여 팔찌와 같은 3차원 구조를 갖게 되는데, 이 구조에 의해 단백질의 기능이 결정된 다. 그런데 단백질의 구조를 파악하는 것은 시간과 노력이 많이 드는 어려운 작업이다. 실험적으로 순도 높은 단백질을 만들기 위해서는 많은 시간이 들고, 고가의 장비를 사용해야 한다. 컴퓨터 연산을 통한 단백질 구조 예측 역시 기술적으로 매우 어렵다.
하지만 최근 인공지능 소프트웨어인 알파폴드2(AlphaFold2)로 인해 50여 년간 난제였던 단백질 구조를 높은 정확도와 상상할 수 없을 속도로 예측할 수 있었다. 그 결과 단백질 구조의 개수가 20만 개에서 2억 개로 1천 배 이상 증가하게 되었다. 그럼에도 최근까지의 연구는 개별 단백질 수준에만 그쳐 있었고, 전체를 포괄하는 종합적인 분석에는 미흡했다.
수억 개 이상의 데이터 포인트를 다룰 때는 데이터 간의 유사성을 통해 그룹으로 분류하는 클러스터링(Clustering) 방법이 유용하게 사용된다. 하지만 2억 개에 달하는 단백질 구조의 유사성을 계산해서 클러스터링을 할 경우 기존 소프트웨어의 연산 속도로는 약 10여 년의 계산이 필요했다. 이런 불편한 문제를 해결하기 위해 우리 연구진은 수억 개 이상의 단백질 구조 간 유사성을 빠르게 계산할 수 있는 단백질 검색 시스템 ‘폴드시크 클러스터(Foldseek Cluster)’ 알고리즘을 개발했고, 단 5일 만에 연산을 끝낼 수 있었다. 그 결과 2억 개의 단백질 구조를 200만 개의 서로 다른 클러스터로 묶을 수 있었고, 다루는 데이터 포인트의 수가 감소함으로써, 전체 데이터의 경향성을 살펴볼 수 있었다.

단백질 진화 역사를 되돌아보는 타임머신의 발견

일반적으로 진화과정에서의 단백질 서열은 단백질 구조보다 변화가 많고 변화의 속도가 더 빠르다. 이 때문에 진화상의 유연관계(조상-후손 관계)가 있음에도 서열상의 비교로는 그 관계가 잘 드러나지 않는다는 단점이 있다. 반면 상대적으로 보존이 잘되는 단백질 구조를 통해 비교하면 유연관계를 밝혀 먼 친척에 해당하는 단백질을 식별할 수 있게 된다. 즉, 이 연구에서 이와 같은 구조 유사성 분석을 통해 단백질의 고대 진화에 관한 간접적 증거를 찾을 수 있었던 것이다. 이는 먼 옛날 단백질들이 언제, 어떻게 분화가 시작되었는지를 되돌아볼 수 있는 일종의 진화 역사에 대한 타임머신을 발견한 것과 같다.
분석 결과, 인간의 선천 면역 관련 단백질 중 많은 수가 박테리아에서 발견되는 단백질과 비슷한 3차원 구조를 가졌음을 발견했다. 기존 연구들에 따르면, 면역 작용은 진핵생물에서만 발견된다고 알려져 있는데, 면역 기능을 하는 단백질이 원핵생물(박테리아)에서 발견되었다는 점은 우리의 면역 체계가 기존 가설보다 훨씬 오래된 단백질에서 분화되었을 수 있으며 병원체에 맞서 싸우는 메커니즘이 진핵생물을 넘어 종간에 더 광범위하게 공유될 수 있다는 것을 시사한다.
본 연구에서는 인공지능을 통해 단백질 구조 빅데이터를 클러스터링하여 새로운 단백질에 대한 통찰을 제안했다. 전 세계 5억 명이 넘는 당뇨병 환자가 인슐린을 치료제로 쓰고 있다. 연구가 잘된 단백질은 수많은 사람의 생명을 지킬 만큼 중요하다. 이 연구 결과를 통해 인공지능 기술이 인류와 삶에 도움이 되는 긍정적인 면이 있음을 볼 수 있기를 바란다. 우리 연구진은 연구 결과와 함께 클러스터링 전체 데이터를 공개해 웹사이트로 쉽게 접근할 수 있도록 만들었다. 전 세계 생명과학자들에게 공개된 단백질 구조 클러스터링 데이터를 통해 또다시 우리 삶에 지대한 혜택을 주는 단백질이 나오고, 더 나아가 생명에 대한 이해가 깊어지길 기대한다.

* 이 연구는 마틴 스타이네거 생명과학부 교수 연구팀과 페드로 벨트라오 취리히연방공과대학교(ETH Zurich) 교수 연구팀, 유럽 생물정보학연구소(EMBL-EBI)와 공동 연구로 진행되었습니다. 공동 제1저자로 여진기 생명과학부 연구원과 유럽 생물정보학연구소의 이니고 배리오 헤르난데즈 연구원이 참여하고, 공동 저자로 생명과학부의 밀롯 미르디타 연구원, 캐머런 길크리스트 연구원, 유럽 생물정보학연구소의 미할리 바라디 연구원, 사미에르 벨란카르 연구원, 취리히연방공과대학교의 율건 야네스 연구원, 이스라엘 바이즈만과학연구소의 타니타 웨인 연구원이 참여했습니다. 교신 저자로 마틴 스타이네거 교수와 취리히연방공과대학교의 페드로 벨트라오 교수가 지도하였습니다. 연구 결과는 9월 13일 세계적 학술지 <네이처(Nature, 2023, 10.1038/s41586-023-06510-w)>에 소개되었습니다.