염기교정 유전자가위의 염기교정 효율과 교정결과를 예측할 수 있는 인공지능 프로그램을 개발한 연세대 김형범 교수팀 연구는 생명공학 분야 국제학술지 네이처 바이오테크놀로지(Nature Biotechnology)에 7월 7일 게재됐다./ⓒ네이처 바이오테크놀로지·연세대 김형범 교수팀

[ATN뉴스=이기종 기자] 한국연구재단(NRF)은 연세대학교 의과대학 약리학교실 김형범 교수팀이 염기교정 유전자가위의 염기교정 효율과 교정결과를 예측할 수 있는 인공지능 프로그램을 개발했다고 9일 밝혔다.

염기교정 유전자가위는 크리스퍼 유전자가위에서 유래된 새로운 타입의 유전자가위로 DNA의 이중가닥을 절단하지 않고 특정 염기를 치환할 수 있다는 점에서 유용하다.

이 염기교정 유전자가위는 아데닌(A; Adenine)을 구아닌(G; Guanine)으로 치환할 수 있는 아데닌 염기교정 유전자가위와 사이토신(C; Cytosine)을 티민(T; Thymine)으로 치환할 수 있는 사이토신 염기교정 유전자가위가 있다.

특히 특정 염기를 바꿔주는 염기교정 유전자가위는 유전질환을 일으킬 수 있는 점돌연변이를 바로잡거나 반대로 유전질환을 가진 동물모델을 얻기 위한 매력적인 도구가 될 수 있다.

이 점돌연변이(point mutation)는 아데닌(A), 구아닌(G), 시토신(C), 티민(T) 등 네 종류의 염기가 특정한 순서로 늘어선 서열이며 유전자에 따라 다양한 생물학적 특성이 결정된다.

이 때 특정 위치의 염기 하나에 변이가 일어나면 유전질환으로 연결될 수 있는데 우리 유전질환의 절반 이상이 이러한 점돌연변이 때문인 것으로 알려져 있다.

하지만 고정된 한 자리에서 편집이 일어나는 것이 아니라 일정 범위 안에 같은 종류의 염기가 여럿이 존재한다면 원하지 않는 염기가 편집될 수 있다.

이 때문에 위치별 편집빈도를 예측하고 가장 안전한 유전자가위를 선별하는 과정이 필수적이었다.

이번 연구팀은 이러한 제한점을 해결하기 위해 다양한 염기교정 유전자가위를 만들고 각각의 효율과 결과물의 빈도에 대한 빅데이터를 확보한 후 딥러닝으로 분석해 염기교정 결과예측 프로그램(DeepBaseEditor)을 개발했다.

연구과정을 보면 정확한 예측 프로그램을 만들기 위해 정확하면서 많은 데이터가 필요하고 이러한 데이터를 얻기 위해 기존에 개발된 유전자가위 대량검증법을 사용해 염기교정 유전자가위의 활성 및 교정결과의 빈도를 측정했다.

이어 생산된 대량의 데이터는 스스로 학습하여 일정한 규칙을 찾아내는 딥 러닝(Deep learning) 기술을 이용해 예측모델을 만들었다.

이 과정에서 기존의 크리스퍼 유전자가위는 효율만 예측하여도 유전자가위를 선별하는데 문제가 없었으나 염기교정 유전자가위는 염기교정 결과도 예측할 필요가 있었다.

이에 연구진은 새로운 염기교정을 예측이 가능한 다른 모델을 동시에 개발했다.

먼저 두 종류의 염기교정 유전자가위 활성 및 결과 예측모델을 구축하기 위한 첫 단계로서 앞선 연구를 통해 개발한 유전자가위 활성 대량측정법을 이용해 대량의 유전자가위의 효율 및 교정결과 데이터를 생산했다.

또 생산된 데이터는 스스로 학습하고 그 속에서 일정한 규칙성을 찾아 제시할 수 있는 딥러닝 기술을 가진 인공지능을 이용하여 효율과 교정결과를 예측하는 모델을 개발하였다.

이로 인해 활성 예측 모델의 경우 실제 실험 결과 값과 인공지능이 제시한 예측 값의 상관관계가 0.69~0.79 수렴되는 높은 신뢰도를 보여주었으며 결과 예측 모델의 경우 예측 값의 상관관계가 0.91~0.93으로 매우 높게 나타났다.

이는 상관관계 값이 1에 가까울 수로 보다 큰 정확도와 신뢰도를 보여준다.

이후 알려진 인간 질환 중 염기교정 유전자가위로 질환 모델을 만들거나 치료할 수 있는 질환들의 결과를 예측했으며 그중에서 일부의 유전자가위를 인간유도만능줄기세포에서 확인했다.

이 연구결과에 의하면 23,479개의 점돌연변이 유전질환 가운데 염기교정 범위 내 표적염기가 1개이면서 효율(5%이상)이 높을 것으로 예상되어 염기교정 유전자가위로 유전자편집을 시도해볼 수 있는 질환으로 낭포성 섬유증(cystic fibrosis) 등 3,058개 가량의 점돌연변이 유전질환을 1차적으로 선별했다.

그리고 점돌연변이 유전질환 가운데 상당수(약 19,505개)가 염기교정이 일어날 수 있는 범위에 동일 염기(아데닌 또는 시토신)가 2개 이상 자리하고 있어 원하지 않는 위치에서의 편집확률을 미리 예측하는 것이 중요하다.

이들 19,505개의 유전질환 중 약 4,274개의 유전자에 대해 효율(5%이상)이 높으면서 다른 염기의 변이가 잘 일어나지 않을 것으로 예측했고 이 질환들은 추가적인 변이 가능성이 낮을 것으로 예상되어 염기교정 유전자가위를 사용이 가능할 것으로 봤다.

이 연구는 과학기술정보통신부와 한국연구재단이 추진하는 중견연구지원사업, 바이오의료기술개발사업, 선도연구센터지원사업 등의 지원으로 수행됐고 생명공학 분야 국제학술지 네이처 바이오테크놀로지(Nature Biotechnology)에 7월 7일 게재됐다.

저작권자 © 에이티엔뉴스 무단전재 및 재배포 금지