top of page

인종적 다양성을 지원하는 데이터셋을 통한 정확한 예측모델 구현



범국가적 차원의 대규모 바이오 뱅크는 주요 규제 및 개인 정보 보호 표준을 준수하면서도 다양한 혈통에 대한 표현형 및 유전자형 데이터 세트를 보유하고 있어 정확한 예측모델을 구현하는 데 매우 중요합니다. 이런 것으로는 혁신적인 다중유전자위험점수(Polygenic Risk Score, PRS) 알고리즘과 같은 도구들이 사용되어 임상적 의사결정이나, 예방 및 개인화 의료방안을 실현할 수 있게 합니다.



범국가적 차원의 대규모 바이오뱅크, 그리고 이들이 연계된 표현형 및 유전 데이터 세트의 출현으로 임상 유전체학 분야는 특정 질병 또는 특성의 발현에 기여하는 여러 요인에 대한 이해를 높이게 합니다. [1] 유전적 요인 외에도 신체 활동 및 영양 상태 같은 환경변수가 중요한 역할을 합니다. 실제, 질병이나 특성에 따라 개인의 유전적 요인이 0~100%까지 영향을 미칠 수 있습니다.


이러한 바이오뱅크가 제공하는 대규모 데이터 세트는 상위성 효과나 임상 정보를 포함하는 고급 PRS 알고리즘과 같은 인공 지능(AI) 및 기계 학습(ML) 기반 도구의 개발을 촉진했습니다. PRS는 당뇨병, 혈압 및 정신분열증[3]뿐만 아니라 약 60개의 게놈 변이[2]와 관련된 관상동맥 질환과 같은 다인성 질환 등, 복잡한 질병의 발병 또는 중증도에 영향을 미치는 여러 유전적 요인을 설명합니다. 따라서 PRS는 다른 사람과 비교하여 특정 개인의 상대적인 질병 위험도를 표시할 수 있습니다.



도전 – 다양한 혈통에 대한 정확한 다중유전자위험점수 달성

고급 PRS는 임상 의사 결정을 포함하여 일상적인 예방 의학 및 개인 맞춤 의학을 지원할 수 있는 상당한 잠재력을 가지고 있습니다. 또한, 더욱 효율적인 임상 시험 설계, 가치 기반 의학 프로그램, 의료 지식 관리 및 과학 연구 프로그램을 제공하는 능력도 갖추고 있습니다.


일반적으로 모델의 정확성을 보장하기 위해 초기 PRS 개발에 매우 많은 양의 데이터 세트가 필요하며, 그 후에 모델이 산출한 결과를 검증하기 위해서는 독립된 다른 데이터 세트를 사용해야 합니다. 50만 명분 자료를 보관하고 있는 UK Biobank와 같은 국가 단위 바이오뱅크는, 개인에 대한 혈액, 소변 및 타액 샘플뿐만 아니라 체중, 키, 혈압 및 골밀도와 같은 풍부한 개별 측정값을 관리합니다. 이런 바이오뱅크는 데이터를 다루고 분석할 수 있는 방법과 플랫폼을 결합하여 합리적 수준의 정확도를 가진 다중유전자위험점수의 개발을 촉진합니다.


 

“임상프랙티즈와 생명과학 연구에 개인화된 접근법을 실현하려면 다양한 인구집단으로부터 조율된 임상 및 게놈데이터에 대한 접근이 핵심이다. 다양한 유전 데이터는 다중유전자 위험 점수 또는 바이오마커로 주도된 개인맞춤의료와 같이 더 정확하고 일관된 예측게놈도구를 보장하며, 늘어나는 글로벌 인구의 필요성을 더 잘 충족할 수 있는 더 적합한 신약개발과 개발프로그램 추진에도 도움을 줍니다.“

<Timo Kanninen, CSO 겸 BC Platforms 설립자>

 

하지만, 다양한 인구집단 내에서 모델 검증뿐 아니라 다중유전자위험점수의 정확성과 일관성을 달성하는 데에는 수많은 도전이 있습니다.


첫째, 이러한 바이오뱅크는 실제 원인 변이뿐 아니라 다른 변이에 연결된 변이(예, 변이 상호작용)를 식별하는 데 요구되는 수량을 충족하기에는 아직 너무 작습니다. 또한, 이 바이오뱅크 내에는 희귀질환에 대한 샘플 수도 아직은 소수에 불과합니다.


둘째, 개발된 모든 모델은 '의료 기기에 대한 유럽공동체 CE 마크 ' 또는 '의료기기로서 소프트웨어(Software-as-a-Medical-Device, SaMD)’를 획득하기 위해서 독립적인 데이터 세트를 사용해 검증되어야 합니다. 최근 FDA는 AI/ML 소프트웨어에 대하여, 실제 현실에서 지속해서 성능을 모니터링하고 검증해야 하는 것을 요구하는 '올바른 기계학습 프랙티스(Good Machine Learning Practices)'를 제안했습니다[4]. 실제로 검증에는 데이터 조화가 필요합니다. 예를 들면, 표현형(예: 진단) 정의는 초기 데이터 세트와 검증 데이터 세트 모두에서 동일 해야 하는데, 사용된 의료 코딩 시스템과 데이터 모델이 다른 경우 이러한 요구를 충족은 아주 지루한 일입니다.


마지막으로, PRS에서 파생된 AI/ML 알고리즘을 훈련하는 데 사용되는 데이터 세트로 대표되는 인구혈통은 결과에 상당한 영향을 미칠 수 있기 때문에, 다른 혈통을 가진 개인에게 동일한 PRS를 적용하게 되면 부정적인 영향을 미칠 수 있습니다. 예를 들어, 특정 유전적 변이가 특정 혈통의 개인 내에서 발견될 가능성이 더 크거나 다르게 분포되어 있기 때문에 특정 혈통의 개인을 기반으로 계산되는 PRS는 다른 혈통을 가진 개인을 기반으로 계산된 결과와 크게 다를 수 있습니다. 이러한 방식으로 PRS는 특정 인구 하위 집단에 주로 집중된 희귀 유전 변이의 영향을 간과하거나 잘못 대표할 수도 있습니다. 특정 유전적 변이로 잘 알려진 한 가지 예로는 헤모글로빈-베타에 대한 돌연변이로 인해 발생하는 겸상적혈구 빈혈이 있습니다. 이 질병의 대부분은 아프리카 인구 또는 아프리카 혈통을 가진 개인들에서 발견됩니다.


현재 글로벌로 사용할 수 있는 대부분의 게놈 데이터 세트가 주로 유럽 혈통의 데이터로 구성되어 있다는 점 또한 문제입니다. 예를 들어, Duncan의 보고서에 따르면, PRS 연구의 첫 10년(2008-2017) 동안에는 67%가 유럽 혈통의 인구에 초점이 맞추어져 있었고, 동아시아 혈통의 인구를 포함한 것은 19%, 아프리카, 히스패닉 또는 원주민 데이터를 포함한 것은 3.8%에 불과합니다. 이 연구는 또한 혈통에 따른 인구집단 간의 PRS 성능이 크게 차이가 있다고 보고했습니다.


 

“우리 BC 플랫폼사는 인구의 폭넓은 혈통을 정확하게 반영하는 데이터 세트를 가진 범국가 수준의 바이오뱅크를 설립하고 관리해야 할 필요성을 확인했습니다. 세계에서 가장 찾기쉬운 네트워크인 는 고객기관들이 더 빠르게 데이터에 접근하여 통찰력을 생성할 수 있는 안전한 플랫폼을 제공함으로써, BCRQUEST는 세상에서 가장 탐색이 손쉬운 네트워크로서 글로벌 변화를 가능하게 만들었다. 결정적으로, 하드웨어 나 클라우드 종류에 구애받지 않는 플랫폼은 현재 및 미래의 규제, 프라이버시, 데이터 거버넌스 표준들과 보조를 같이합니다."

<Nino da Silva, BC Platforms 부사장>

 

UK Biobank 데이터를 기반으로 한 최근 연구[5]에서, 통제된 환경(즉, 하나의 조율된 바이오뱅크) 내에서 다양한 예측 모델을 사용하여, 다양한 혈통에 적용된 PRS 예측 성능을 폭넓게 비교함으로써 'PRS 이식성 문제'의 규모를 설명합니다. 이 연구는 PRS의 예측능력이 서로 다른 유럽혈통 간(예, 북서부 유럽 대비 북동 및 남부유럽간)에 줄어들고, 유전적 거리(예, 비유럽 인구)에 비례하여 고르게 또는 일관성 있게 줄어든다고 점을 보고하여 다른 연구 결과들을 뒷받침하고 있다. 다른 최근 연구에서는 "한 인구 데이터에 기반하여 산출된 위험 계층화 임계값과 위험 점수 모델은 목표 인구 구조를 고려하지 않고는 다른 인구에는 적용할 수 없다. "고 결론지었습니다. 즉, 어떤 한 개인이 다른 인구로 잘못 분류되게 되면, 그 개인의 질병 위험은 근본적으로 잘못 추정될 수 있습니다.



솔루션 – 안전, 조화, 강건 플랫폼 기술로 구동하는 표현형-유전자형 다인종 통합 데이터베이스 네트워크

PRS와 같은 도구를 사용해 지역 인구에 대한 예방 및 개인 맞춤 임상 의사 결정 지원을 하려면, 유전 및 표현형(임상 데이터) 실제 현실 데이터 세트가 치료받는 개인을 정확하게 반영하는 것이 중요합니다. 유럽, 북미 및 아시아 태평양의 대부분의 국가에서 대규모 바이오뱅크와 대학 병원 데이터베이스가 이미 연구에 사용될 수 있지만, 전 세계적으로 부분 인구집단들 간의 격차가 더 고려될 필요가 있습니다.


서로 다른 혈통의 데이터를 임상 및 연구 목적으로 함께 사용할 수 있도록 하려면 서로 다른 '실제 데이터' 입력물들간의 표준화와 조화를 통해 좋은 데이터 관리 체계와 함께 기관, 지역 및 국가 승인 프로세스를 준수하는 것이 필수적이다. 데이터 형식을 일치시키는 것 외에도, 국제질병분류(International Classification of Disease, ICD)및 표준임상의학용어체계( Systemized Nomenclature of Medicine, SNOMED ) 등과 같은 서로 다른 의학 용어 코딩 시스템도 일치시켜야 합니다. FDA가 주도하는 오픈 소스 OMOP(Observational and Medical Outcomes Partnerships) 전자 건강 기록용 공통 데이터 표준의 사용도 전 세계적으로 확산되고 있습니다. 유럽에서는 혁신의료이니셔티브(Innovative Medicines Initiative)의 유럽건강데이터 및 증거 네트워크( European Health Data & Evidence Network)가 1억 개의 건강 기록을 OMOP 형식으로 맞추는 목표를 가지고 있습니다.


데이터 보안 및 개인 정보 보호도 대규모 환자 데이터 세트를 다루고 판단할 때 중요한 고려 사항입니다. 개별 수준 데이터가 조직 외부로 이동하지 않는 연합 분석(Federated Analysis)을 결합한 OMOP 데이터 조화방안이 적용될 수 있습니다. 조직 간에 이동하는 모든 데이터는 집계된 요약 데이터이며, EU의 일반데이터보호규정(General Data Protection Regulation, GDPR)을 준수할 목적으로 '비개인 데이터'로 분류됩니다.


또한, 다양한 인구 집단으로부터의 데이터 접근은 소규모 개인 집단에 집중된 특이하고 희귀한 유전 돌연변이에 기초한 새로운 치료법 개발로 이어지고, 이는 글로벌 인구집단에도 적용될 수 있다.



모델 개발, 훈련 및 검증을 위한 BCRQUEST.COM 글로벌 데이터 파트너 네트워크

BC 플랫폼은 데이터 신뢰와 개인 정보 보호를 보장하면서도 실제 데이터의 잠재력을 활용할 수 있는 데이터 관리, 공유 및 인프라를 제공목적의 글로벌 데이터 파트너 네트워크 서비스 플랫폼 환경을 개발했다. 장기간에 걸쳐 수집된 약 2,500만 명분의 환자 데이터와 유럽, 북미 및 남미, 아시아, 아프리카의 14개국에서 얻어진 50만명의 개인의 유전자 데이터를 통합하여, 전문가적 선별과 주의 깊은 통제를 거친 환자데이터들이 빠르고 안전하게 접근되는 것으로 인식되어 가고 있다. 전 세계의 모든 데이터 세트를 조율한 네트워크는, GDPR을 준수한 연합 데이터 분석 접근법을 사용하여 환자 데이터프라이버시를 보호함으로써 신약 개발과 개인맞춤의료 같은 중요한 영역에서 연구 개발을 가속할 수 있다.


환자, 건강관리기관, 그리고 약개발자들이 미충족의료필요성을 지닌 치료 분야의 혁신연구에 더욱 긴밀하게 협력함에 따라, 인간의 건강과 질병에 대해 더 잘 이해할 수 있도록 귀중한 데이터와 생체 표본을 바이오뱅크는 제공할 수 있습니다. 이러한 방식으로 바이오뱅크는 더욱 정확한 PRS의 개발에 기여하여, 개인 맞춤 의료 이니셔티브를 하는 데 도움이 됩니다. BCRQUEST·COM은 기관과 범국가적 차원의 데이터 수집에 내재적 가치를 인식하여 데이터에 대한 보상과 추가적인 재원을 생성할 수 있는 잠재성을 제공합니다. 이 ISO 인증 플랫폼은 연합적인 인공지능 학습과 다른 통계적 접근법을 활용하여, 사용자들을 지역적 사용권이 준수되면서도 이차활용 동의가 선행된 파트너 데이터와 연결한다.


연방형 학습을 하는 인공지능/기계학습 알고리즘은 실제 데이터 교환을 종종 요구하는 협업 데이터 공유(Collaborating Data Sharing, CDS)와 달리 유전 및 표현형 데이터에 대해 교환 없이 훈련할 수 있습니다. 따라서 연방형 학습은 GDPR, CCPA(California Consumer Privacy ACT : 캘리포니아 소비자 프라이버시 보호법) 및 HIPAA(Health Insurance Portability and Accountability Act, 건강보험 이전 및 책임법) 포함하는 여러 데이터 거버넌스 및 개인 정보 보호 요구 사항을 해결할 수 있습니다. 이러한 것은 외부 기관들의 데이터 사용을 진작하고, 지역적 또는 국제적으로 여러 협력자들간의 연구 프로젝트에서 데이터가 사용될 수 있도록 촉진한다.


BCRQUEST 데이터 파트너 네트워크는 PRS 모델의 검증도 또한 용이하게 합니다. '의료 기기에 대한 CE 마크’ 또는 '의료기기로서 소프트웨어(Software-as-a-Medical-Device, SaMD)’ 를 획득하기 위해선 다양한 데이터 세트를 사용하여 모델을 검증해야 합니다. 잠재적인 모델 사용자는 이러한 모델이 지역 인구에서도 검증되도록 요구할 수 있습니다.


BCRQUEST는 또한 SaMD를 위한 '총제품수명주기 규제접근법(Total Product Lifecycle Regulatory Approach, TPLRA)과 같은 잠재적인 미래 FDA 규정을 고려하는 '적응형 알고리즘'을 만들어, 지역적 환자인구데이터상에서 알고리즘이 학습되거나 추가적인 데이터가 학습에 제공되도록 한다. TPLRA의 경우 FDA는 조직과 제공제품의 수명 주기 전반에 걸쳐 '높은 품질의 소프트웨어 개발, 테스트 및 제품 성능 모니터링에 대한 합리적인 보증'을 요구할 것입니다. 그 일환으로 '올바른 기계학습 프랙티스(Good Machine Learning Practices)'는 적절한 표준 및 규정을 준수하고, AI/ML 모범 사례(예: 데이터 관리, 특징 추출, 학습 및 평가)[7]에 따르고, AL/ML 소프트웨어에 대한 실제 현실에서의 성능모니터링과 검증을 수용하는 정립된 품질시스템을 요구합니다. [4].



참고자료


1. Cope, J.L., et al. Interaction-Based Feature Selection Algorithm Outperforms Polygenic Risk Score in Predicting Parkinson’s Disease Status. Front Genet (2021). https://doi.org/10.3389/fgene.2021.744557.

2. NIH National Human Genome Research Institute. Polygenic risk scores. Accessed 2 March 2022. https://www.genome.gov/Health/Genomics-and-Medicine/Polygenic-risk-scores.

3. Duncan, L., et al. Analysis of polygenic risk score usage and performance in diverse human populations. Nat Commun 10, 3328 (2019). https://doi.org/10.1038/s41467-019-11112-0.

4. U.S. Food & Drug Administration. Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD) Action Plan. (2021). https://www.fda.gov/media/145022/download.

5. Privé, F., et al. Portability of 245 polygenic scores when derived from the UK Biobank and applied to 9 ancestry groups from the same cohort. Am J Human Genet 109(1), P12-23 (2022). https://doi.org/10.1016/j.ajhg.2021.11.008.

6. Reisberg, S., et al. Comparing distributions of polygenic risk scores of type 2 diabetes and coronary heart disease within different populations. PLoS One 12(7), e0179238 (2017). https://doi.org/10.1371/journal.pone.0179238.

7. U.S. Food & Drug Administration. Proposed Regulatory Framework for Modifications to Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD) - Discussion Paper and Request for Feedback. (2019). https://www.fda.gov/files/medical%20devices/published/US-FDA-Artificial-Intelligence-and-Machine-Learning-Discussion-Paper.pdf.

최근 게시물
bottom of page