El “golazo” de Google: un algoritmo resolvió un problema central para la ciencia

En un paso crucial para el futuro de la medicina, la biotecnología y la inteligencia artificial, Google liberó una base de datos -disponible hace unos años, pero que ahora pega un salto cuantitativo inmenso- donde se consignan las estructuras de casi todas las proteínas que existen sobre la faz de la Tierra: 200 millones, correspondientes a 1…

el-“golazo”-de-google:-un-algoritmo-resolvio-un-problema-central-para-la-ciencia

En un paso crucial para el futuro de la medicina, la biotecnología y la inteligencia artificial, Google liberó una base de datos -disponible hace unos años, pero que ahora pega un salto cuantitativo inmenso- donde se consignan las estructuras de casi todas las proteínas que existen sobre la faz de la Tierra: 200 millones, correspondientes a 1 millón de especies. Todo en base a las predicciones de un algoritmo diseñado por la compañía. Acá, por qué esto es tan relevante para la ciencia y para qué podría servir.

La novedad viene de Alphabet, compañía matriz de Google, pero, más específicamente, de la sección de la empresa dedicada a la inteligencia artificial: DeepMind, la misma que en su momento diseñó AlphaZero, el algoritmo que hace años viene dándoles una paliza a los campeones mundiales del juego chino Go, y que ahora se pone en el tapete noticioso con un obsesivo programa de modelaje de proteínas: AlphaFold.

Cualquier enumeración es injusta: hay proteínas en ese vaso de leche fresca, en un tumor maligno, en las endorfinas que explotan ante la excitación o el placer, en un bife de chorizo mariposa, en Sergio Massa, en las bacterias que dan diarrea, en una nueva y contagiosa Ómicron y, también, en la vacuna diseñada para combatirla.

Las proteínas son todo. Están detrás de los genes (la huella digital celular), como el “edificio” que los dota de materialidad. Por algo los científicos suelen decir que los genes se traducen o se codifican en proteínas (¿cómo olvidar los enigmáticas “claaaro… es la parte del genoma que codifica para Spike“?)

La importancia científica de las proteínas es incuestionable. El problema es que no es posible avanzar sobre ellas sin conocer la función que les fue asignada. Y entender la función depende de comprender la estructura de las proteínas.

El alcance de un algoritmo capaz de predecir la forma de cada proteína, una especie de origami compuesto por cadenas de aminoácidos, es mayúsculo.

Proteínas hasta en la sopa

Sea para dilucidar la acción nutricional de las proteínas de un churrasco como para entender el efecto terapéutico de una droga contra una proteína cerebral alterada que produce Alzheimer en un paciente; o para comprender los cambios de la vedette del SARS-CoV-2, la famosa proteína Spike, a los científicos les es indispensable reconstruir la estructura tridimensional que les da existencia a estas moléculas.

Para desarrollar el algoritmo AlphaFold, Google se basó en 21 genomas de distintas especies, información que le proveyó una institución con la que debió aliarse, el European Bioinformatics Institute (EMBL-EBI)

Una ilustración de la cadena aminoácidos que integra una proteína. Foto: Shutterstock

Todo lo anterior sale de las pacientes explicaciones de dos expertos en estos temas. Por un lado, Javier Santos, doctor en Ciencias Biológicas, investigador principal del Conicet y profesor adjunto del departamento de Química Biológica de Exactas de la UBA, que trabaja en el desafío de “intentar establecer relaciones entre conformación-dinámica-estabilidad-función biológica” de las proteínas involucradas en una enfermedad neurológica llamada Ataxia de Friedreich.

Además, desde Suiza, Luciano Abriata, biotecnólogo y doctor en Química por la Universidad de Rosario, que trabaja en un laboratorio de modelado biomolecular y en el estudio de estructuras y producción de proteínas en una sección del Instituto Federal Suizo de Tecnología, en Lausana. “Trabajo en realidad virtual, haciendo modelado para entender cómo funciona la vida, pero a nivel atómico”, resumió.

Aminoácidos detrás de las proteínas

Para entender lo del plegado tipo origami que define a las proteínas, Santos aclaró que “están compuestas por cadenas que combinan, de distinto modo, 20 aminoácidos. Algunas son pequeñas, con entre 50 y 100 aminoácidos, y otras son enormes, con 1.000 a 1.500, o incluso más”.

“Estas cadenas se pliegan (NdR: en inglés, el término es “fold”. De ahí, AlphaFold) y adoptan formas específicas que dependen de cómo se presenta la secuencia de aminoácidos en cada caso… Las secuencias son consecuencia de la evolución a través de miles y miles de años”, dijo.

El logro de AlphaFold es que el algoritmo que desarrollaron “permite predecir la estructura específica a partir de esas secuencias de aminoácidos de manera extremadamente precisa”.

Tan precisa, detalló Abriata, que “AlphaFold se ofrece no solo como un gran predictor de las estructuras sino que suma una métrica que indica cuán buena es la predicción. Y cuando no hay tanta certeza, lo marcan”.

Según un artículo de la revista Nature, alrededor del 35% de los más de 214 millones de predicciones que ofrece la base de datos “se consideran altamente precisas, lo que significa que son tan buenas como las estructuras determinadas experimentalmente. Otro 45% se consideran lo suficientemente precisas para muchas aplicaciones”.

El juego de la predicción de proteínas

Una pregunta válida es cómo y por qué Google se metió en todo esto. Responderemos solo el cómo.

Hace más de 25 años se lleva a cabo -bianualmente- una competencia llamada CASP (por Critical Assessment of Techniques for Protein Structure Prediction), en la que los competidores desarrollan modelos de predicción de proteínas, y un grupo de evaluadores (que tiene la información -no liberada públicamente aún- entre sus manos) juzga quién acertó con mayor precisión.

La imagen, de 2017, muestra a uno de los campeones chinos de Go intentando ganarle al algoritmo de Google. Foto AFP

“AlphaFold ganó en 2018”, contó Abriata, quien, de hecho, fue uno de los evaluadores de ese certamen.

Si existe una competencia así hace un cuarto de siglo es porque predecir la forma 3D de las proteínas representa un problema de larga data en los estudios biológicos.

Abriata lo resumió: “Con modelos computacionales para predecir estructuras de este tipo se ahorra mucho dinero y tiempo en experimentos. ¡Para algunas proteínas, descifrar la estructura llevó de diez a veinte años!”.

La forma de las proteínas define su función, un tema central si estás desarrollando una droga para tratar un problema clínico, o para el abordaje de muchos desarrollos biotecnológicos. Incluso, energéticos”, agregó.

El entusiasmo es notable. No por nada, Abriata soltó varias veces “es un golazo”.

Cómo se metió Google con las proteínas

Veamos por qué al presentar esta noticia se habló de “salto cuantitativo”.

En estos días se está llevando a cabo la competencia CASP número 15, pero todo comenzó en la 13°, cuando en 2018 “DeepMind, con toda una nueva tecnología, entró con AlphaFold I y ganó”, recordó Abriata.

No obstante, el hito fue a fines de 2020, en la edición 14°: “Trajeron un nuevo AlphaFold (el II) hecho de cero, con un nuevo modelo computacional y la rompieron. Craquearon el problema”.

Entonces, el algoritmo había logrado modelar unas 350.000 proteínas. En 2021 salieron un par de papers en Nature con las explicitaciones del método utilizado por AlphaFold y la novedad de que habían logrado modelar la estructura de un par de millones de proteínas.

Pero ahora, el algoritmo predijo (y la base de datos se abrió públicamente) nada menos que 200 millones

Consultar esas estructuras demora segundos. Pero, claro, tiene su peso. Nada menos que 23 terabytes.

Donde el algoritmo hace agua

Dos datos más. El primero es que existe un número de proteínas de forma “impredecible”, como si su estructura fuera “fluida” o “fluctuante”.

Según Santos, “el sistema permite predecir de manera extremadamente precisa las proteínas con plegado, es decir, las ‘estructuradas’, pero hay otras que son intrínsecamente desordenadas, con mucha más movilidad y un número muy fluctuante de conformaciones que se van intercambiando. Ahí juega un rol clave la dinámica”.

El segundo, que AlphaFold es de acceso público.

Abriata reconoció que “muchos investigadores vienen estando preocupados por estos avances del machine learning y la inteligencia artificial, en especial si están en manos de un privado”.

El jugador de go Lee Se-Dol y el mandamás de Deepmind, Demis Hassabis, tras su último duelo ante AlphaGo.

Sin embargo, dado que todo algoritmo precisa aprender de algún lado, AlphaFold se montó sobre una base de datos previa, lo que limita las posibilidades de la compañía. 

En este caso, esos datos fueron producidos “a pedal”, o sea, esforzadamente generados en laboratorios de todo el mundo y reunidos altruistamente en en el Protein Data Bank (PDB), “que ya lleva 50 años de inversiones en investigación”.

Dado que esa institución le hizo de base al algoritmo de Google y dado que los datos allí volcados fueron producidos con impuestos, recae la obligación jurídica de abrir públicamente todo lo generado a partir de esa información previa.

¿Es este el fin de la biología experimental? Abriata ni lo dudó: “¡Para nada! Pero el sueño está… quizás no se alcance nunca. Es dejar de experimentar y modelar todo”.

AS

TEMAS QUE APARECEN EN ESTA NOTA