En un hecho inusual, por segunda vez en esta semana, el Premio Nobel distingue desarrollos que involucran sistemas informáticos e inteligencia artificial (a tal punto, que algunos bromeaban con que el próximo premio de literatura, que se otorga mañana, sería a la ya célebre aplicación de aprendizaje automático ChatGPT). Los coronados en Química son, por un lado, David Baker (62), nacido en Seattle, Estados Unidos, y por otro, el británico Demis Hassabis (48) y el estadounidense John Jumper (39). Baker fue pionero en el diseño de nuevas proteínas; Hassabis y Jumper desarrollaron el programa AlphaFold2, que permite predecir la estructura de millones de ellas. Ambos, avances extraordinarios.
“El impacto del trabajo de los laureados este año es enorme –dijo durante la presentación de esta mañana Johan Aqvist, miembro del comité Nobel– y ya fue aplicado al desarrollo de fármacos y otras tecnologías. Para entender cómo funcionan las proteínas, uno necesita saber cómo es su estructura, y esto es lo que lograron dilucidar los galardonados”.
“Las dos líneas de investigación reconocidas son claramente disruptivas. La función de una proteína depende de su estructura y ésta, a su vez, de su secuencia de aminoácidos. Las secuencias se pueden leer fácilmente, las estructuras lleva mucho esfuerzo determinarlas. El paso de una a la otra depende fundamentalmente de las leyes de la física, que son conocidas, pero implican millones de interacciones y posibilidades”, coincidió en declaraciones a SMC España Toni Gabaldón, jefe del grupo de Genómica Comparada del Instituto de Investigación Biomédica (IRB Barcelona) y del Barcelona Supercomputing Centre (BSC-CNS).
MÁS INFO
Las proteínas son las macromoléculas que hacen posible la vida, su herramienta maestra. En 2003, David Baker, al que se le otorga la mitad del premio de alrededor de un millón de dólares, tuvo éxito en un desafío de larga data: crear nuevas proteínas. La primera fue la Top7, que llegó “como un relámpago en la oscuridad para los investigadores de ese campo, que hasta ese momento solo habían podido copiar las existentes en la naturaleza”, explica el comunicado de la Academia Sueca de Ciencias. Lo hizo usando un software de computadora llamado Rosetta, que luego liberó al acceso público para que la comunidad científica pudiera seguir desarrollándolo, y así dio lugar a que se fueran diseñando toda una serie de nuevas proteínas.
Demis Hassabis, maestro de ajedrez a los 13 años y creador de la compañía Deep Mind (uno de cuyos sistemas de inteligencia artificial obtuvo triunfos resonantes, como batir al campeón mundial humano de Go), y John Jumper, que se incorporó más tarde a la empresa, desarrollaron AlphaFold2 y con él lograron resolver un problema que atormentaba a los químicos desde hace más de medio siglo: predecir la compleja estructura de las proteínas a partir de su secuencia de aminoácidos. De millones de ellas.
“Todos los seres vivos estamos hechos fundamentalmente de proteínas que adoptan formas estructurales muy, pero muy variadas y que todavía no entendemos en profundidad –explica Diego Ferreiro, investigador principal del Conicet, profesor de la Facultad de Ciencias Exactas y Naturales de la UBA y codirector del Laboratorio de Fisiología de Proteínas de esa casa de estudios–. Estas moléculas están hechas de secuencias de aminoácidos [moléculas que se combinan para formarlas como si fueran un collar de perlas], pero que no se disponen de cualquier forma, sino que adoptan estructuras tridimensionales plegándose en el espacio en tiempos relativamente cortos (entre algunos microsegundos y minutos). Son precisamente estas estructuras las que les dan sus propiedades químicas. El problema que surgió fue averiguar cómo hace una proteína cualquiera para adoptar su estructura. Se lo conoce como ‘el problema del plegado de proteínas’. Es un desafío muy complejo que se viene atacando desde hace 70 años. Se conocían algunos principios, pero no se habían logrado diseñar nuevas proteínas hasta que llegó David Baker. Hace tres o cuatro décadas, él empezó a diseñar algunas muy elementales, pero logró mostrar experimentalmente que las estructuras que obtenía en la computadora efectivamente lograban esos plegados. Fue revolucionario”.
MÁS INFO
La diversidad de la vida es testimonio de la asombrosa capacidad de estas macromoléculas. Funcionan como hormonas, enzimas [catalizadoras de reacciones químicas], anticuerpos. Sus componentes básicos son 20 aminoácidos diferentes, los “ladrillos de la vida”. En 2003, Baker logró utilizar estos bloques para diseñar una nueva proteína que no se parecía a ninguna otra y desde entonces, su equipo siguió creando toda una serie que pueden usarse como productos farmacéuticos, vacunas, nanomateriales o diminutos sensores, informa el Comité Nobel.
El otro avance distinguido este año se vincula con la predicción de las estructuras decisivas para su funcionamiento, algo que se logró hace cuatro años, cuando Hassabis y Jumper ganaron el 14° concurso CASP (siglas que corresponden a Critical Assessment of Protein Structure Prediction, un proyecto que se había creado justamente para estimular los avances en este campo) con su sistema AlphaFold2. Éste alcanzó la precisión de los otros métodos en la mayoría de los casos, algo que se creía imposible.
“Que una proteína se pliegue de una forma u otra depende esencialmente de las interacciones químicas –explica Ferreiro–. El problema es que las posibilidades son muchísimas. Cada proteína está hecha de cientos de aminoácidos, que además interactúan con el solvente. Para plegarse se rompen miles de interacciones moleculares y se forman otras tantas. Ese balance entre las que se forman y las que se rompen es justamente lo que da como resultado el particular plegado de cada una. Pero como esas interacciones son muchas y las computadoras todavía son demasiado lentas para poder simular todo el proceso con eficiencia, se logró un atajo, que fue utilizar la inteligencia artificial. A partir de secuencias y estructuras tridimensionales conocidas, que ya habían sido dilucidadas por la comunidad científica y guardadas en bases de datos, Hassabis y Jumper lograron correlacionar las secuencias con las estructuras. Dada una secuencia de aminoácidos, el programa predice una estructura”.
El problema es que las proteínas son moléculas y como tales no pueden quedarse quietas. “Están sometidas al ‘ruido’ del entorno –destaca Ferreiro–. Lo interesante es que se mueven en direcciones que no son azarosas. Se abren y se cierran en determinados lugares. Se unen a diferentes sustratos y tienen un proceso de catálisis. Todo eso está íntimamente relacionado con su forma tridimensional. Por supuesto, las proteínas naturales no tienen una sola, tienen una colección de estructuras y 'visitan' diferentes formas estructurales. Una primera aproximación a esta cuestión sería 'congelar la proteína para ver cuál es la forma más estable'. Eso es lo que se obtiene con el programa AlphaFold2. Pero esto no es el final de la historia, sino apenas el comienzo, porque a partir de las estructuras de mínima energía (es decir, las más estables), uno puede empezar a ver cómo se perturba esa forma estructural en diferentes condiciones, a diferentes temperaturas y demás”.
Todo lo que le sucede a los seres vivos está mediado por proteínas. Hay algunas muy grandes, como la titina [la más grande que se conoce en el ser humano, con multitud de funciones], que tiene miles de aminoácidos, pero lo habitual es que tengan entre 50 y 500. En todo caso, dilucidar la cantidad de secuencias posibles es una tarea monumental y para la cual, antes de estos avances, los químicos sólo contaban con la cristalografía de Rayos X.
MÁS INFO
“Si tenés 100 posiciones y ponés uno de los 20 aminoácidos genéticamente codificados en la primera posición, otro en la segunda, otro en la tercera… eso te da una cantidad de posibilidades equivalente a 20 elevado a la centésima potencia [el resultado de multiplicar 20 x 20 x 20… y así cien veces]. Es un número muy, muy, pero muy grande, más grande que la suma de partículas que hay en el universo. Entonces, lo que se llama ‘el espacio de proteínas posibles’, la cantidad de secuencias posibles, es inabarcable. Estas herramientas nos ayudan a explorar cuáles son las secuencias que podríamos modificar con fines tecnológicos como los que necesitamos. Por ejemplo, el erróneo plegamiento de las proteínas puede conducir al Alzheimer y algunos tipos de diabetes. El problema es que para entender cómo funciona una proteína necesitamos entender cómo es su estructura y cuáles son sus movimientos. Ése fue el gran salto del diseño computacional y la inteligencia artificial aplicada al estudio de proteínas: poder predecir a partir de la secuencia por lo menos la estructura de mínima energía. Ahora, podemos leer el código genético de miles de organismos de una forma muy económica y esos genomas no hacen más que codificar secuencias de proteínas. Entonces, a partir de las millones de secuencias que conocemos ahora, podemos explorar miles de millones de estructuras. Antes, estábamos limitados a las decenas de miles estudiadas experimentalmente y que estaban guardadas en los bancos de datos. Conocíamos la secuencia de millones, pero la estructura de miles. Ahora podemos predecir la estructura de todas ellas”.
Del mismo modo que Baker con el programa Rosetta, los creadores de AlphaFold2 liberaron su código. “Hoy cualquiera en su casa puede usarlo –cuenta Ferreiro–. Hay programas subidos a la nube que uno puede modificar y mejorar. Es un gran un ejemplo de ciencia abierta, porque desde que se publicó el programa mucha gente empezó a utilizarlo para, por ejemplo, estudiar los movimientos de las proteínas, o para que, a partir de una secuencia, no nos devuelva una sola estructura, sino una colección, ver cómo se relacionan entre sí y poder diseñar inhibidores”.
La capacidad de crear proteínas con nuevas funciones abre caminos insospechados que conducirán al diseño de nuevos nanomateriales, fármacos, vacunas y una industria química más ecológica, por nombrar solo algunas aplicaciones que nos pueden mejorar la calidad de vida.
En su laboratorio de la Facultad de Ciencias Exactas de la UBA, Ferreiro y su equipo estudian precisamente cómo es el proceso de plegado, ya que AlphaFold2, como ocurre con todos los programas de aprendizaje automático, es algo así como una caja negra. “Vos metés la secuencia y sacás una estructura. No sabés lo que pasa en el medio, lo que hace el programa de inteligencia artificial –ilustra el científico–. El programa no aprendió las reglas básicas que hacen que una proteína efectivamente se pliegue; de algún modo, ‘adivina’ [por asociación] el resultado final. Si uno ensambla secuencias de aminoácidos al azar, lo más probable es que eso no dé una proteína. Entonces, ¿qué hace que las secuencias naturales de proteínas se plieguen? Bueno, uno supone que hay procesos evolutivos ocurridos a lo largo de los últimos miles de millones de años que seleccionaron ciertas secuencias, que a su vez adquirieron estructuras funcionales. Nosotros utilizamos información evolutiva para entender los mecanismos de plegado; es decir, nos fijamos qué relación hay entre la evolución y el plegado”.
Para el investigador, en esta oportunidad el premio no se otorga a un hallazgo cuya comprobación le pone punto final a una serie de estudios, como ocurrió con el concedido a Peter Higgs cuando se probó la existencia de la partícula subatómica que lleva su nombre. “Se da al desarrollo de una tecnología que recién se está empezando a desarrollar –comenta–. Tenemos la suerte de que en los próximos años vamos a ver su impacto en la vida cotidiana con el diseño de proteínas para aplicaciones biomédicas, de saneamiento, ambientales, en agricultura... Todo un área de estudio llamada nanobiotecnología. Por ejemplo, los anticuerpos son proteínas que reconocen otras proteínas y se están utilizando para el tratamiento de muchísimos cánceres diferentes. [Conocer cómo se pliegan] puede ayudar a entender a qué se pegan y qué hacen. Incluso se podrían diseñar proteínas más eficaces que el propio anticuerpo para atacar estas patologías. Ya podemos diseñar estructuras a partir de secuencias. Bueno, ahora lo que tenemos que lograr es que sean funcionales”.
“Estamos viendo los primeros atisbos de una nueva era en biología. Los conjuntos de datos masivos disponibles públicamente, combinados con el aprendizaje profundo, están permitiendo descubrimientos que están transformando la atención sanitaria, el descubrimiento de fármacos, la ciencia de los materiales y mucho más. Esto es solo el principio”, coincide Jonathan Frazer, investigador del Centro de Regulación Genómica, de España, también en declaraciones a SMC.
Y concluye Ferreiro: “Estos avances ponen de manifiesto la importancia de los Estados en el desarrollo de la ciencia y la tecnología. La investigación que dio lugar a los premios Nobel fue posible por el esfuerzo estatal, que apoyó estas investigaciones durante años y años. Son los Estados los que permiten que se sostengan y luego se transfieran a las industrias”.