Imprimir
Inicio »Opinión, Ciencia y Tecnología  »

Adivinando a las proteínas (II): Inteligencia natural y artificial

| 1

Logotipo de Google frente a la sede de la empresa en Pekín, China. Foto: Reuters.

Desde hace más de medio siglo el Laboratorio Nacional de Brookhaven, en los EE.UU., y la Universidad de Cambridge, en el Reino Unido, se asociaron para crear un almacén de información acerca de la constitución de proteínas que se iban obteniendo a partir de mediciones experimentales. Inicialmente eran una pocas, pues una sola determinación era muy costosa en tiempo y recursos. Se trata del famoso “Protein Data Bank” o simplemente PDB. Hoy tienen diversos datos estructurales de cerca de 200 000 proteínas.

Paralelamente algunos científicos también se dedicaron a crear modelos teóricos de las estructuras de las proteínas. Si se sabe cómo están dispuestos los núcleos en los veinte aminoácidos y también la forma como ellos se asocian para producir las diversas proteínas es teóricamente posible saber cómo será la estructura terciaria de cualquier asociación de aminoácidos, usando la mecánica cuántica y algunas simplificaciones de esta.

Por las dos vías, y, sobre todo, asociando ambos procedimientos teóricos y experimentales, se han logrado éxitos grandiosos para el conocimiento humano que nos han permitido simular procesos en estos escenarios nanoscópicos y así entenderlos. Son muchos los resultados de este tipo que permiten que hoy podamos, por ejemplo, saber cómo es el antígeno que nos permitió hacer las vacunas contra el COVID-19.

Estamos tratando con información. El PDB tiene la de procedencia experimental, aunque los métodos teóricos intervienen determinantemente en los datos finales. No tiene que contar ni con una sola muestra física de alguna proteína porque lo que ellos colectan son datos. Los modelos teóricos son también información, pero producida por presupuestos conceptuales a partir de cálculos. Todo está construido a partir de como esos veinte aminoácidos pueden encadenarse como eslabones, e interactuar entre las diversas cadenas para dar las conformaciones que permiten que las proteínas desempeñen sus papeles respectivos en este maravilloso escenario.

El gigante informático Google acaba de dar a conocer que su sistema de inteligencia artificial tiene ya almacenadas las estructuras de 200 000 proteínas “obtenidas” con inteligencia artificial. Esto suena muy bien, pero requiere precisiones.

La corporación Alphabet, propietaria de la marca Google y de una empresa con ese nombre, dedica cuantiosos recursos a la investigación científica y la innovación. Si no hubiera sido así, no existirían o hubieran desaparecido hace tiempo del universo corporativo de este siglo. Muchos de esos recursos y resultados obtenidos y por obtener no tienen un propósito comercial inmediato y se ofrecen como licencias de código abierto y gratuito, lo que forma parte también de su estrategia comercial, aunque no lo parezca.

Dentro de las iniciativas de investigación está una de inteligencia artificial basada en el llamado “aprendizaje automático”. En esencia se trata de algoritmos que permiten que sistemas de cómputo electrónico busquen regularidades en cantidades muy grandes de datos, las “filtren” de acuerdo con criterios que va ajustando el ser humano que los diseña, y lleguen a obtener respuestas y predicciones sobre la base de esas regularidades.

La lógica es tan simple como la que usamos para acomodar las piezas de un rompecabezas. Nuestra mente tiene “aprendidas” las regularidades de cómo encajan las diversas formas de las piezas a partir de haber hecho otros antes o de la simple observación. También tenemos “aprendida” la lógica de la continuidad de las figuras que puedan conducir a una imagen final coherente del rompecabezas. Todos esos aprendizajes de las formas y las imágenes los acumulamos a través de nuestra vida, probando y errando o triunfando. Las máquinas también pueden aprenderlo, pero a velocidades mucho mayores que nosotros y por eso lo hacen con fuentes de datos inmensas.

El rompecabezas de cómo se pueden disponer dos, tres, cuatro y hasta cientos de aminoácidos en una proteína se logra a partir de un conjunto de estructuras conocidas que se seleccionan más o menos aleatoriamente en el mismo PDB. A este se le llama “conjunto de entrenamiento” o de aprendizaje porque es el que va a usar la máquina para “aprender” esas regularidades. Una vez que haya aprendido se verifica con otro conjunto diferente también seleccionado de forma aleatoria para ver si la predicción es correcta. A este otro se le llama “conjunto de prueba”.

¿Y cómo es que la computadora “aprende”? Hay varios métodos, algunos mejores que otros en dependencia de lo que se desee aprender. Uno muy popular y con un nombre espectacular es el de las llamadas “redes neuronales”. Su lógica básica es también muy simple. Ciertas fórmulas matemáticas a las que se les llama “neuronas” son evaluadas con un conjunto de datos. El resultado de las evaluaciones se somete a una selección a partir de otra fórmula matemática que las “aprueba” o “desaprueba” según el criterio que el programador le imponga. Los resultados “aprobados” pueden ser ya los deseados y entonces se generan expresiones matemáticas triunfadoras que nos reflejan tal aprendizaje. La máquina ha creado “neuronas” que se saben las reglas y está lista para aplicarlas a otros datos y darnos una predicción con muchas probabilidades de acertar. Las hay así de simples, pero también pueden tener muchos capas o pasos de selección. En estos casos se suele denominar al proceso como “aprendizaje profundo” (deep learning).

De esa forma es que el llamado “Alphafold” de Google ha creado un procedimiento de aprendizaje automático que permite que si usted le suministra una estructura primaria, él le haga propuestas de la o las terciarias que corresponderían. Anuncia ahora que tiene predichas las estructuras, al menos terciarias, de unas 200 000 proteínas a las que se les conoce la primaria1.

Tener estas predicciones significa un avance extraordinario. Tener la forma de hacerlo es mucho más. Y el camino que abre es aún más excelso. No es absurdo pensar que se trata de un primer paso para “diseñar” seres vivos, en toda su complejidad.

La nota triste es que estos sitios de la red de redes donde se pueden tener resultados tan alentadores, de forma libre de costo por un servicio tan apegado a la ciencia, no se puedan acceder desde un nodo de computadoras registrado en Cuba. ¿Quién sabrá cuál de las inmorales medidas del bloqueo a Cuba es la que se está aplicando para violar uno de los más elementales y humanos principios de la ciencia, que es la libertad de la diseminación del conocimiento? Es una verdadera vergüenza para cualquier científico que tenga que aplicar estas restricciones. Siempre tenemos que confiar en que la razón y la buena voluntad prevalecerán y que este tipo de medidas, y muchas otras, tienen sus días contados.

  1. (a) Jumper, J.; Hassabis, D., Protein structure predictions to atomic accuracy with AlphaFold. Nature Methods 2022, 19, 11-26; (b) Jumper, J.; Evans, R.; Pritzel, A.; Green, T.; Figurnov, M.; Ronneberger, O.; Tunyasuvunakool, K.; Bates, R.; Žídek, A.; Potapenko, A.; Bridgland, A.; Meyer, C.; Kohl, S. A. A.; Ballard, A. J.; Cowie, A.; Romera-Paredes, B.; Nikolov, S.; Jain, R.; Adler, J.; Back, T.; Petersen, S.; Reiman, D.; Clancy, E.; Zielinski, M.; Steinegger, M.; Pacholska, M.; Berghammer, T.; Bodenstein, S.; Silver, D.; Vinyals, O.; Senior, A. W.; Kavukcuoglu, K.; Kohli, P.; Hassabis, D., Highly accurate protein structure prediction with AlphaFold. Nature 2021, 596 (7873), 583-589.

Se han publicado 1 comentarios



Este sitio se reserva el derecho de la publicación de los comentarios. No se harán visibles aquellos que sean denigrantes, ofensivos, difamatorios, que estén fuera de contexto o atenten contra la dignidad de una persona o grupo social. Recomendamos brevedad en sus planteamientos.

  • Eddy dijo:

    Profesor, me acabo de enterar que al profesor norteamericano Robert Langer le acaban de otorgar el premio Fronteras del conocimiento, la historia de éste científico la conocí a través de un podcast donde lo entrevistan en Academy of Achievements, brutal la cantidad de escollos que tuvo que sortear, desde subestimación de parte del establishment científico porque Langer es ingeniero químico no es médico y su labor se ha desarrollado en el área de la medicina, hasta problemas para financiar sus investigaciones, pero lo que más me impresionó fue su amor por el prójimo por la sociedad ya que cuando se graduó en los 70 en el MIT los ingenieros químicos iban directo a la industria petrolera a ganar mucho dinero y él decidió ayudar a la sociedad queriendo fundar una escuela para niños pobres en Nueva York que no fructificó para finalmente terminar desempeñándose en el área biomédica en el laboratorio de Judah Fokman, hoy el doctor Langer dirige el laboratorio de investigación biomédica del MIT.
    Profesor alguna vez usted ha coincidido en algún congreso o evento con él???

Se han publicado 1 comentarios



Este sitio se reserva el derecho de la publicación de los comentarios. No se harán visibles aquellos que sean denigrantes, ofensivos, difamatorios, que estén fuera de contexto o atenten contra la dignidad de una persona o grupo social. Recomendamos brevedad en sus planteamientos.

Luis A. Montero Cabrera

Luis A. Montero Cabrera

Doctor en Ciencias. Presidió el Consejo Científico de la Universidad de La Habana más de tres lustros. Miembro de mérito y coordinador de ciencias naturales y exactas de la Academia de Ciencias de Cuba.

Vea también