abril 26, 2024

Blog de Habeas Data

Encuentra toda la información nacional e internacional sobre españa. Seleccione los temas sobre los que desea saber más

Meta dice que ha creado un modelo de próxima generación de plegamiento de proteínas • The Register

Meta dice que ha creado un modelo de próxima generación de plegamiento de proteínas • The Register

Los investigadores de IA de Meta dicen que han desarrollado el modelo de plegamiento de proteínas más grande de su tipo hasta la fecha y que es capaz de predecir la estructura de más de 600 millones de proteínas.

el equipo cofre El modelo basado en el adaptador ESM-2 de 15 mil millones de variantes y una base de datos para sus predicciones de estructura de proteínas, denominado Atlas metagenómico ESM, martes. Esta base de datos incluye isoformas de proteínas que los científicos aún no han observado.

Las proteínas son moléculas biológicas complejas que contienen hasta 20 tipos de aminoácidos y realizan todo tipo de funciones biológicas en los organismos vivos. Fundamentalmente, se pliegan en estructuras 3D complejas, y su forma es vital para su funcionamiento; Saber cómo se ve ayuda a los científicos a comprender cómo funciona y, a partir de eso, les ayuda a descubrir formas de imitar, cambiar o contrarrestar ese comportamiento.

Desafortunadamente, no puede simplemente tomar la composición de aminoácidos e inmediatamente trabajar en la estructura final. Puede ejecutar simulaciones o experimentar para averiguarlo, pero eso lleva mucho tiempo. En estos días, puede proporcionar software de aprendizaje automático debidamente capacitado para la estructura química de una proteína, y el modelo predecirá la estructura de manera rápida y precisa, en términos relativos.

De hecho, DeepMind ha demostrado mucho con su modelo AlphaFold, que ganar – ganar CASP International Bienal Protein Folding Competition en 2020. Debido a una cadena de entrada de aminoácidos, AlphaFold y otro software de aprendizaje automático pueden generar la estructura 3D correspondiente.

Desde entonces, los investigadores de DeepMind, con sede en Londres, han mejorado su sistema para orgullo La estructura de más de 200 millones de proteínas es conocida por la ciencia. El último sistema ESM de Meta fue aún más lejos, prediciendo cientos de millones después de haber sido entrenado en millones de secuencias de proteínas.

Documento preliminar del equipo Meta – Lin et al – que explica el diseño del ESM-2 se puede encontrar aquí. Curiosamente, según Investigadores, el sistema es, de hecho, un gran modelo lingüístico que está diseñado «para aprender patrones evolutivos y generar predicciones estructurales precisas de extremo a extremo directamente a partir de secuencias de proteínas». AlphaFold, por ejemplo, no es un lenguaje modelo y utiliza un enfoque diferente.

READ  Revisión: M1 Max MacBook Pro tres meses después

Como señala Boffin en su artículo, estos grandes modelos de lenguaje se pueden usar para mucho más que tratar con lenguajes humanos: “Los modelos de lenguaje moderno con decenas a cientos de miles de millones de parámetros desarrollan capacidades como la traducción de lenguaje de baja precisión, el razonamiento lógico y las matemáticas. Resolución de problemas Todo sin supervisión explícita.

«Estas observaciones plantean la posibilidad de una forma paralela de aparición de modelos lingüísticos entrenados en secuencias de proteínas».

El resultado es ESM-2, que, aunque se ha enseñado un modelo lingüístico, puede predecir la forma física de una proteína a partir de una cadena de texto que representa los aminoácidos.

ESM-2 es el modelo más grande de su tipo, aparentemente prediciendo estructuras más rápido que sistemas similares; Es hasta 60 veces más rápido que los últimos sistemas anteriores como AlphaFold o Rosetta, que pueden tardar más de diez minutos en generar una salida, según Meta.

El modelo fue capaz de crear el Atlas Metagenómico de la ESM y predijo más de 600 millones de estructuras de MGnify90 Base de datos de proteínas en solo dos semanas ejecutándose en 2000 GPU. En una sola GPU Nvidia V100, solo se necesitan 14,2 segundos para simular una proteína de 384 aminoácidos. Del artículo de investigación se desprende que Meta dijo que su sistema coincide en su mayoría, pero no completamente, con AlphaFold en términos de precisión, aunque su velocidad es la clave, lo que le permite predecir más proteínas.

«Usando las herramientas informáticas de última generación actuales, predecir las estructuras de cientos de millones de cadenas de proteínas en un marco de tiempo práctico puede llevar años, incluso utilizando los recursos de una importante institución de investigación. Para hacer predicciones a nivel de metagenómica, un gran avance en la velocidad de predicción es fundamental”, dijo el propietario de Facebook.

READ  ¿Nuevo Chromecast con Google TV para 2022 en preparación?

Meta espera que el ESM-2 y el Atlas metagenómico del ESM hagan avanzar la ciencia al ayudar a los científicos a estudiar la historia evolutiva o abordar las enfermedades y el cambio climático. «Para extender aún más este trabajo, estamos estudiando cómo se pueden usar modelos lingüísticos para diseñar nuevas proteínas y contribuir a resolver desafíos en salud, enfermedades y medio ambiente», concluyó Pease. ®