octubre 25, 2021

Blog de Habeas Data

Encuentra toda la información nacional e internacional sobre españa. Seleccione los temas sobre los que desea saber más

Nvidia y Microsoft lanzaron un modelo de inteligencia artificial por valor de 530 mil millones de variables • The Register

Nvidia y Microsoft anunciaron su modelo de lenguaje transformador monolítico más grande hasta la fecha, un modelo de inteligencia artificial con 530 mil millones de parámetros que desarrollaron juntos, llamado modelo Megatron-Turing Natural Language Generation.

El MT-NLG es más poderoso que los sistemas anteriores basados ​​en conmutadores que entrenaron las dos compañías, a saber, el modelo Turing-NLG de Microsoft y el Megatron-LM de Nvidia. MT-NLG consta de tres veces los parámetros distribuidos en 105 capas, y es mucho más grande y complejo. A modo de comparación, OpenAI Modelo GPT-3 175 mil millones de profesores y Google adaptador de interruptor La demostración contiene 1,6 billones de parámetros.

Más grande es generalmente mejor cuando se trata de redes neuronales. Requiere que absorban más datos de entrenamiento. MT-NLG es mejor en una variedad de tareas de lenguaje natural como autocompletar oraciones, preguntas y respuestas, lectura e inferencia que sus predecesores. También puede realizar estas tareas con poco o ningún ajuste fino, lo que se conoce como aprendizaje de bajo impacto o aprendizaje sin disparo.

A medida que estos modelos de lenguaje se hacen más grandes, los investigadores e ingenieros de IA necesitan idear todo tipo de técnicas y trucos para entrenarlos. Requiere un formato preciso: el modelo y sus datos de entrenamiento deben almacenarse y procesarse en muchos chips al mismo tiempo.

El MLT-NLG se entrenó utilizando la supercomputadora de aprendizaje automático Selene de Nvidia, un sistema de 560 servidores DGX A100 con cada servidor que contiene ocho GPU A100 de 80 GB. Selene también funciona con la CPU EPYC 7v742 de AMD y tiene un costo estimado de más de $ 85 millones. de acuerdo a a la siguiente plataforma.

READ  El BMW Serie 2 Coupé Designer 2022 muestra su trabajo en el M240i

Las 4480 GPU utilizan NvLink y NVSwitch para comunicarse entre sí. Cada uno era capaz de ejecutar más de 113 teraflops por segundo. Estos modelos son increíblemente costosos de entrenar, e incluso si se ejecutan en hardware de alta gama, requieren hacks de software para reducir los tiempos de entrenamiento. Utilice Nvidia y Microsoft DeepSpeed, una biblioteca de aprendizaje profundo que contiene código PyTorch que permitió a los ingenieros acumular más datos a través de muchas canalizaciones en paralelo.

“Al combinar la división de tensores y la conexión en paralelo con las canalizaciones, podemos ejecutarlas dentro del sistema donde son más efectivas”, dijo Paresh Kharia, director senior de gestión de productos y marketing para Accelerated Computing en NVIDIA, y Ali Alvi, director de programas grupales de Microsoft. Turing Team, explicado en un Entrada en el blog.

Más específicamente, el sistema usa el corte de tensor de Megatron-LM para escalar el modelo dentro de un nodo y usa el paralelismo de tubería de DeepSpeed ​​para escalar el modelo a través de los nodos.

Por ejemplo, para el modelo de 530 mil millones, cada réplica abarca 280 GPU NVIDIA A100, con un tensor de 8 vías que corta dentro de un nodo y un paralelismo de canalización de 35 vías entre los nodos. Luego, usamos el paralelismo de datos de DeepSpeed ​​para escalarlo a miles. de unidades de procesamiento de gráficos.

MT-NLG se entrenó en un conjunto de datos gigante conocido como pila. Compilado por Eleuther AI, un grupo de investigadores e ingenieros de inteligencia artificial que lideran un esfuerzo de base para grandes modelos de lenguaje de código abierto, se compone de múltiples conjuntos de datos más pequeños que suman un total de 825 gigabytes de texto extraído de Internet de fuentes como Wikipedia y repositorios Revistas académicas , clips de noticias.

READ  Puede hacer que los AirPods Pro crezcan constantemente durante el próximo año

Tratar con volúmenes tan grandes de texto significa que un conjunto de datos no puede limpiarse de lenguaje tóxico. Desafortunadamente, esto significa que MT-NLG puede generar resultados ofensivos que pueden ser racistas o sexistas.

“Nuestras observaciones con MT-NLG indican que el modelo recoge estereotipos y sesgos de los datos que se están entrenando”, dijeron Kharya y Alvi.

Microsoft y NVIDIA están comprometidos a trabajar para solucionar este problema. Alentamos la investigación continua para ayudar a determinar el alcance del sesgo del modelo … Además, cualquier uso de MT-NLG en escenarios de producción debe garantizar que se implementen las medidas adecuadas para mitigar y minimizar el daño potencial a los usuarios ”. ®