Nvidia y Microsoft lanzaron un modelo de inteligencia artificial por valor de 530 mil millones de variables • The Register

Nvidia y Microsoft anunciaron su modelo de lenguaje transformador monolítico más grande hasta la fecha, un modelo de inteligencia artificial con 530 mil millones de parámetros que desarrollaron juntos, llamado modelo Megatron-Turing Natural Language Generation.

El MT-NLG es más poderoso que los sistemas anteriores basados en conmutadores que entrenaron las dos compañías, a saber, el modelo Turing-NLG de Microsoft y el Megatron-LM de Nvidia. MT-NLG consta de tres veces los parámetros distribuidos en 105 capas, y es mucho más grande y complejo. A modo de comparación, OpenAI Modelo GPT-3 175 mil millones de profesores y Google adaptador de interruptor La demostración contiene 1,6 billones de parámetros.

Más grande es generalmente mejor cuando se trata de redes neuronales. Requiere que absorban más datos de entrenamiento. MT-NLG es mejor en una variedad de tareas de lenguaje natural como autocompletar oraciones, preguntas y respuestas, lectura e inferencia que sus predecesores. También puede realizar estas tareas con poco o ningún ajuste fino, lo que se conoce como aprendizaje de bajo impacto o aprendizaje sin disparo.

A medida que estos modelos de lenguaje se hacen más grandes, los investigadores e ingenieros de IA necesitan idear todo tipo de técnicas y trucos para entrenarlos. Requiere un formato preciso: el modelo y sus datos de entrenamiento deben almacenarse y procesarse en muchos chips al mismo tiempo.

El MLT-NLG se entrenó utilizando la supercomputadora de aprendizaje automático Selene de Nvidia, un sistema de 560 servidores DGX A100 con cada servidor que contiene ocho GPU A100 de 80 GB. Selene también funciona con la CPU EPYC 7v742 de AMD y tiene un costo estimado de más de $ 85 millones. de acuerdo a a la siguiente plataforma.

READ El nuevo Galaxy S23 Ultra Leak revela la actualización masiva de Samsung

Las 4480 GPU utilizan NvLink y NVSwitch para comunicarse entre sí. Cada uno era capaz de ejecutar más de 113 teraflops por segundo. Estos modelos son increíblemente costosos de entrenar, e incluso si se ejecutan en hardware de alta gama, requieren hacks de software para reducir los tiempos de entrenamiento. Utilice Nvidia y Microsoft DeepSpeed, una biblioteca de aprendizaje profundo que contiene código PyTorch que permitió a los ingenieros acumular más datos a través de muchas canalizaciones en paralelo.

«Al combinar la división de tensores y la conexión en paralelo con las canalizaciones, podemos ejecutarlas dentro del sistema donde son más efectivas», dijo Paresh Kharia, director senior de gestión de productos y marketing para Accelerated Computing en NVIDIA, y Ali Alvi, director de programas grupales de Microsoft. Turing Team, explicado en un Entrada en el blog.

Más específicamente, el sistema usa el corte de tensor de Megatron-LM para escalar el modelo dentro de un nodo y usa el paralelismo de tubería de DeepSpeed para escalar el modelo a través de los nodos.

Por ejemplo, para el modelo de 530 mil millones, cada réplica abarca 280 GPU NVIDIA A100, con un tensor de 8 vías que corta dentro de un nodo y un paralelismo de canalización de 35 vías entre los nodos. Luego, usamos el paralelismo de datos de DeepSpeed para escalarlo a miles. de unidades de procesamiento de gráficos.

MT-NLG se entrenó en un conjunto de datos gigante conocido como pila. Compilado por Eleuther AI, un grupo de investigadores e ingenieros de inteligencia artificial que lideran un esfuerzo de base para grandes modelos de lenguaje de código abierto, se compone de múltiples conjuntos de datos más pequeños que suman un total de 825 gigabytes de texto extraído de Internet de fuentes como Wikipedia y repositorios Revistas académicas , clips de noticias.

READ Nueva filtración de Google revela la actualización de Google Photos para ahorrar dinero

Tratar con volúmenes tan grandes de texto significa que un conjunto de datos no puede limpiarse de lenguaje tóxico. Desafortunadamente, esto significa que MT-NLG puede generar resultados ofensivos que pueden ser racistas o sexistas.

«Nuestras observaciones con MT-NLG indican que el modelo recoge estereotipos y sesgos de los datos que se están entrenando», dijeron Kharya y Alvi.

Microsoft y NVIDIA están comprometidos a trabajar para solucionar este problema. Alentamos la investigación continua para ayudar a determinar el alcance del sesgo del modelo … Además, cualquier uso de MT-NLG en escenarios de producción debe garantizar que se implementen las medidas adecuadas para mitigar y minimizar el daño potencial a los usuarios ”. ®

Clímaco Perez

«Experto en Internet. Lector. Fanático de la televisión. Comunicador amistoso. Practicante de alcohol certificado. Aficionado al tocino. Explorador. Malvado adicto a los tweets».

Nvidia y Microsoft lanzaron un modelo de inteligencia artificial por valor de 530 mil millones de variables • The Register

El Chromecast HD de Google cuesta solo $20

Los jugadores de Overwatch 2 que utilicen “periféricos no aprobados” pueden estar sujetos a una prohibición permanente

Google está combinando sus divisiones de software Android y hardware Pixel para integrar la IA de manera más amplia

El Chromecast HD de Google cuesta solo $20

Los casos de dengue alcanzan los 5,2 millones en las Américas mientras el brote supera el récord anual, dice la Organización Panamericana de la Salud

Athletic de Bilbao celebra la Copa América antes de empatar 1-1 con Villarreal en la Liga española

Se dice que el expresidente vuelve a quedarse dormido

Deja una respuesta Cancelar la respuesta

More Stories

El Chromecast HD de Google cuesta solo $20

Los jugadores de Overwatch 2 que utilicen “periféricos no aprobados” pueden estar sujetos a una prohibición permanente

Google está combinando sus divisiones de software Android y hardware Pixel para integrar la IA de manera más amplia

You may have missed

El Chromecast HD de Google cuesta solo $20

Los casos de dengue alcanzan los 5,2 millones en las Américas mientras el brote supera el récord anual, dice la Organización Panamericana de la Salud

Athletic de Bilbao celebra la Copa América antes de empatar 1-1 con Villarreal en la Liga española

Se dice que el expresidente vuelve a quedarse dormido